本文根据裘皓萍在10月21日微盟Open Day 的演讲整理而成。
裘皓萍
微盟业务支持技术部、到店技术部及算法研究中心负责人,复旦大学计算机硕士,百度前精准定向、图片搜索、电商搜索、推荐系统算法负责人。
大家下午好。刚才猎聘的演讲嘉宾分享的内容让我觉得很欣慰,现在算法工程师的薪资很高,说明市场对算法的产出是很认可的。我今天分享的内容,一部分是业务层面的,一部分是技术层面的,希望对大家能有一些启发。
今天要讲的内容叫无智慧,不零售。演讲标题挂羊头卖狗肉的成份是有的。为什么这样讲?如果说把零售行业所有用到的智慧或者智能的东西拿出来讲,半个小时是不够的,可能要跟大家讲一天。所以今天更多的是引导,或者说给大家的一些启发。
智慧in零售
零售之前的定义是人、货、场,最近越来越多的人开始关注物品配送和仓储,新的观念就变成了人、货、场、仓四个部分。马云给的定义是通过运用大数据、人工智能等先进手段,对商品的生产、流通与销售过程进行升级改造。我们之前一直关注的只是销售过程,我们希望把东西卖给更多的人,卖的更好。商品的生产与流通两个环节,之前已经有智慧或者人工智能开凿这个理念。现在我们要思考的是到底应该做哪一些事情让智慧到达零售这一步。
第一个很简单,我们过去十年都在干这个事情,叫做人和货之间线上的精准营销。最近外卖小哥越来越多,盒马鲜生开始做优化配送,这一些都是利用智慧,或者说机器的智能做优化。前十年我们算法大多数做这些事情。
最近几年开始做的事情是货、场之间的精细化运营。
什么叫精细化运营?比如说一线城市和二线城市的大卖场,即使同一个品牌的大卖场卖的东西也不一样。我家旁边的全家和你们家旁边的全家,每个人附近的全家卖的货也是不一样的。宝山区和静安区的同一个超市内,配的货是不一样的,量是不一样的,甚至可能出现价格是不一样的。在这上面就是货跟场之间的精细化运营。
2017,线下零售
接着我们看到人和场之间有什么样的空间可以去做,这里面就是最近开始,或者说2016年年底引发出来的比较热潮的东西,也比较符合刚刚HR所列出来的整个算法工程师高起的时间,也就是2016年到2017年。
这个时间里我们做了一个事情,更注重人场匹配的情景。什么叫人、场匹配?我刚才说了我家旁边的全家和你们旁边的全家卖的不一样,但是依然要依赖店面的客流。慢慢的,现在的场可以实现我服务的不是你们家附近十几个小区几万号人,而是服务于一个楼层,一栋楼,甚至于一个办公区域的人,我可以做的更精细、更直接。
比如说一栋办公楼五楼是销售,三楼是研发,他们喜欢的东西是不一样的。销售购买的价格段和研发购买的价格段也不一样。当我要卖衣服的时候,如果我在商场里开店,你走过路过爱进来就进来。但如果追踪到非常精细化,我可以在你家门口挂一个衣柜,这个衣柜里放的肯定是经过精细化的分析你会喜欢的东西。在这个时候人和场的精细化匹配成为了可能。为什么?现在你家门口一个平方因为技术的原因可以利用起来,原来是不可以的。在这个状态下,我们可以认为人和场之间是最贴近今天的话题的部分。
中间是B端,所有的厂商商家可以给到他们智能的场景,更多的是标准流程的重构,以及效率提升和成本降低。如果突然有一天发现一块GPU的价钱就是一个人一个月的工资,我们发现用机器学习是可行的。后面会告诉大家还没有那么可行,但是至少是一个开端。
今天讲智慧在零售当中的使用,我们就讲一个热点:2017年的线下零售。线下零售在2017年发生了什么?第一件事情,2016年12月的时候,亚马逊做了Amazon Go的线下店,也叫无人店。正是因为这一波,到2017年7月整个市场都火了,很多钱砸到这个市场里,包括快猫、每日优鲜、果小美等等,都在做这一块。7月份阿里搞了一个大会搞了淘咖啡。这给了我们非常大的想象空间。
类似每日优鲜、果小美的的货柜,我给它起了一个名字,叫摸着良心买东西的柜子。这些门是不装锁的,买东西先扫码进入线上商城,选择物品加入购物车,拿完付款走人,都是凭自觉的。
同步孵化的缤果盒子之类的,像集装箱一样,进去之后可以买东西,这个柜子一般有限制,比如进去的人同时不能超过多少个,需要自觉到里面结算等。
第三种柜子我们考察当中遇到的并不多,但是它的形态非常健全,是机械型的。我们去考察的这一家成熟到什么程度?20年前,欧美很多市场DVD的租借机就是它做的,它的每一个模块都非常健全,但是成本相对也较高。这非常适合国内单价很高的商品,如酒、化妆品等。最近逛街会看到很多快闪店,化妆品搞促销或者路演都会用这个。因为里面东西的价格动辄上百成千,不允许大家随便打开摸一摸看一看,说不定手一滑打翻了,所以必须用机械化的方式全封闭。这种货柜确实有非常大的市场。
一年时间之后,消磨掉了很多公司,2018年年初的时候果小美、猩便利开始把货架往回撤。但是艾瑞的数据显示,到2020年整个市场还是有600多亿的市值,还是很可观的规模。
无人的突破口
整个火热劲过完之后发现一点,没有智能这件事情是做不下去的。因为你的货损会远远大于你的收益。比如我习惯先拿一包零食,但是现在没有时间一会儿再来付,但这件小事很容易被忘记,一旦慢慢的习惯了之后货损就会很高。虽然前期货损相对较低,但随着柜子放在那里的时间越长,货损会越来越明显。所以没有智能这件事情是做不下去的。
我们去做无人零售,目标是什么?人效和坪效都是传统零售行业的目标。现在盒马鲜生做到的坪效就很高,高到普通店做不到的程度。现在的目标更多的是追求无人的能力,把这种能力先开发出来,而不是无人的体验。
我们讲两个突破口,第一个突破口是低智能,更多的是机械化的重复操作,比如说收银、取货、支付等等,这些便利店的收银员们做的工作。另外一种是高智能,更多的是决策层在做的事情。比如店长负责核查每一天的账单觉得店更适合卖什么东西,价位是什么样的,开在这里是不是很合适,后面促销的活动应该是怎么样的。
所以到底是低智能容易实现还是高智能容易实现?其实在实操的体验当中,我自己更倾向于高智能容易实现。为什么这样讲呢?因为现在很多高智能的东西,过去十年我们已经反复在做,BI、预测、搜索、推荐系统等等,这些其实已经可以做出来,至于做的好不好,一些边界我们目前还达不到,这是事实。反而低智能的我们现在是有壁垒的。
现在主要在用的智能的点是这样几个。
第一个是RFID,最早推向失眠的智能柜就是RFID。RFID怎么做呢?所有放进去的商品上面贴一个RFID的标,顾客开门把东西拿完之后把门关上,自动启动线圈的检索。RFID有几个问题,首先每一个标签的价格在毛的级别,第二它对于水和金属有各种不可使用的情况,很多我们叫飞标,就是一个瓶子不能贴在上面,只能把标签强制绑着,产生一个飞起的角度。第三个是在于可破坏性比较强。RFID是目前技术比较成熟的,很多年之前物联网的时候就已经有了。
第二类技术是各类Sensor,比如重量感应。
第三个机械化。
第四个是人的识别。因为计算机视觉的可行性变得更大了,我们突然发现这件事情变得可行了。所以简单跟大家讲一下计算机视觉在这个领域中用在了什么样的地方。
最早接触的是快猫用的动态识别,过程是这样的,扫码确定个人身份之后开门,里面布了很多摄像头,你开门手伸进去摄像头都在取样,取样之后拿了一个瓶子出来,继续取别的东西。
这个过程中动态识别做三件事情。第一,通过不同方向的摄像头识别你的手拿的是什么;第二,对肢体进行识别,会识别你的手和手臂;第三,趋势的识别,知道你是拿出来还是放进去,做前后图像的关联。每一帧取完之后可以调整购物车,最后做关门结算。
这个过程很贴近一个人正常的判断方式,直观理解就应该是这样的。如果一个小孩儿站在边上,也应该是这样看的。但是它整个过程中有几个限制,第一个对GPU的要求很高,差不多在四到六个摄象头就要求有一个GPU。第二,手部的遮挡对于商品识别会产生非常大的影响,导致识别错误率上升。第三,识别过程中很多环境的因素也会影响很大,例如光照变化,外部如果有人穿着全身鲜红的衣服,识别拿取的商品就会有影响。第四,快速运动和运动模糊,背景相似干扰、遮挡和出视野。出视野是指运动的区域是摄像头的死角。
枯木逢春还是难逃困局
是枯木逢春还是难逃困局?现在柜子上用到的技术是很早以前就有了,只不过之前的计算能力没有那么高,配送灵活性没有那么强,也可能还没有人想到这样的想法。除了需要考虑GPU成本,还有Sample的问题,样本数量很少。这些商品在特定环境下拍的照片量不是很多,还需要标注,每个商品都需要相应的标记。后来改为了静态识别,你开门那一刹那我知道里面有什么,关门之后再清点一遍里面有什么。这个很像RFID的方案,这样就变得简单一些,只需要做货的识别。在这样的情况下出现了比较好用的柜子,相对难挑战它的极限,但是还是会有意外的情况出现。
智能,不仅仅是识别
刚刚提到的识别,就不继续展开了,它的技术并不是特别先进,只不过近来有优化。另外这里面智能不光是识别上,还尝试半自动像素级标注。整个东西的难点在于它的标注。为什么这样讲?一是本身基于商品的标注就很少。第二,一旦品种少的时候做一些采样就是人工的,一个人站在柜子前拿进拿出。
我们做的第一个事情就是是数据的解析。每一张图输入RGB+边框。第二个部分是网络结构,网络结构尝试了两种,一个是Deeplab V3,依靠空洞卷积,把视野扩大,整个计算量不会上升。所以空洞卷积适用于尝试一些机器翻译,或者说需要关联前后语音方面的挖掘。另一个是PSPNet,做不同粒度的解析。我们一共试了三个不同的dilation将两个方法做了一下对比,从结果来看,抠出来的效果不会有什么差别,但是PSP的速度更快一些。
从柜到店,是更多维度的挑战
大家会说既然柜子都可以做出来,无人店有什么难的。很抱歉这不是一个数量级别的问题,刚刚讲了半天都是货的识别,根本不在乎顾客是谁,整个过程中外面的人看不到脸也没有关系,反正是扫码。
但是amazon的无人店一次只能进20个人,为什么要限制这个?人的识别是有局限性的,完成人货匹配是有技术难度的。人的识别通过进来之后扫码绑定,接着通过各种方式,比如摄像头等,得到你的特征。那到了柜子前面怎么知道是你开的,是你拿的牛奶,这一块上面还有非常大的想象的空间。
至于特征,之前快猫有个尝试,在门把手做了掌静脉检测,可以通过掌静脉唯一识别一个用户。难度一个是在于计算跟不上,可以支持的人的数量不多。第二个是定位,你在店里从哪里走到哪里,之前有一些技术可以支持,但是不太合适。amazon无人店的天花板上装了几十个用于定位以及知道你到底是谁的盒子。
amazon真正的无人店是最近才开出来的,这一块货和人的识别以及人或者货匹配才是后面最大的问题,我个人并不觉得这一块可以非常快的解决,让无人店真的达到无人的体验。目前是Sensor和计算机视觉和人的识别结合起来的做法。
理想与现实的差距
无人店的实现,还存在理想和现实的差距。第一个是硬件的可维护性,即使卖掉一万台柜子,但是你在新疆,买去了我都维护不上,所以柜子中部件的高效、合理组装还在摸索。第二个是鲁棒性,每一个新商品加入到模型都要重新采样,模型要重新训练、评估,这个难度和工作量是非常大的。第三个是灵活性,无人店要面对很多人的挑战,店内技术需要对自己做快速调整,这一块的挑战会很大。
让一部分技术先用起来
我的理解是,最近的努力是为了让一部分技术先用起来,办公场景以及最后500米的问题,正在通过无人柜尝试解决。第二个是线下到线上的B端供应链,这个柜子挑战的不仅是用户端的技术,对配送的挑战也非常大。我们之前合作的物流公司还没完全摸索出一个楼里配十几个柜子的高效方式,要带十几个箱子上楼去。配货单打印后与每个柜子的配送箱关联也非常困难,这一块细颗粒化和灵活性的挑战会很大。这些全部是问题。
那么高智能方面可优化点有哪些呢?例如群体人群的推荐系统,之前是针对个人的,猜你喜欢什么,回头这一些小颗粒的柜子或者店出去之后更多挑战群体人群的推荐。假设你喜欢格子衬衫,但是这一栋楼就你喜欢格子衬衫怎么办?在这个状态下对于原先的推荐系统需要做一定的调整,中间会有取舍。第二个是线下AB Test合作。第三个是精准触达,这个现在已经都有了,这里面考验的东西是在于怎么把线下和线上的人打通,并高效触达。第四个是个性化的营销活动,有很多的空间。比如我们的柜子上为什么装一个屏,就是为了搞营销活动可以触达更多的人。
线下与线上,同质化
说了这么多,微盟在这上面已经做了什么事情呢?
从最表象来说,微盟可以提供很多解决方案。我们第一位分享者讲到的是新零售的解决方案,与微商城是一体化的。到店解决方案实现线下门店和线上商城一体化的运营,你买一个店有三店,门店、外卖店还有线上商城。我们也提供了无人零售的解决方案,光有柜子是不够的,背后必须有完整的SaaS解决方案,它有运营后台,有商品管理,订单管理等等。还有智慧外卖,也是提高人效和坪效非常好的方式。再下面一层是营销、运营、配送的精准化。这些都是线上搬到线下的东西,用户画像、商品画像、渠道画像、供应链画像。最下面是供应链、制造,如果程度更深一层直接到制造的话,还有品控还有招商,应该选哪些商品放到你的店里卖。
这就是我理解的我们现在在部分新零售场景中应用的一些机器学习的方法,谢谢大家。
文末福利
欢迎在留言区写出您的读后感,我们将选出一位幸运儿送出礼品一份。