马云的“无人超市”不是最好?听亚马逊朋友讲无人超市最优形态
发布时间:2018-03-14 报送来源:硅发布

以下为亚马逊AWS Rekognition创始成员、全栈工程师刘天强。刘天强也是计算机视觉公司 Orbeus 联合创始人,2015 年底,亚马逊以数千万美金收购 Orbeus。


    对计算机视觉“技术类”公司创业周期看法
    从“退出”角度,我个人感觉:计算机视觉相关领域的“技术类”创业公司目前这一波机会已经不多,就是基本上已经没有太多被大公司收购机会。
    我们公司 Orbeus 当时被收购时间点其实很有趣:2012 年成立,2015 年末被收购。后来我专门做过一个表格,想看下如果我再创业该怎么选择“赛道”,这个表格就是有关计算机视觉相关领域技术类创业公司的收购潮。你基本可以看到:收购潮从 2012 年开始;2013 年起来;2014 年达到顶峰;2015 年开始往下掉;而到今年 2017 年,已基本差不多没有。但是为什么呢?
    因为计算机视觉这块我已经做了十几年,从在波士顿大学时开始做,看到这个领域的一些变化:在 2012 年的 NIPS上,DNN 鼻祖 Hinton 的弟子 Alex 发明了著名的 AlexNet,把“物体识别”技术往前推进一大步,“物体识别”技术最早准确度能达到 40% 左右,但经过他之后,准确率能达到 60%。这之后,谷歌有过几个大的收购,包括 2014 年初以 6 亿多美金收购 Deepmind,还有其它大公司有些大的收购。但注意:当时的收购全都是“技术收购”,收购的都是些做算法公司(相当于类似“研究所”),而这里大公司收购潮发生原因是:他们看到一些变化,觉得 AI 这个东西应该可以有效,于是开始构建自己内部 AI 团队,因为这些公司原有团队里没有这方面人才,就想通过收购方式去获得,然后基于这些被收购团队之上去建立自己内部 AI 团队。除收购外,当时这些大公司还热衷挖学术圈人才,比较著名如 Yann LeCun 去了 Facebook,吴恩达去了百度。
    就像 Orbeus 被收购后,我们其实是并入了亚马逊云 AWS 团队,用“计算机视觉”技术,去帮亚马逊构建云 AWS。而到 2015 年左右,其实大公司对计算机视觉相关领域技术公司的收购潮已基本往下掉,因为他们内部 AI 人才储备工作已做得差不多,所以你会看到:今年这方面创业公司收购非常少,可能也就是英特尔收购自动驾驶公司 Mobileye 是个比较大量级收购。这是一方面。
    另一方面:很多计算机视觉相关公司都做技术,我们的普遍理解是:AI 就像一个“工业”,本质上是提高工作效率,也就是说,计算机视觉创业公司做“应用”方面不是很现实:第一,应用方面,创业公司不一定能玩转得过来;第二,即使做应用,未必是巨头感兴趣领域,因为它不是“通用”类型的那种创业。所以接下来如果我再创业,应该不会说特别要去选计算机视觉相关领域,或者说,不强求这个东西一定要用到计算机视觉相关东西。
    但是注意:我这里说的收购潮有两个限定词:1)是“计算机视觉”领域;2)是“技术/算法”这块。AI 整个领域讲还在扩大,但我没有对整个大 AI 做过调查。另外比如说像做自动驾驶等这些,还有大量风投资本进入,但这块属于“应用”层面,它机会还有很多,尤其这两年,收购应该会一直发生。
    “无人超市”最优形态和商业模式
    因为我本人在亚马逊,有关公司商业机密事宜我不能谈,但我们可以从用户体验角度来谈一下,最理想的“无人超市”应该是怎么去运作。
    在亚马逊 Amazon Go 概念引领下,目前“无人超市”这个领域异常火,但这里存在一个误区:即很多人过于注重追求“无人”这个外在,而忽略了这样的形式能否改善顾客体验。
    文化上讲,亚马逊是一家奉行“顾客至上”理念的公司,因此亚马逊做 Amazon Go 本意,绝不仅仅是节省人力成本,更多是亚马逊相信:这样的方式能给顾客更好购物体验。所以,理想的“无人超市”内核应该是:重新思考顾客去超市购物这个行为的整个体验,然后发掘出能用技术去改善的部分,投入工程力量进行开发、迭代。这时,技术是手段,不是目的,“无人”应该是用技术把体验优化到极致后,自然而然的结果。
    我们想象一下:假设是自己去超市买东西,这里哪个环节是您最讨厌的?许多人会说“结账”。


    大部分人都有看着前面那个顾客购物车里满载东西而觉得等待很无奈的经历,而如果是自己去自助结账(美国有自助结算机器,如超市 Safeway 里就有),扫码过程繁琐不说,水果、蔬菜,常常还要自己手工输入号码,操作不正确时,还要招呼旁边忙得不可开交的店员。所以,目前多数无人店聚焦解决的主要技术问题就是:如何能简化用户支付。
    这里就提出两个更具体的技术问题:第一,怎么判断一个顾客进出超市时间?第二,如何识别用户购买的具体商品(数目、种类)?
    对第一个问题,先来看进入超市流程。无论是 Amazon Go 还是国内的“淘咖啡”,公开可知方式都是:拿 APP 扫码,也就是此时,您给超市的中央系统发出一个信号:我 xx 来了,这个环节大家没有太多分歧,而重要的是:对顾客走出超市的动作,这时,不同技术路线就显示出分歧。
    比较简单且低成本方案是:结算时用“人脸识别”技术,判断出门的顾客和哪一位进入的顾客是同一个人,这里,只需在该用户注册账号时采集到他足够人脸数据就行。尽管“人脸识别”会遇到光线、角度等问题,但对目前识别率高于 99.97% 以上的“人脸识别”算法来讲,需要额外再做的工作并不多。
    但这个方案缺点是:仅在结算阶段“关联”用户的身份,无法对其购物中间过程进行全程追踪,这样便失去了利用这些数据编排货架、筛选商品的机会,虽然解决了眼前技术问题,似乎全程也不需人参与,但牺牲掉了未来改进体验的空间。
    而另一种技术路线是:在天花板上架满摄像头和红外感知设备,从用户进入商店那一刻,就触发追踪系统,全程追踪每个顾客在商店里行走的轨迹,一旦这么做后,用户“出店”这个动作,便不用专门进行一轮新识别了。
    这个技术既达成用户进出商店的身份匹配,又为未来改进货架和商品品类留下想象空间。但缺点是:研发成本高,比如在无人店天花板上,需要布满摄像头和红外,这就有点像语音里面的“鸡尾酒会问题”——真人看,问题不难;但对图像讲,现在还比较难,因为会有需要直面比第一种方案复杂得多的临界情况。
    包括 Amazon Go 一直在调试,也是因为有各种奇怪的案例解决不了。我举个例子:比如你在超市里拿东西,两个人当中“交叉”了一下,刚好你们又穿一样的衣服,然后就认不得哪个是哪个人了;甚至说,我一开始穿不一样的衣服,然后突然有个人把一件衣服扔给另一个人,那个人把这件衣服套上,那接下来这个摄像头到底认为哪个人是哪个人?这里有太多“可能性”,有非常多奇奇怪怪的个案在。
    简而言之:第二种方案,是利用一次性投入的高研发成本,来换取未来体验改进的空间。在资源无限情况下,我个人比较支持这个技术路线,但它不适合创业公司做。