图片来源@视觉中国
文 | 字母榜
新一代个人AI助理之战,终于打响了。
9月,三家公司发布了重要预告,标志着这个节点的到来。这三家公司分别是亚马逊、微软和OpenAI。
亚马逊在21日的秋季硬件发布会上宣布,“老牌”语音助理Alexa终于要升级,融入大语言模型。新Alexa延迟更低,能理解上下文、记忆此前的对话、无需来回唤醒,而且还会越用越个性化。
同样是在9月21日,微软在美国纽约召开秋季发布会,宣布自26日起将逐步给Windows11用户推送系列更新,其中一个重要更新是人工智能助手Copilot。Copilot,正如其名“副驾驶”,要成为用户的数字管家,将出现在Windows11的侧边栏,可以语音对话,允许用户通过其控制PC上的设置、启动应用程序,或是回答问题等。驱动Copilot的是OpenAI目前最先进的大语言模型GPT-4。
没过几天,25日,OpenAI突然放招,发布公告《ChatGPT现在能看、能听、能说》,宣布将在未来两周向付费用户推送多模态新功能。多模态ChatGPT将能基于图片对话,并进行实时语音对话。举个例子就是,你打开冰箱拍张照,就可以和ChatGPT语音畅聊晚上吃点什么。结合ChatGPT已经以App形式登陆安卓和iOS,相比于无所不知的“大明白”AI,此举让ChatGPT更具备个人助理的能力。
除了这三家正式宣布相关产品升级之外,谷歌在上个月被科技媒体Axios爆料,内部邮件显示,谷歌将利用最新的大语言模型技术对谷歌助手(Google Assistant)进行全新改造。苹果也被爆料已经搭建好大语言模型的框架,在对地图、Siri在内的功能进行改造。
科技巨头在个人助理的战场上厮杀,上一次出现这样的场景还是在8年前:Alexa首次发布于2014年,搭载在亚马逊智能音箱Echo产品中。也是在那一年,微软也随Windows系统推出语音助理Cortana,在中国大陆被称为“小娜”;谷歌随安卓4.1推出语音助理Google Now,也就是后来的谷歌助手Google Assistant。那是继2011年苹果随iPhone 4S推出Siri之后,紧跟的三款来自科技巨头的语音助理竞品,拉开了上一代语音助理混战的序幕。
然而,最初引起大众极大兴趣的语音助理,近几年已经变成了智能终端必备、但人见人嫌的“人工智障”。随着去年11月底OpenAI发布ChatGPT,流畅的对话让上一代个人助理更加相形见绌。在ChatGPT发布前不久,Alexa被传出亏损、裁员的消息,而在ChatGPT发布之后,微软“杀死”了Cortana,在今年8月将其下线。
上一代个人助理之战告一段落,新一代个人助理的战争已经奏响号角。有了大语言模型技术的加持,这一次的故事会有不同吗?
01先让我们官方给出的例子,看看亚马逊Alexa、微软Cortana和OpenAI的多模态ChatGPT是怎样的存在。
接入大语言模型的Alexa,“机器人”味少了。用户可以说得不直白,如“Alexa,我很冷”来让Alexa开空调,也可以很抽象,比如“让这个房间看起来像XX球队的颜色”。用户还可以一次说多个指令,如“Alexa,打开喷头,打开车库门,关闭外部灯光”,Alexa就会识别并执行这些任务。
此外,现在,用户可以对Alexa说“Alexa,让我们聊天吧”,接下来的对话中都不需要再叫Alexa的名字。并且Alexa会记住用户的一些信息和偏好,不必每次都对TA做自我介绍。
在一条演示中,用户和Alexa进入聊天模式。用户想要举办一场派对,让Alexa推荐派对主题,然后再依据主题推荐合适的场地。当用户和Alexa商量好一切之后,用户要求“给我的朋友发送下周五晚上8点的邀请邮件吗,神秘一些”,Alexa便欣然答应,并阅读以“你准备好度过一个难忘的夜晚了吗”开头的邮件给用户确认。
比起过去每句话都要叫一声“Alexa”、前后不能有连续、指令必须清晰明确的语音助手体验,新Alexa的确“更像人”了。相信每一个使用智能家居的用户,都受够了变着法地试探怎么说才能让“小X”和“精灵”们听懂指令。
已经被杀死的微软Cortana,也就是我们熟悉的“小娜”,基本上和iPhone的Siri差不多。为你打开某个应用、播放一首歌曲,或者回答你的问题(除了今天的日期和天气之类的基础问题外,基本上是给你显示网页搜索结果)。
而Copilot则更像一个实干型的助手。比如你可以要求Copilot帮你“整理桌面”,它就会把窗口平铺排列;当你浏览网页的时候,可以呼出Copilot让它帮你总结、解释、重写网页的内容;编写文案、总结图表更是不在话下。更有意思的是,Copilot还具备对图片的处理能力,你可以在截图后直接让Copilot进行去除背景、抠出人像等操作。
和升级后的Alexa一样,Copilot的对话体验也更偏“人类”,你可以直接让Copilot“播放让我集中精力的歌”,它就会找到Spotify上的对应歌单。
至于OpenAI的ChatGPT,也在转向多模态之后变得更贴近生活。前文已经提到,你可以打开冰箱拍张照,和ChatGPT讨论晚上吃什么。
在官方给出的另一个例子中,用户给ChatGPT发送了一张自行车的照片,问它如何调低座椅。ChatGPT提醒用户查看车的型号,确认是有快拆杆还是用螺栓固定,并给出详细步骤。用户还是不明白,拍摄了座椅连接处的照片并圈出某部位,问这是不是快拆杆。ChatGPT识别出这是螺栓,并建议用内六角扳手。用户接着发难,拍摄了一张工具箱的照片,询问ChatGPT哪一个是内六角扳手,它也成功识别了出来。
除了日常生活中的问题解决外,由于具备语音功能,可以“说”的ChatGPT还可以给孩子讲睡前故事。更有意思的是,当你与人吵架,也可以把能听会说的ChatGPT摆上来,帮你们梳理思路,解决争论。
02不过,不管是新Alexa,还是Copilot和多模态ChatGPT,都有一定的使用门槛。
Windows11操作系统内置的Copilot目前没有收费的消息,应该是免费向用户开放的,但是要等更新逐步推送。而在办公套件Microsoft 365上,Copilot属于高级订阅功能,每月收费30美元。
OpenAI的多模态ChatGPT仅向高级订阅用户开放,也就是ChatGPT Plus,每月20美元。
而新Alexa未来可能会收费。在亚马逊秋季发布会之后,彭博社采访了即将离任的亚马逊设备和服务部门副总裁大卫·林普(David Limp),他表示亚马逊“绝对”在考虑Alexa的订阅模式。
林普拒绝讨论Alexa若收费的话定价会是多少,并表示“你今天所熟悉和喜爱的Alexa将保持免费”,但为AI聊天机器人提供动力并不便宜,他承认“在云端进行模型推理的成本是巨大的。”
刚开始打仗就想着怎么收费,这看似急功近利,实际上都是上一代个人助理之战的血泪教训。
个人助理产品早就有,其中的代表是微软在1995年就推出的微软鲍勃(Microsoft Bob),彼时比尔·盖茨(Bill Gates)还是微软的CEO,在那一年首次登上《福布斯》全球富翁榜榜首。但现在回头看,鲍勃显得很臃肿:软件显示一座虚拟的房间,就像一间个人办公室,角落里蹲着卡通狗助手,亲切地问你需要什么帮助。
这条路没有走通,仅一年,微软就用Clippy代替了鲍勃,就是那个浓眉大眼的曲别针,热心肠地想帮你做这做那(但什么都做不好),也不成功,是大家批评嘲笑的对象。
到了2011年,一切都改变了,苹果推出iPhone 4S,“附赠”的还有Siri——一个没有实体形象,可以长按Home键呼出的语音助理,可以帮你打开应用,还能回答问题,甚至可以俏皮地给你讲笑话,在当时颇具“未来感”。
科技巨头们闻风而动。在2014年,语音助理大爆发,占据安卓的谷歌推出了Google Now(两年后升级为谷歌助手Google Assistant),占据PC操作系统的微软推出了Cortana,而亚马逊干脆研发智能音箱设备,将Alexa塞了进去。
电影《她》上映了,电影中男主人公和电脑操作系统的语音助手谈恋爱,后者的配音是好莱坞著名演员“寡姐”斯嘉丽·约翰逊(Scarlett Johansson),而语音助手的界面像极了Cortana。电影上映后,《连线》杂志甚至报道有一些iPhone用户认为Siri似乎开始拥有“自我意识”。
到了2019年之前,各家陆续在更多端口搭载语音助手,谷歌、苹果、微软都推出了智能音箱设备,Alexa和Cortana还搞起了合作,可以在自家语音助手那里呼出对方,以实现更多功能。在国内,手机智能语音助手和智能音箱也开始涌现,小度、小爱、天猫精灵等悉数登场。
然而,也是在这个阶段,语音助手越来越普及,大众对其的评价却慢慢从充满幻想,变为了感到失望。在国内,这些语音助手喜提“人工智障”称号。人们在网上发帖询问“Cortana老自己弹出来,怎么关掉啊”,或是分享智能音箱怎么都听不懂“关掉客厅的灯”的简单指令的短视频。
以Siri为例,2018年Vetro Analytics的数据显示,Siri的使用率为19.6%,依赖度仅为11%,每位用户每月平均使用时长只有短短14分钟。
03体验差,直接影响着语音助手产品的商业前景。
就在ChatGPT推出之前,2022年11月,媒体Business Insider报道,根据其获得的内部数据,一季度亚马逊Worldwide Digital部门运营亏损超过30亿美元。这个部门包括从Echo智能音箱、Alexa语音技术到流媒体服务的所有内容。而熟悉该部门的人士表示,这一亏损是亚马逊所有业务部门中最大的,而且其中大部分损失都要归咎于Alexa。报道估计,2022年该部门的亏损甚至会达到100亿美元。
Alexa的开局并不差,第一代Echo设备的销量超过500万台。但是其商业模式一直是个问题,所有的语音助手其实都有这个问题:提供了服务,然后呢?2018年,亚马逊预计2021你那每台设备都将亏损5美元。
上一代语音助手并没有很好的货币化举措,再加上交互的体验并不好,Alexa期望可以将亚马逊的电商服务融合进去,但糟糕的体验无法支撑这个愿景,而频繁地询问用户要不要买东西本身又在损害体验。用户到头来和语音助手间的大部分对话琐碎而日常,如今天的天气、日期、打开某个应用等,而这并不能让亚马逊赚钱。
在裁员、亏损的消息传出后,亚马逊表示还是会大力发展Alexa,但是外界看不到什么新的可能。
ChatGPT的出现,让一切都不同了。
一方面是危机,ChatGPT基于大语言模型的出色对话能力,让大众几乎在第一时间就将之与上一代语音助手进行对比,结论就是“太差了”。问题改变,上一代语音助手不思进取、不上大模型,就有可能落后挨打,即便是苹果和谷歌也得忌惮这种可能性。
除了谷歌在今年8月被传出要用大语言模型升级谷歌助手以外,苹果也有类似的传闻。今年7月,名记马克·古尔曼(Mark Gurman)爆料,苹果已经完成了其大语言模型的基础框架,被称为“Ajax”,定位为支持对话式AI系统,并已经将其应用在地图、Siri等功能上,做人工智能改进。
而在科技巨头动作之前,早就有各种整合了大模型的个人助理第三方应用出现。如今年6月,就有人“复活”了微软鲍勃,使用的是GPT-3.5模型,在微软商店上架。
另一方面是机遇。以亚马逊Alexa为代表的智能生态想象,如今在5G加持、大模型支撑之下,实现的可能性前所未有得大。
本次秋季发布会,亚马逊在宣布Alexa将全面升级之时,也已经勾勒出了广阔的前景:亚马逊将大语言模型注入200多个智能家居API,为Alexa提供更主动无缝管理智能家居所需的背景信息。同时,亚马逊要推出工具,允许Alexa控制第三方产品的某些功能,后者无需在智能家居生态系统的工具包中。亚马逊表示,已经和通用电气、飞利浦、小米、iRobot等合作开发这些功能。
但现在要面临的新挑战也是10年前所没有的,AI对于个人隐私和数据安全的威胁正在被重视。不管是新Alexa、Copilot还是多模态ChatGPT,在向个性化助理的方向进发时,将不可避免地触及这一问题。目前,新Alexa发布,亚马逊将利用用户与Alexa的语音交互来训练模型的消息已经在被讨论。
“谁赢得了个人代理,那就是一件大事。因为你将再也不会去搜索网站或去生产力网站,你再也不会去亚马逊(购物)。”在今年5月的一场活动上,比尔·盖茨如是预测。
问题是,究竟会是谁赢下这场战争呢?亦或是像上一代语音助手之战一样,轰轰烈烈之后没有赢家。
参考资料
1、IT之家:《“大眼夹”重生,变身 ChatGPT 聊天机器人》2、智东西:《昨夜微软与亚马逊“联姻” 还抛出5道AI杀手锏》3、金融界:《从“全村的希望”到“大裁员”,亚马逊是如何摧毁Alexa 的?》4、钛媒体:《智能手机之争的下半场:语音助手之战》