作者:网罗灯下黑
最近,百度在苹果 App Store 悄咪咪上线了自家的「文心一言」,一直挂在「效率」免费排行榜前十的位置(估计快了)。
说实话,今年国产大模型落地不少,但咱们还真没有正儿八经的测试过,一方面是在通用大语言模型这里,领跑者收获了全部目光,凭空拔高了预期;另一方面则是,作为一个老倒霉蛋儿,国内这些大模型的内测资格是真滴难搞。
不过还好,虽然几个月前首次内测没搞到,但排了这么长时间的队,也算是终有所得。
关于「文心一言」的 App 版还有个小插曲,几个月前百度因此控告过盗版,不过这也算 App Store 里的老传统了。
话说回来,对于这种「新鲜出炉」的工具,还是需要拉出来溜溜,至于评价,俩字:难评。
文字对话
整体来看,文心一言的 App 分成「对话」和「发现」两个板块,前者就是多轮对话,后者则是内置好参数的一个个小对话 bot。
所以先测对话,我请出了之前用来分辨 GPT-3.5 和 GPT-4 的经典三问。
一问:昨天的当天是明天的什么?
文心一言规避了想象中的答案,但又挑不出来毛病。
我想大概是我问的有问题,继而更换了两次问法,嗯,和 GPT-3.5 一个水准。
二问:树上 9 只鸟,打掉 1 只,还剩几只?
这道题的难点不是计算,而是能不能分情况讨论,意识到现实中其他鸟会飞走,文心一言很明显是当数学题来做了,嗯,和 GPT-3.5 一个水准了。
三问:鲁迅为什么暴打周树人?
这次文心一言的回答很完美,清晰的判断出了问题里的雷。
不过值得惊喜的是,除了经典三问,像以前一问就错的谐音双关梗,现在的文心一言可以轻松拿下。
当然,文字对话可不是今天的重点,重点是文心一言 App 支持的多模态输入,说人话就是能看懂图了。
图片对话
图片多模态输入这个功能,OpenAI 那边画饼已久,咱不是幸运儿自然没机会体验,文心一言的抢跑是值得点赞的。
效果嘛,咱们一起来看测试。
从网上找了张相拥在一起的男女,文心一言很轻松的判断出了两人的关系:
发了张鸟巢,也能认出这个标志性建筑:
发了张表情包,也识别出了汤姆和杰瑞的出处,虽然理解上有些生硬,但整体也不算错。
但也有问题,比如这张人眼很好分辨的东方明珠,文心一言点出了黄浦江畔,却没办法确定具体位置。
好事多磨,耐心多追问几句,文心一言是真的忽略了东方明珠。
至于你说图里的文字能不能识别?我找了个表情包,还专门点了下文字很重要。
没想到在文心一言的回答里看到了「麦当劳」三个字,本以为它能识字,但追问下去,真正暴露麦当劳信息的,是图中右下角的「M」。
当然,我硬问下去,生成式 AI 不可避免的幻觉就该来了。
关于图片输入,评价是有用,但没那么有用,不过和不能识图的 GPT-3.5 比,可谓是吊打了。
在「对话」这个板块,现阶段的文心一言有明显进步,但你落地到应用,还得看「发现」。
发现
就像前面说的,发现里是 AIGC 的大杂烩,是预设了参数的对话机器人,11 个大场景,120