记者 | 吴洋洋
编辑 | 陈 锐
人工智能正在把我们带入一个新纪元,从很多维度看都是如此。首先是一个叫作“人工智能生成内容”(Artificial Intelligence Generated Content,AIGC)的概念开始得到认可。它区别于之前的用户生产内容(User Generated Content,UGC),也不同于更早期的专业机构生产内容(Professionally Generated Content,PGC)。这个历程既表明了内容生产主体的切换,意味着具备生产能力和掌握发布权力的主体,正在从象征着“内容民主化”的个人,转移到善用AI辅助创作的“超级个体”——甚至可以是独立工作的AI本身;同时,它也意味着,AI能施展魔法的疆域正在跨越一个分界点:从“判别式领域”迈入“生成式领域”。


01
Transformer的力量
ChatGPT发布之后,OpenAI团队成员接受采访,说公众的热情程度让他们意外,因为“ChatGPT背后的大部分技术并不新鲜”。这一说法属实,外界与之类似的总结是:ChatGPT是一种新时代的“炼金术”,把一个语言统计模型和基于人类反馈的强化学习放在一起,然后就是用可以拿到的语料、估计可行的人工神经网络层数放在一起“炼丹”。但相较于2018年以前的AI模型,ChatGPT背后的GPT至少有一样东西是新的,那就是看待语言问题的视角。人下一个会说出口的词,往往是统计学上下一个最可能出现的词——这个理念在语言学界早已有之,但将这种想法开发成对话语言模型是第一次。在此之前,几乎所有号称使用自然语言与人对话的机器人,从百度小度到微软小冰,从亚马逊Alexa到苹果Siri,甚至拿到日本公民身份的Sophia,本质上都是基于搜索树的查询系统。而自然语言处理(Natural language processing,NLP)领域也被工程化地划分为文本分类、机器翻译、阅读理解、文章分级等数十种任务,每种任务都对应一种或几种算法模型。这些看似不同的问题背后其实是同一个问题。比如,如果一个对话机器人“足够聪明”,聪明到可以在电影评论中预测下一个单词,那么它一定能完成一个简单的正负分类任务,成为一个电影分类器——区分动画片、爱情或者科幻电影——接管之前判别式AI所做的工作。通关密码就是2017年Google Brain团队写在论文里的Transformer(转换器),GPT的历代模型都基于这一算法架构。工作时,它会计算每个词与之前输入和生成的其他词之间的依赖关系(通常被称作“自注意机制”)。在最新发布的版本GPT-4中,模型能够注意到的单词量多达24576个。Transformer认为,语言的内部数据之间长跨度地相互依赖,Transformer所做的工作,就是将既有文字的“内部依赖关系”转换到未来的文字中去,也就是“生成”。信息内部的基本要素之间相互依赖,且具有预测功能——这种看待语言的视角之后也被用到了图片上。2021年,Google Brain团队再次推出一个叫“视觉转换器”(Vision Transformer,ViT)的模型,通过计算同一图像中像素与像素之间的依赖关系来识别图像。在此之前,语言和视觉被视为不同的东西。语言是线性的、序列的,视觉则是一种有空间结构的、并行的数据。但Transformer证明,图片也可以当成序列问题来解决,一张图片就是由像素起承转合地构成的句子。不仅图片,大部分问题都可以转化为序列问题。不要小看这种思维的转变。2018年,DeepMind发布的AlphaFold具有预测蛋白质结构的能力,靠的就是对氨基酸序列的学习,其背后架构也是Transformer。
02
语言的价值
语言在人类智能中是圣杯,在人工智能中同样如此。无论AIGC这个词现在多么火热,在ChatGPT解决语言问题之前,人们对于AIGC的态度跟之前对待元宇宙没什么差别:热情,但持疑。至少2022年年底前的AIGC浪潮中,没有什么人提起过通用人工智能(Artificial General Intelligence,AGI)这个词。“涌现”也好,“质变”也罢,ChatGPT证明,机器可以从语言中得到的东西比我们预想的多。首先,它让我们看到推理能力部分可以通过“见得足够多”而模仿出来。就此宣称ChatGPT有理解能力当然是种错觉,我们明白它只是基于统计学上的关联在推论。但“真正在思考”与“表现得像是在思考”,有时候只是哲学上的区别。其次,基于Let’s think step by step的“思维链”(Chain-of-Thought prompting,CoT)技术表明,只要更富逻辑性地使用语言,机器就能学到更正确的东西,而不只是玩文字游戏。一个亚马逊在其CoT相关论文中使用过的例子是,给AI看一张画有饼干和薯条的图片,然后问它两者的共同点是什么,题目给出两个选项,A.都是软的;B.都是咸的。训练时,工程师并不会训练AI直接作出选A或者选B这样的简单关联,而是训练它生成一段逻辑充分的文字:对于饼干和薯条,AI都要被训练说出它们各自的特性,比如薯条是咸的,有的饼干也是咸的;薯条捏的时候会变形,所以薯条是软的,饼干捏的时候不会变形,所以饼干不是软的;所以薯条和饼干的共同点是都是咸的,答案是B。相似的一步步拆解问题的逻辑,你应该已经在ChatGPT的回答中看到过很多次,它们都基于提示词工程师(Prompt Engineer)对足够多问题的拆解。逻辑跳跃的教育常会让学生不得要领,逻辑缜密的解题思路则让儿童也能举一反三。用人类语言学习的AI同样如此。语言能力本身是种智能,而它携带的智能更多——从推理能力到数学,这是语言学家们此前低估的东西。如果把各AI模型看作一个大家族,此前的AI多数只能从信息和智能都有限的数据中学习,比如商品图片、人脸、交通信号灯,即使做文字识别或翻译,它们也只是把文字当成图片或成对信号,只有GPT这样基于Transformer的语言模型,第一次直接从语言的内在结构中学习。只要语言中有的东西,几何、色彩、味觉、速度、情感……假以时日和正确教育(比如更好的prompt),GPT这样的模型都能学到,除非语言中没有。03
与AGI的距离
ChatGPT与Transformer让人分别从使用体验和算法两个层面看到了通用人工智能的希望。尤其多模态的GPT-4推出之后,AI似乎变成了真正的全能助手——至少在网络上:理解人的自然语言,能帮人做会议总结、做PPT、分析股票市场、想文案、创作小说,还能根据意见不断修改图片,甚至一键生成与草图相似的网页代码。似乎用不了多久,AI与AI之间就要开始用人的语言交流了。
本文刊载于《第一财经》杂志2023年4月刊
可收获更多AI领域深度报道。
