萧箫 发自 凹非寺
量子位 | 公众号 QbitAI只需和ChatGPT聊聊天,它就能帮你调用10万+个HuggingFace模型!
这是抱抱脸最新上线的功能HuggingFace Transformers Agents,一经推出就获得极大关注:

这个功能,相当于给ChatGPT等大模型配备了“多模态”能力——
不限于文本,而是图像、语音、文档等任何多模态任务都能解决。
例如告诉ChatGPT“解释这张图像”,并扔给它一张海狸照片。ChatGPT就能调用图像解释器,输出“海狸正在水里游泳”:

随后,ChatGPT再调用文字转语音,分分钟就能把这句话读出来:
A beaver is swimming in the water音频:00:0000:01
当然,它不仅支持ChatGPT在内的OpenAI大模型,也支持OpenAssistant等免费大模型。
Transformer Agent负责“教会”这些大模型直接调用Hugging Face上的任意AI模型,并输出处理好的结果。
所以这个新上线的功能,背后的原理究竟是什么?
如何让大模型“指挥”各种AI?
简单来说,Transformers Agents是一个大模型专属的“抱抱脸AI工具集成包”。
HuggingFace上各种大大小小的AI模型,都被收纳在这个包里,并被分门别类为“图像生成器”、“图像解释器”、“文本转语音工具”……
同时,每个工具都会有对应的文字解释,方便大模型理解自己该调用什么模型。

这样一来,只需要一段简单的代码+提示词,就能让大模型帮助你直接运行AI模型,并将输出结果实时返还给你,过程一共分为三步:
首先,设置自己想用的大模型,这里可以用OpenAI的大模型(当然,API要收费):