周六. 1 月 11th, 2025

点击蓝字 关注我们

关注并星标

从此不迷路

计算机视觉研究院

公众号ID计算机视觉研究院

学习群扫码在主页获取加入方式

计算机视觉研究院专栏

Column of Computer Vision Institute

ChatGPT:我开始慌了!

两天前,谷歌类 ChatGPT 产品 Bard 迎来了大规模的更新,加入了很多呼声很高的新功能,比如识图能力,号称「史上最大升级」!

通过识图能力,Bard 可以解释放入聊天中的图片,也可以识别关于图像内容的更多信息以及基于图像生成标题等。可以说,Bard 通过其多模态升级改变了 ChatGPT 的游戏规则。

这个周末,对 Bard 心痒的开发者们已经迫不及待地使用谷歌 Bard 来创建各种有趣的应用了。

不禁好奇:开发者们究竟能利用 Bard 干什么呢?推特博主 @minchoi 汇总了多个令人惊艳的 Bard 用例。此外机器之心还整理了其他一些有趣用例。让我们一睹为快吧。

一张草图变成笑话网站

图源:推特 @dr_cintas

谷歌 Bard 的更新太疯狂了。有人利用餐巾纸上的草图创建了一个网站,并且只需要一个提示。

详细步骤如下所示。

首先,访问 Bard 网站,单击「+」来添加草图图像并编写提示。这里的提示是「编写一个简短的 HTML/JS,将它变成一个丰富多彩的网站,其中用两个真实的笑话来替换原有内容」。

这时你可能无法得到想要的结果。通过点击「查看其他草稿」,Bard 会提供另外两个选项,或者重新生成输出。如果想要更改特定内容,只需要在第二个提示中提出要求即可。这里要求更改颜色。

接下来为了实现运行,将 HTML 代码复制到文本编辑器(或文本文件)中并命名为 [something].html。这样你就完成了最终的网站和笑话的妙语。

一个屏幕截图就能创建 iPhone 应用程序

图源:推特 @ammaar

如果你觉得不够震撼,那再来点硬核的。使用谷歌 Bard,有人仅通过一张屏幕截图就重新创建了一个基本的计时器应用程序,用时不到 4 分钟。

此外不需要给 Bard 任何关于该应用程序要做什么的提示,它就提供了所有代码。虽然也出现了一些错误,但 Bard 都能及时修复。

下面视频中介绍了完整的创建过程。

关闭
观看更多
更多
正在加载
正在加载
退出全屏

视频加载失败,请刷新页面再试

刷新

对于 Bard 的这个妙用,有网友表示,在 GPT-4 发布的时候见到过这样的 Demo,比如绘制网站的 UI 并进行 AI 编码。此次 Bard 为想要创建应用或网站,但不想解释整个 UI(只想绘制草图或在 Figma 中创建)的非技术人员提供了很多有趣的想法。

类似的例子还有很多,比如还有人将图像转换为代码,运行速度很快。

图源:推特 @Yampeleg

更精更专的个人助理

个人助手是对话大模型的一大用例,谷歌 Bard 做到了更精更专。

该博主 @minchoi 将 Bard 调教成了自己的费用管理助手。详细步骤如下:

第一步:使用以下提示「我希望你作为我的私人助理来安排旅行费用。我会为你提供一系列图像,希望你将它们放在一个表格中,包含费用报告的所有相关信息(日期、时间、类别、说明、含税总金额)。当我没有更多收据时,会告诉你「我完成了」。表格标题为『费用报告』」。

第二步:向 Bard 提供收据。在手机上,拍摄收据照片并告诉 Bard 收据 < 编号 >,即收据 1、收据 2。请确保照片清晰,以便 Bard 可以准确地提取信息。虽然 Bard 可以相当准确地提取文本,但请务必验证信息是否正确。

第三步:当添加完所有收据后,请输入「我完成了」。Bard 会将所有信息编译成一个表格。

第四步:告诉 Bard 生成导出报告。此外还可以将数据导出到 Google 表格,并准备好费用报告。

关闭
观看更多
更多
正在加载
正在加载
退出全屏

视频加载失败,请刷新页面再试

刷新

从图片中获取完整食谱

图源:推特 @rowancheung

对话大模型给出一顿饭的食谱并不是什么新鲜的功能,但 Bard 这次显然不一样。

有人上传了一张自己最近吃过的一顿饭的图片,要求 Bard 提供完整的食谱。

结果令人大吃一惊,Bard 给出了非常准确的食谱以及步骤。这意味着 Bard 的多模态功能更进了一步,似乎用到了逻辑推理能力。

关闭
观看更多
更多
正在加载
正在加载
退出全屏

视频加载失败,请刷新页面再试

刷新

更多其他用例

解释代码

Bard 现在可以逐行地解释用户的代码,帮助完成编程和软件开发任务,包括代码生成、代码调试和解释。

关闭
观看更多
更多
正在加载
正在加载
退出全屏

视频加载失败,请刷新页面再试

刷新

图源:推特 @iam_chonchol

OCR 文字识别

Bard 现在可以从发票中提取文本,并将信息汇总到漂亮的表格中。

关闭
观看更多
更多
正在加载
正在加载
退出全屏

视频加载失败,请刷新页面再试

刷新

图源:推特 @Saboo_Shubham_

诊断脑 CT 图像

Bard 从一张 CT 图像中给出了自己的诊断结果,可能是脑肿瘤、中风、脑出血或其他任何疾病。

图源:推特 @CeoImed

随着开发者体验的不断增加,相信未来谷歌 Bard 会有更多有趣、硬核的用例被发掘出来。转自《机器之心》 

© THE END 

转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入!

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域,主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架,提供论文一键下载,并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!

往期推荐 

?

YoloV8与ChatGPT互通,这功能是真的强大!GPT理解的CV:基于Yolov5的半监督目标检测Consistent-Teacher:半监督目标检测超强SOTASparse R-CNN:稀疏框架,端到端的目标检测(附源码)RestoreDet:低分辨率图像中目标检测中国提出的分割天花板 | 精度相当,速度提升50倍!All Things ViTs:在视觉中理解和解释注意力基于LangChain+GLM搭建知识本地库OVO:在线蒸馏一次视觉Transformer搜索最近几篇较好论文实现代码(附源代码下载)

Avatar photo

作者 UU 13723417500

友情提示:现在网络诈骗很多,做跨境电商小心被骗。此号发布内容皆为转载自其它媒体或企业宣传文章,相关信息仅为传递更多信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。---无意冒犯,如有侵权请联系13723417500删除!

声明本文由该作者发布,如有侵权请联系删除。内容不代表本平台立场!

发表回复

群通天下
服务平台
跨境人联网
U品出海
选品平台