机器之心报道
编辑:泽南、杜伟、陈萍
又不求融资,怎么也给demo加美颜?
「谷歌,这就有点尴尬了。」
没有想到,Gemini上线头一天,热门评论会是这个样子。
本周三,谷歌的Gemini让生成式AI进入了原生多模态时代。人们第一时间涌入新模型加持的Bard想要试试AI的能力,结果给出的评价褒贬不一。
其中最值得注意的是有人指出,Gemini在发布时,谷歌给出的一系列Demo中最令人眼花缭乱的部分是伪造的。
名为《Hands-onwithGemini:InteractingwithmultimodalAI》的视频现在的播放量已经有万次,其中展示了谷歌认为自己「最喜欢的与Gemini的交互案例」,展示了多模态模型(即它理解并混合语言和视觉理解)如何灵活地响应各种输入。
谷歌展示了Gemini神奇的理解和交互能力,人用画笔绘制一只鸭子的草图,从一条曲线到一幅完整的图画,AI评论说蓝色是一种不切实际的动物颜色。
然后AI看到一只实体的玩具蓝色鸭时表现出了惊讶。然后它会响应人类围绕鸭子的各种问题,包括地球的哪个地点会有鸭子,鸭子在各种语言里的读法等等。
随后演示继续进行,AI实现了在换杯子游戏中正确跟踪、识别皮影手势、识别材料给出组合建议、重新排序行星草图等等。
但点击YouTube上的视频描述,可以发现Google有一个重要的免责声明:「为了演示的目的,他们已经减少延迟,为了简洁,Gemini的输出也缩短了。」
根据彭博社消息,谷歌在被要求发表评论时承认,视频演示并不是实时的,而是使用了原始镜头中的静止图像帧,然后编写了文本提示,让Gemini做出回应。
视频看起来很美好,然而,却也反映出了这一问题:视频不是真实的。人们使用了各种方式来进行验证,包括使用视频的截图来问Bard中的Gemini,发现AI并不能准确地回答问题。
有理由怀疑,谷歌可能只是制作了一个夸张的视频,然后使用静态图像帧和文本进行拼凑来作为Gemini的提示语。也就是说,视频Demo是精心挑选的结果。
也许Gemini可以如实的完成视频展示的内容,但谷歌没有这样做,而是加了速;又或许Gemini根本不像视频中展示的那样丝滑,有人从好几个错误结果中挑出了正确的作为素材。
但无论如何,Gemini的演示看起来都像是经过精心调整好的,对实际交互情况进行了歪曲。
谷歌在这篇名为《Howit’sMade:InteractingwithGeminithroughmultimodalprompting》的博客中也解释了多模态交互过程,即如何通过多模态prompting来与Gemini交互。
注:Gemini的提示语可以是多模态prompting(即不同模态的组合,如图像和文本),之后让Gemini预测接下来会发生什么,从而做出反应。
例如,在玩剪刀石头布的游戏中,谷歌的实验过程是这样的:将照片展示给Gemini,并要求Gemini描述所看到的内容:
在演示中,一方面,Gemini似乎确实产生了视频中所示的反应。但在另一方面,观众可能被误导了,主要体现在与模型的交互速度、准确性等方面。
例如,在视频的2:45处,一只手静静地做出一系列手势。Gemini很快回应:「我知道你在做什么!你在玩石头、剪刀、布!」
然而在谷歌博客中,用户必须同时显示所有三个手势并提示:你认为我在做什么?外加提示:这是一个游戏。Gemini才回答道:「你在玩石头、剪刀、布。」就像下图所展示的,当用户伸出两根手指时,Gemini并不知道这是石头、剪刀、布的游戏。只有三张图片都齐全了,Gemini才能猜对。
比较视频和博客介绍的推理过程,给人一种完全不同的交互方式,视频中显示的「互动」过程并没有发生。
在随后的演示中,将三张带有太阳、土星和地球涂鸦的草图展示给Gemini。在视频中,用户问道「这个顺序正确吗?」Gemini回答:「不,是太阳、地球、土星。」注意,原视频中用户除了「这个顺序正确吗?」这句话,没有其他信息。Gemini却给出了答案。
但在实际的提示中(还是书面的),提示语却是「这个顺序对吗?考虑到与太阳的距离,并解释你的理由。」Gemini回答:正确的顺序是太阳、地球、土星。太阳离太阳系中心最近,其次是地球,然后是土星。
我们可以推测,在视频中,Gemini的回答可能需要其他帮助,只是谷歌没有体现出来。
在视频展示的另一个示例中,纸团在杯子之间交换,视频中,Gemini立即且看似直观地进行检测和跟踪。
但在博客中,完成这一过程还是很复杂的。
每动一次都要和大模型交流一下。也许我们应该假设谷歌人工智能演示中的所有功能都被夸大了。
面对人们的质疑,谷歌的回应是:他们直接承认了。
在本文发表后发布的社交媒体帖子中,GoogleDeepMind的研究副总裁OriolVinyals详细介绍了「录制该视频时Gemini是如何使用的」。
OriolVinyals表示,谷歌为Gemini提供的多模态能力和即时响应将在12月13日开放Pro访问权限时供开发者使用。不过Demo视频里的内容是使用Ultra模型做到的。视频中的所有人类提示和AI输出都是真实的,但为简洁起见进行了缩短。
谷歌Gemini联合负责人OriolVinyals的推特:
图源:
转载请注明地址:http://www.1xbbk.net/jwbys/7066.html