Gemini上线首日用户褒贬不一,演示被

机器之心报道

编辑：泽南、杜伟、陈萍

又不求融资，怎么也给demo加美颜？

「谷歌，这就有点尴尬了。」

没有想到，Gemini上线头一天，热门评论会是这个样子。

本周三，谷歌的Gemini让生成式AI进入了原生多模态时代。人们第一时间涌入新模型加持的Bard想要试试AI的能力，结果给出的评价褒贬不一。

其中最值得注意的是有人指出，Gemini在发布时，谷歌给出的一系列Demo中最令人眼花缭乱的部分是伪造的。

名为《Hands-onwithGemini:InteractingwithmultimodalAI》的视频现在的播放量已经有万次，其中展示了谷歌认为自己「最喜欢的与Gemini的交互案例」，展示了多模态模型（即它理解并混合语言和视觉理解）如何灵活地响应各种输入。

谷歌展示了Gemini神奇的理解和交互能力，人用画笔绘制一只鸭子的草图，从一条曲线到一幅完整的图画，AI评论说蓝色是一种不切实际的动物颜色。

然后AI看到一只实体的玩具蓝色鸭时表现出了惊讶。然后它会响应人类围绕鸭子的各种问题，包括地球的哪个地点会有鸭子，鸭子在各种语言里的读法等等。

随后演示继续进行，AI实现了在换杯子游戏中正确跟踪、识别皮影手势、识别材料给出组合建议、重新排序行星草图等等。

但点击YouTube上的视频描述，可以发现Google有一个重要的免责声明：「为了演示的目的，他们已经减少延迟，为了简洁，Gemini的输出也缩短了。」

根据彭博社消息，谷歌在被要求发表评论时承认，视频演示并不是实时的，而是使用了原始镜头中的静止图像帧，然后编写了文本提示，让Gemini做出回应。

视频看起来很美好，然而，却也反映出了这一问题：视频不是真实的。人们使用了各种方式来进行验证，包括使用视频的截图来问Bard中的Gemini，发现AI并不能准确地回答问题。

有理由怀疑，谷歌可能只是制作了一个夸张的视频，然后使用静态图像帧和文本进行拼凑来作为Gemini的提示语。也就是说，视频Demo是精心挑选的结果。

也许Gemini可以如实的完成视频展示的内容，但谷歌没有这样做，而是加了速；又或许Gemini根本不像视频中展示的那样丝滑，有人从好几个错误结果中挑出了正确的作为素材。

但无论如何，Gemini的演示看起来都像是经过精心调整好的，对实际交互情况进行了歪曲。

谷歌在这篇名为《Howit’sMade:InteractingwithGeminithroughmultimodalprompting》的博客中也解释了多模态交互过程，即如何通过多模态prompting来与Gemini交互。

注：Gemini的提示语可以是多模态prompting（即不同模态的组合，如图像和文本），之后让Gemini预测接下来会发生什么，从而做出反应。

例如，在玩剪刀石头布的游戏中，谷歌的实验过程是这样的：将照片展示给Gemini，并要求Gemini描述所看到的内容：

在演示中，一方面，Gemini似乎确实产生了视频中所示的反应。但在另一方面，观众可能被误导了，主要体现在与模型的交互速度、准确性等方面。

例如，在视频的2:45处，一只手静静地做出一系列手势。Gemini很快回应：「我知道你在做什么！你在玩石头、剪刀、布！」

然而在谷歌博客中，用户必须同时显示所有三个手势并提示：你认为我在做什么？外加提示：这是一个游戏。Gemini才回答道：「你在玩石头、剪刀、布。」就像下图所展示的，当用户伸出两根手指时，Gemini并不知道这是石头、剪刀、布的游戏。只有三张图片都齐全了，Gemini才能猜对。

比较视频和博客介绍的推理过程，给人一种完全不同的交互方式，视频中显示的「互动」过程并没有发生。

在随后的演示中，将三张带有太阳、土星和地球涂鸦的草图展示给Gemini。在视频中，用户问道「这个顺序正确吗？」Gemini回答：「不，是太阳、地球、土星。」注意，原视频中用户除了「这个顺序正确吗？」这句话，没有其他信息。Gemini却给出了答案。

但在实际的提示中（还是书面的），提示语却是「这个顺序对吗？考虑到与太阳的距离，并解释你的理由。」Gemini回答：正确的顺序是太阳、地球、土星。太阳离太阳系中心最近，其次是地球，然后是土星。

我们可以推测，在视频中，Gemini的回答可能需要其他帮助，只是谷歌没有体现出来。

在视频展示的另一个示例中，纸团在杯子之间交换，视频中，Gemini立即且看似直观地进行检测和跟踪。

但在博客中，完成这一过程还是很复杂的。

每动一次都要和大模型交流一下。也许我们应该假设谷歌人工智能演示中的所有功能都被夸大了。

面对人们的质疑，谷歌的回应是：他们直接承认了。

在本文发表后发布的社交媒体帖子中，GoogleDeepMind的研究副总裁OriolVinyals详细介绍了「录制该视频时Gemini是如何使用的」。

OriolVinyals表示，谷歌为Gemini提供的多模态能力和即时响应将在12月13日开放Pro访问权限时供开发者使用。不过Demo视频里的内容是使用Ultra模型做到的。视频中的所有人类提示和AI输出都是真实的，但为简洁起见进行了缩短。

谷歌Gemini联合负责人OriolVinyals的推特：

最新文章