拥有 10,000,000 个词元的 Gemini 1.5 Pro 太荒谬了。

谷歌 Gemini 1.5 Pro：超长上下文、多模态、超强性能

谷歌最新发布的 Gemini 1.5 Pro 语言模型拥有惊人的1000万个token的上下文长度，相当于750万个单词，可以轻松阅读7.5遍《哈利波特》全系列。这一长度远远超过了之前 Anthropic Claw 2.1 的20万个token，使其在“大海捞针”测试中表现出色。

Gemini 1.5 Pro 不仅拥有超长上下文，还拥有惊人的准确率：整体准确率高达99%，在512,000个token内甚至达到100%准确率。谷歌展示了该模型的能力，通过分析约10万行代码的3D JavaScript 库 3.js，帮助用户学习代码库。用户可以向 Gemini 1.5 Pro 提出任何关于代码的低级或高级问题。

更令人印象深刻的是，Gemini 1.5 Pro 是一个多模态模型，可以处理音频、图像甚至视频。它可以分析长达3小时的视频和22小时的音频，并且在“大海捞针”测试中依然表现出色，远远超过了其他多模态模型。Gemini 1.5 Pro 可以精确地输出事件的时间戳，甚至理解图画的场景，并提供事件的时间戳。

Gemini 1.5 Pro 训练时间比 Gemini 1 Ultra 短得多，性能却毫不逊色，并且在上下文长度更长的情况下，性能比 Gemini 1 Pro 有显著提升。其成功的关键在于使用了专家混合技术，并且可能还使用了最近发表的“大型世界模型”论文中提到的带注意力机制的技术。

总而言之，Gemini 1.5 Pro 拥有超长上下文、多模态、超强性能，是谷歌语言模型发展史上的一个里程碑。它在各种任务中展现出惊人的能力，将进一步推动人工智能技术的进步。

文章来源于互联网:拥有 10,000,000 个词元的 Gemini 1.5 Pro 太荒谬了。

相关推荐: 使用语音识别、ChatGpt、文心一言进行交互

通过调用百度语音识别的api接口进行语音识别，然后将识别到内容发送给chatgpt以及文心一言的api接口进行交互，实现该功能。要实现这个功能，首先需要申请百度语音识别的API接口，并进行相关配置。然后编写代码，利用百度语音识别的API接口对语音进行识别，获…

拥有 10,000,000 个词元的 Gemini 1.5 Pro 太荒谬了。

谷歌 Gemini 1.5 Pro：超长上下文、多模态、超强性能

相关推荐

对比kimi、通义千问、文心一言的写代码能力

热门文章

AI大模型,我们的未来