谷歌推出新一代深度学习大模型Gemini

自 OpenAI 推出 ChatGPT 以来,国内外大模型迅速遍地开花,紧随其后的有百度文心一言、谷歌 Bard、阿里通义千问、讯飞星火、360智脑,还有后来腾讯的混元、昆仑万维的天工、华为的盘古、小米的小爱和 vivo的蓝心等。

手机厂商又在 GPT 的基础上融入了更多界面和功能控制上的交互,使得人工智能更加多元化。当然人工智能的扩展领域不仅仅局限于手机,GPT4 以后开放了联网功能并推出了众多插件,全方位覆盖衣食住行、社交、工作以及学习等日常所需,基本上能够扮演24小时私人助理的角色。

Google_Gemini.png 谷歌推出新一代深度学习大模型Gemini 科技资讯

最近,谷歌又推出了最新一代深度学习大模型——Gemini。Gemini 不仅在多模态推理方面取得了巨大突破,而且在各项性能指标上超越了之前的SOTA模型,成为当今最具前瞻性和领先水平的AI模型之一。

据 Google 官方显示,从自然图像、音频和视频理解到数学推理,Gemini Ultra 的性能在 32 个广泛使用的大型语言模型(LLM)研究和开发的学术基准测试中,超过了30个当前最先进的结果。

多模态 Gemini VS GPT-4


从 Google 放出的测试结果来看,在文本、常规推理、数学、代码等领域,Gemini 的表现几乎是全方位碾压了 OpenAI 的 GPT-4。


MMLU(大规模多任务语言理解)是测试 AI 模型知识和解决问题能力的最流行方式之一。Gemini Ultra 在该测试中以 90.0% 的准确率成为首个超越人类专家的模型,作为对比,GPT-4 只有 86.4% 的准确率。

新的 MMMU 基准测试包含了跨不同领域的多模态任务,对多模态大模型的检验程度更高,但超大杯 Gemini Ultra 同样取得了 59.4% 的高分。


多模态特性是 Gemini 花时间打磨的原生特性,Gemini 1.0 能同时识别和理解文本、图像、音频等多种信息,理解信息能力更强,在回答与复杂主题相关的问题也能游刃有余。在多模态 SOTA 的测试中,Gemini 图像、视频、音频的多模态测试水准再次遥遥领先。


Gemini的应用场景

Gemini 不仅在多模态任务上表现卓越,而且可以广泛应用于各种场景。

代码生成:

Gemini 可以根据用户的输入生成代码,实现了从任意类型的输入到任意类型输出的转换。

文本和图像生成:

Gemini 可以结合文本和图像生成多模态的输出。

视觉跨语言推理:

Gemini 可以在不同语言之间进行视觉推理。

当你随手画个鸭子,从曲线到鸭子成型,Gemini 都可以精准识别。给鸭子画条波浪线,它能理解你的言外之意,精准地指出鸭子在水中游泳的场景答案。

同时它还能人性化地模仿鸭子的叫声,即使是用流利的普通话说出鸭子的叫法也不在话下。

Gemini 1.0 提供三种版本:

  • Gemini Ultra:适用于复杂任务的最强大的模型。

  • Gemini Pro:适合大多数任务的中间版本。

  • Gemini Nano:最小、最高效的模型,也应该在用户设备上运行。

据了解,Nano 还分为两个版本:一个有 18 亿个参数,一个有 32.5 亿个参数。 而对于 Pro 和 Ultra,Google 没有提供有关模型的任何信息。

谷歌用自己的基准测试来支持所承诺的性能飞跃。 因此,在大多数情况下,Ultra 变体的性能优于 GPT-4 或 GPT-4 Vision。 Gemini 不仅应该比它的前辈更强大,而且效率也明显更高。

手机大模型的新玩家


手机是新技术破圈的重要媒介,Gemini 想要大规模走进大众社会,Pixel 8 一定是其不二之选。
Pixel 8 Pro 作为第一款内置人工智能的手机,已经在高新技术民用化的道路上建立了良好的口碑,从已经上手 Pixel 8 Pro 的用户反馈看,Google 把 AI 和手机终端应用结合得相当不错。
在此基础上,Google 官宣中杯大模型 Gemini Nano 从今天开始,将在 Pixel 8 Pro 上正式运行。


结语

Gemini 的推出标志着深度学习领域的一次重大进展,为多模态推理能力的发展奠定了坚实基础。无论是对于科学研究、竞技编程、音频处理还是其他领域,Gemini 都展现出了强大的潜力和广泛的应用前景。


未经允许不得转载:前端资源网 - w3h5 » 谷歌推出新一代深度学习大模型Gemini

赞 (0)
分享到: +

评论 沙发

Avatar

换个身份

  • 昵称 (必填)
  • 邮箱 (选填)