Google官宣，多模态模型Gemini正式发布，可能全面超越GPT4，免费使用

国外人工智能2年前 (2023)更新人工智能

686 0 0

大家好，我是振兴东北前线总指挥。12月6日，Google正式发布多模态大模型Gemini有望超越最强的GPT4模型，Gemini由Google Deepmind团队开发将会逐步应用到，Google旗下的各种产品中。

Google官宣，多模态模型Gemini正式发布，可能全面超越GPT4，免费使用

令Google自豪的是，Gemini在MMLU测试中成为第一个超越人类专家的模型。

MMLU也叫做measuring massive。

Multi test language understanding，可以衡量大语言模型在大规模多任务方面的理解能力。在近期MMLU测试中，GPT4的得分为86.4，而Gemini的得分已经超过了90。

在32项学术基准的测试中，Gemini均超过了GPT4，展现了强大的推理能力。

MMMU多模态跨领域推理任务测试中，Gemini Ultra也完胜GPT4V模型，Gemini 1.0包含了三个版本，分别是Ultra Pro和Nano，Gemini Ultra更适合复杂的任务，相当于GPT4，Gemini Pro模型相当于GPT 3.5
Nano则适合移动端用户使用，是一个轻量化模型。

根据Google的最新公告，Gemini Ultra将在2024年初正式登陆Bard平台，届时用户将能享受到更为高级的Bard服务。预计这一新功能将采取与GPT4类似的收费模式，为使用者提供卓越的价值与体验。目前，Gemini Pro版本已经在Bard中投入使用，凭借其出色的性能和广泛的应用场景，迅速成为最受欢迎的多模态模型之一。

与此同时，Gemini Nano版本将被集成到Google Pixel 8 Pro手机中，这一创新技术为用户带来了前所未有的便利。Gemini Nano模型具备强大的文字总结功能，无论手机中的文字内容是什么，都能轻松地进行整理和总结，而且这一过程完全不需要联网，确保了用户的隐私安全。

除此之外，Gemini Nano还支持自动回复功能，能够根据用户的问题快速生成合适的回答，极大地提升了沟通效率。这一独特的功能使得Gemini Nano在同类产品中脱颖而出，成为一款备受瞩目的先进技术。

Gemini是一个多模态模型，无论输入任，何图像都可以获得对应的输出，为了测试Gemini的多模态推理能力，Google提供了有趣的演示动画。

1：测试Gemini的图像识别和交互能力。

图中演示了一边画，一边让模型识别的能力。

我们可以通过演示案例看出，Gemini可以实时识别出。

2：和Gemini互动测试看图猜谜游戏

除此之外，还有，尝试各种互动游戏，推理能力测试，无手绘图像识别加推理能力测试，复杂的连线游戏，简笔图像识别和推理，音频多模态测试。

Gemini具备读取和理解文本音频，图像和视频的能力，除了基本的多模态能力，Gemini，还可以广泛应用于科研和编程领域。

例如Gemini 1.0强大的多模态推理能力，可以帮助科学家从数以千计的论文中，筛选精确的数据，并标注数据来源和准确度。

Gemini还能利用其多模态推理能力，在后台自动更新代码，实时更新图表数据。

例如Gemini用了很短的时间，就对新增的20万篇论文，进行审查和筛选，并提取有用的数据，完成图表的更新。

Gemini还可以帮助解答任何年级的作业，例如拍照并上传一张数学题，Gemini就会识别手写的错误答案，并提供正确的解答。

最重要的是，Gemini还能指出答案出错的原因，如果你有任何不懂的问题，都可以和Gemini互动，即使是复杂的物理问题，Gemini也能提供正确的解答步骤。

Gemini不仅具备卓越的文本处理能力，更展现了强大的编程实力。它能够深入理解并生成Java、C++等主流编程语言，一次处理多达200个编程函数，成功率高达75%，远超过POM2模型。对于给出的不准确答案，Gemini拥有自我修复功能，能够将成功率提升至90%以上。

Gemini有望彻底变革软件开发方式。用户只需输入简单命令，Gemini便能迅速生成符合要求的代码。特别为编程人员打造的alphacode 2模型，相较于之前发布的alphacode，性能提升了85%以上。alphacode 2能够与程序员紧密合作，显著提高编程效率，预示着未来编程模式的新篇章。

Google还向全球公布了其研发的世界最强人工智能加速器——Lau TPU V5P。Gemini模型正是在这款TPU的助力下训练而成。相较于前代V4，clottpuv五翼在性价比上提升了两倍以上，同时LLM模型的训练速度也提高了三倍。Google计划向客户开放cloudtpuv 5P和AI超级计算机，助力他们以最快速度、最低成本训练模型，实现AI创新。

安全性始终是Google对AI模型的首要考量。Gemini将接受Google模型中最全面的安全评估，确保用户在使用过程中得到最高级别的保障。

从今天开始，Bard将向全球170个国家推出英文版本的Gemini Pro。用户只需打开Bard，便可直接使用Gemini Pro模型。尝试上传一张数学题图像，Bard将迅速读取图像中的文本并提供正确答案；即使面对复杂的函数题目，Bard也能迅速给出解题过程和答案。需要注意的是，由于产品仍处于测试期，音频功能暂不可用。我们期待着Gemini在未来为我们带来更多惊喜与便利。

# 国外人工智能

文章版权归作者所有，未经允许请勿转载。

Google官宣，多模态模型Gemini正式发布，可能全面超越GPT4，免费使用

LogoDiffusion AI，AI生成Logo达到应用级啦！

Morph Studio AI｜免费文本生成视频｜人工智能视频生成工具

相关文章

最新文章

热门文章

Google官宣，多模态模型Gemini正式发布，可能全面超越GPT4，免费使用

LogoDiffusion AI，AI生成Logo达到应用级啦！

Morph Studio AI｜ 免费文本生成视频 ｜ 人工智能视频生成工具

相关文章

最新文章

广告位

热门文章

Morph Studio AI｜免费文本生成视频｜人工智能视频生成工具