大家好,我是振兴东北前线总指挥。12月6日,Google正式发布多模态大模型Gemini有望超越最强的GPT4模型,Gemini由Google Deepmind团队开发将会逐步应用到,Google旗下的各种产品中。
令Google自豪的是,Gemini在MMLU测试中成为第一个超越人类专家的模型。
MMLU也叫做measuring massive。
Multi test language understanding,可以衡量大语言模型在大规模多任务方面的理解能力。在近期MMLU测试中,GPT4的得分为86.4,而Gemini的得分已经超过了90。
在32项学术基准的测试中,Gemini均超过了GPT4,展现了强大的推理能力。
MMMU多模态跨领域推理任务测试中,Gemini Ultra也完胜GPT4V模型,Gemini 1.0包含了三个版本,分别是Ultra Pro和Nano,Gemini Ultra更适合复杂的任务,相当于GPT4,Gemini Pro模型相当于GPT 3.5
Nano则适合移动端用户使用,是一个轻量化模型。
根据Google的最新公告,Gemini Ultra将在2024年初正式登陆Bard平台,届时用户将能享受到更为高级的Bard服务。预计这一新功能将采取与GPT4类似的收费模式,为使用者提供卓越的价值与体验。目前,Gemini Pro版本已经在Bard中投入使用,凭借其出色的性能和广泛的应用场景,迅速成为最受欢迎的多模态模型之一。
与此同时,Gemini Nano版本将被集成到Google Pixel 8 Pro手机中,这一创新技术为用户带来了前所未有的便利。Gemini Nano模型具备强大的文字总结功能,无论手机中的文字内容是什么,都能轻松地进行整理和总结,而且这一过程完全不需要联网,确保了用户的隐私安全。
除此之外,Gemini Nano还支持自动回复功能,能够根据用户的问题快速生成合适的回答,极大地提升了沟通效率。这一独特的功能使得Gemini Nano在同类产品中脱颖而出,成为一款备受瞩目的先进技术。
Gemini是一个多模态模型,无论输入任,何图像都可以获得对应的输出,为了测试Gemini的多模态推理能力,Google提供了有趣的演示动画。
1:测试Gemini的图像识别和交互能力。
图中演示了一边画,一边让模型识别的能力。
我们可以通过演示案例看出,Gemini可以实时识别出。
2:和Gemini互动测试看图猜谜游戏
除此之外,还有,尝试各种互动游戏,推理能力测试,无手绘图像识别加推理能力测试,复杂的连线游戏,简笔图像识别和推理,音频多模态测试。
Gemini具备读取和理解文本音频,图像和视频的能力,除了基本的多模态能力,Gemini,还可以广泛应用于科研和编程领域。
例如Gemini 1.0强大的多模态推理能力,可以帮助科学家从数以千计的论文中,筛选精确的数据,并标注数据来源和准确度。
Gemini还能利用其多模态推理能力,在后台自动更新代码,实时更新图表数据。
例如Gemini用了很短的时间,就对新增的20万篇论文,进行审查和筛选,并提取有用的数据,完成图表的更新。
Gemini还可以帮助解答任何年级的作业,例如拍照并上传一张数学题,Gemini就会识别手写的错误答案,并提供正确的解答。
最重要的是,Gemini还能指出答案出错的原因,如果你有任何不懂的问题,都可以和Gemini互动,即使是复杂的物理问题,Gemini也能提供正确的解答步骤。
Gemini不仅具备卓越的文本处理能力,更展现了强大的编程实力。它能够深入理解并生成Java、C++等主流编程语言,一次处理多达200个编程函数,成功率高达75%,远超过POM2模型。对于给出的不准确答案,Gemini拥有自我修复功能,能够将成功率提升至90%以上。
Gemini有望彻底变革软件开发方式。用户只需输入简单命令,Gemini便能迅速生成符合要求的代码。特别为编程人员打造的alphacode 2模型,相较于之前发布的alphacode,性能提升了85%以上。alphacode 2能够与程序员紧密合作,显著提高编程效率,预示着未来编程模式的新篇章。
Google还向全球公布了其研发的世界最强人工智能加速器——Lau TPU V5P。Gemini模型正是在这款TPU的助力下训练而成。相较于前代V4,clottpuv五翼在性价比上提升了两倍以上,同时LLM模型的训练速度也提高了三倍。Google计划向客户开放cloudtpuv 5P和AI超级计算机,助力他们以最快速度、最低成本训练模型,实现AI创新。
安全性始终是Google对AI模型的首要考量。Gemini将接受Google模型中最全面的安全评估,确保用户在使用过程中得到最高级别的保障。
从今天开始,Bard将向全球170个国家推出英文版本的Gemini Pro。用户只需打开Bard,便可直接使用Gemini Pro模型。尝试上传一张数学题图像,Bard将迅速读取图像中的文本并提供正确答案;即使面对复杂的函数题目,Bard也能迅速给出解题过程和答案。需要注意的是,由于产品仍处于测试期,音频功能暂不可用。我们期待着Gemini在未来为我们带来更多惊喜与便利。