网易首页 > 网易号 > 正文 申请入驻

27B开源模型直追671B DeepSeek-R1,具身推理SOTA,谷歌三连发

0
分享至

从大语言模型到机器人,能力不断进化。

今日,谷歌来了波大爆发,包括:

  • 开源大语言模型Gemma 3
  • 机器人领域的模型Gemini Robotics
  • 开放原生图像生成能力Gemini 2.0 Flash

我们接下来一一介绍。

首先是谷歌开源模型家族Gemma的新成员——Gemma 3,它是一系列基于Gemini 2.0的轻量级SOTA开源模型。作为谷歌迄今最先进、最便携且最负责任开发的开源模型,Gemma 3专为多种设备设计,从手机、笔记本电脑到工作站,都能实现高速运行,帮助开发者在需要的任何地方创建AI应用。

Gemma 3提供多个版本,包括1B、4B、12B和27B,让开发者能根据特定硬件和性能需求选择合适模型。

Gemma 3在同等规模模型中性能卓越,并在LMArena排行榜的人类偏好评估中超越了Llama-405B、DeepSeek-V3和o3-mini等前沿大模型。在下图中,在取得与DeepSeek-R1相差不多得分的情况下,Gemma 3使用了前者1/32的GPU算力。

这使得用户可以在单个GPU(H100)或TPU上构建流畅的用户体验,并在体验到其它模型相似性能的同时节省至少10倍的算力。

同样在Chatbot Arena榜单中,Gemma-3-27b-it迈进了Top 10,击败了OpenAI的o1-preview和o3-mini-high,成为仅次于DeepSeek-R1的第二好的开源模型。

图源:
https://x.com/ai_for_success/status/1899732594486595918

Gemma 3的其他技术亮点包括如下:

  • 创建具备文本和视觉推理能力的智能应用:轻松构建能分析图像、文本和短视频的应用,为交互式智能应用开创新可能。
  • 通过扩展上下文窗口处理复杂任务:提供128k token的上下文窗口,使你的应用能处理和理解大量信息。
  • 利用函数调用创建AI驱动的工作流:支持函数调用和结构化输出,帮助你自动化任务并构建智能代理体验。
  • 通过量化模型提升性能和效率:提供官方量化版本,在保持高精度的同时减小模型体积和计算需求。
  • 支持140种语言的全球化应用:打造能说用户语言的应用程序。Gemma 3原生支持超过35种语言,并在预训练阶段覆盖了140多种语言。

此外,Gemma 3的技术报告已经放出,想要了解该系列模型更多细节的小伙伴可以移步查阅。

技术报告地址:
https://storage.googleapis.com/deepmind-media/gemma/Gemma3Report.pdf

Gemini Robotics:将AI带入物理世界

Google DeepMind 推出了两个新的人工智能模型,旨在帮助机器人执行比以往更广泛的现实世界任务。

第一个模型名为 Gemini Robotics,是一个视觉-语言-动作模型,即使没有接受过相关训练,它也能理解周围最新情况。

第二个是 Gemini Robotics-ER,这是一种具有先进空间理解能力的 Gemini 模型,使机器人能够使用 Gemini 的具身推理 (ER) 能力运行自己的程序。

这两个新模型都是基于Gemini 2.0开发的。

Gemini Robotics: 最先进的视觉-语言-动作模型

机器人想要在现实世界中对人类真正有帮助,需要具备三个核心条件:通用性、交互性和灵巧性。

通用性:Gemini Robotics技术凭借对世界的深度理解能力,能够泛化到全新情境并解决各种任务,包括训练中从未见过的任务。Gemini Robotics尤其擅长应对新物体、多样化指令和新环境。技术报告数据显示,Gemini Robotics在综合泛化能力测试中的表现比其他最先进的视觉-语言-动作模型平均提高了一倍以上。

Gemini Robotics对世界理解能力的展示

交互性:为了在动态物理世界中高效运作,机器人需要能与人类及周围环境无缝互动,并迅速适应变化。

Gemini Robotics基于Gemini 2.0构建,拥有直观的互动能力。它凭借先进的语言理解技术,能够理解并响应日常对话和多语言指令。

与之前的模型相比,它能理解更广泛的自然语言指令,并根据用户输入调整行为。同时,它会持续监测周围环境,检测环境或指令的变化,并相应调整行动。这种被称为「可操控性」的能力,使人们能更好地在家庭和工作场所与机器人助手协作。

灵巧性:打造实用型机器人的第三个关键要素是灵巧的操作能力。人类轻松完成的日常任务,实际上需要精细的运动技能,这对机器人而言仍极具挑战。Gemini机器人能够应对复杂的精确操控多步骤任务,如折纸或将零食装入密封袋。

Gemini机器人展现出卓越的灵巧性

此外,Gemini Robotics系统设计具有强大的适应性,能够兼容各种形状和尺寸的机器人平台。虽然该模型主要基于ALOHA 2双臂机器人平台的数据训练,但研究证实它同样能有效控制基于Franka机械臂(学术实验室广泛使用的设备)的双臂系统。更值得注意的是,Gemini机器人还可针对更复杂的机身结构进行优化定制,如Apptronik开发的Apollo人形机器人,以应对现实环境中的多样化任务。

Gemini Robotics 致力于研究不同类型的机器人

增强Gemini的世界理解能力

除了Gemini Robotics ,谷歌还推出了一种名为Gemini Robotics-ER(Embodied Reasoning)的先进视觉-语言模型。该模型增强了Gemini对世界的理解,特别是在机器人技术所需的空间推理能力方面,同时允许机器人研发者将其与现有的低级控制器集成。

Gemini Robotics-ER显著提升了Gemini 2.0的现有功能,如指向和3D检测。通过结合空间推理与编程能力,Gemini Robotics-ER能够动态实现全新功能。例如,当识别到咖啡杯时,模型能直观推断出合适的双指抓取方式以抓住杯柄,并规划安全的接近路径。

Gemini Robotics-ER能直接执行控制机器人所需的全部步骤,包括感知、状态估计、空间理解、规划和代码生成。在这种端到端的应用场景中,该模型的成功率是Gemini 2.0的2至3倍。当代码生成不足以解决问题时,Gemini Robotics-ER还能通过上下文学习能力,从少量人类示范中学习模式并提供解决方案。

Gemini Robotics-ER在具身推理能力方面表现出色,包括检测物体和指向物体部件、寻找对应点以及在三维空间中检测物体。

最后,谷歌开放了Gemini 2.0 Flash的原生图像生成能力。现在,开发者可以在Google AI Studio中使用实验版Gemini 2.0 Flash(gemini-2.0-flash-exp),并通过Gemini API体验这项功能。Gemini 2.0 Flash结合多模态输入、增强推理和自然语言理解来创建图像。

https://blog.google/technology/developers/gemma-3/

https://deepmind.google/discover/blog/gemini-robotics-brings-ai-into-the-physical-world/

https://developers.googleblog.com/en/experiment-with-gemini-20-flash-native-image-generation/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
跌麻了!笔记本开年销量暴跌40%近乎腰斩:没人买了

跌麻了!笔记本开年销量暴跌40%近乎腰斩:没人买了

中国能源网
2026-03-26 14:13:04
中共中央批准,开除刘慧党籍

中共中央批准,开除刘慧党籍

新京报
2026-03-26 17:14:17
张雪峰前女友哭红眼,喊话不要给张雪峰泼脏水,曝两人分手原因

张雪峰前女友哭红眼,喊话不要给张雪峰泼脏水,曝两人分手原因

180视角
2026-03-26 14:51:03
盘点那些年热搜榜上的岛国女老师

盘点那些年热搜榜上的岛国女老师

碧波万览
2026-03-27 00:45:03
内塔尼亚胡妻子:我儿子就因是以总理孩子被羞辱

内塔尼亚胡妻子:我儿子就因是以总理孩子被羞辱

看看新闻Knews
2026-03-26 14:21:02
41岁张雪峰去世后续,其婚姻被扒,已离婚6年,前妻很低调

41岁张雪峰去世后续,其婚姻被扒,已离婚6年,前妻很低调

180视角
2026-03-26 13:01:03
阿根廷世界杯名单已定20人!16大名将争最后6席 21岁加纳乔已出局

阿根廷世界杯名单已定20人!16大名将争最后6席 21岁加纳乔已出局

我爱英超
2026-03-26 19:07:13
广东一男子买啤酒抽中电动车大奖,将中奖二维码发网上询问后被他人扫走核销,网友:“这下又上了一课”

广东一男子买啤酒抽中电动车大奖,将中奖二维码发网上询问后被他人扫走核销,网友:“这下又上了一课”

洪观新闻
2026-03-26 10:56:49
美团:2025年营收3,648.5亿元人民币 同比增长8.1%

美团:2025年营收3,648.5亿元人民币 同比增长8.1%

财联社
2026-03-26 17:40:04
万科高管被要求退还薪酬

万科高管被要求退还薪酬

地产微资讯
2026-03-26 12:22:04
到底有多无知,才能做出这样的判决!

到底有多无知,才能做出这样的判决!

槽三刀
2026-03-25 22:01:04
官宣《浪姐7》遭全网抵制,49岁的范玮琪,终于迎来了“报应”!

官宣《浪姐7》遭全网抵制,49岁的范玮琪,终于迎来了“报应”!

阿纂看事
2026-03-26 20:49:43
去世还不到48小时,张雪峰过往争议被扒,出轨传闻早已真相大白

去世还不到48小时,张雪峰过往争议被扒,出轨传闻早已真相大白

兰亭墨未干
2026-03-26 22:47:38
清纯得不像动作片女一号!

清纯得不像动作片女一号!

贵圈真乱
2026-03-26 11:33:33
全国高速明天大调整!车主集体欢呼:早该这么干了

全国高速明天大调整!车主集体欢呼:早该这么干了

沙雕小琳琳
2026-03-26 02:05:39
突发,雷军辞职董事长!

突发,雷军辞职董事长!

品牌头版
2026-03-26 14:46:17
曾在恒大赚上亿!40岁郜林吐槽:在中乙当老总1个月工资不够油费

曾在恒大赚上亿!40岁郜林吐槽:在中乙当老总1个月工资不够油费

我爱英超
2026-03-26 20:47:14
网友曝张雪峰抢救细节:倒地30分钟才被发现,用ECMO全力抢救无效

网友曝张雪峰抢救细节:倒地30分钟才被发现,用ECMO全力抢救无效

半窗疏影
2026-03-26 20:17:36
心源性猝死人数逐渐增多,医生建议:少吃鸡肉,多喝7样增强免疫

心源性猝死人数逐渐增多,医生建议:少吃鸡肉,多喝7样增强免疫

垚垚分享健康
2026-03-26 16:09:56
周杰伦继续割韭菜!网友一针见血:他唯一和华流关系最大的是割大陆韭菜

周杰伦继续割韭菜!网友一针见血:他唯一和华流关系最大的是割大陆韭菜

爆角追踪
2026-03-26 08:56:24
2026-03-27 01:16:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

艺术
本地
旅游
公开课
军事航空

艺术要闻

都说乌克兰美女多,看完摄影师贝格玛 的作品我信了!

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

旅游要闻

老外为羊拿铁扎堆魔都街头 法国游客花式夸上海

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版