网易首页 > 网易号 > 正文 申请入驻

谷歌对垒OpenAI,谁更胜一筹?

0
分享至

中国战略新兴产业融媒体记者 艾丽格玛

当地时间5月14日,谷歌在2024 Google I/O大会上展示了其在AI技术上的一系列突破。就在一天前,OpenAI发布的GPT-4o已经引发了一波热议,而发布时间仅差一天的两个技术产品被视为是这两家科技企业在AI领域真刀明枪的激烈对垒。

谷歌和OpenAI的发布会,不约而同地强调了AI与现实世界的真正交互——例如用摄像头感知环境、识别内容和互动。不过,在产品功能重点方面,两家公司各有千秋。

那么,最新的AI大模型到底能做到什么程度?它们能带来生产力的质变,还是仅仅停留在概念性的炒作?

01

各有侧重的阶段性更新

当地时间5月13日,OpenAI通过直播展示了产品更新。

这次,OpenAI并未推出搜索引擎,也未推出GPT-4.5或GPT-5,而是发布了GPT-4系列新模型GPT-4o以及AI聊天机器人ChatGPT的桌面版本。这可以看作是对GPT-4的一次阶段性更新,而根据OpenAI官方网站介绍,GPT-4o中的“o”代表Omni,也就是“全能”的意思。

据介绍,GPT-4o文本、推理、编码能力达到GPT-4 Turbo水平,速度是上一代AI大模型GPT-4 Turbo的两倍,但成本仅为GPT-4 Turbo的一半,视频、音频功能得到改善。OpenAI公司CEO山姆·奥尔特曼在博客中表示,ChatGPT免费用户也能用上新发布的GPT-4o。此外,OpenAI还与苹果走到一起,推出了适用于macOS的桌面级应用。

OpenAI技术负责人Mira Murati在直播中表示:“这是我们第一次在易用性方面真正迈出的一大步。”

OpenAI将GPT-4o定位为GPT-4性能级别的模型。据介绍,GPT-4o在传统基准测试中,文本、推理、编码能力达到GPT-4 Turbo的水平。该模型接收文本、音频和图像输入时,平均320毫秒响应音频输入,与人类对话中的响应时间相似,英文文本和代码能力与GPT-4 Turbo相当,在非英文文本上有改善,提高了ChatGPT针对50种不同语言的质量和速度,并通过OpenAI的API提供给开发人员,使其即时就可以开始使用新模型构建应用程序。

与之形成对比的是,谷歌终于将自己在搜索领域的强项融入了AI产品:比如“Ask with video”,利用Gemini的多模态能力与Google Lens相结合,可以实现视频搜索——录制一段视频,就能知道用户使用唱片机,甚至维修照相机;Google Photos中还推出了新的AI功能“Ask Photos”,可以通过简单的提问在大量照片中找出“孩子多年来学习游泳的历程”。

谷歌版 AI 搜索的输出结果不再是网址的罗列,而是一个全新的整合页面——它更像一份针对用户提问而形成的报告,不仅包括对问题本身的回答,也包括对用户可能忽略问题的猜测和补充。

在大会上,谷歌搜索部门负责人Liz Reid表示,“生成式AI搜索将为你做的比你想象更多。不管你脑子里在想什么,或者你需要做什么,只要问,谷歌就会为你搜索。”她解释说,AI概述在收到一个一般查询后会提供一系列潜在答案,并链接到更深入的内容。它还能通过在搜索中使用“多重推理”在几秒钟内回答更复杂的问题和子问题。

谷歌同样展示了现实交互功能,其一款名为Project Astra的多模式AI助手,可以观看并理解通过设备摄像头看到的内容,记住用户的东西在哪里,帮用户在现实世界搜索物品,或是完成其他任务。

但是,相比于OpenAI简单直接的视频说明,谷歌在现场演示的AI工具却遭遇“翻车”。

开场时,一位从舞台上的茶杯中钻出的DJ,在台上使用谷歌内部开发的一款AI DJ小工具 MusicFX DJ,在舞台上现场用随机生成的关键词,来创造出一首曲目——很可惜,创造出的曲调有点糟糕。

不过,相比于2023年在演示Gemini后的“群嘲”,今年谷歌DeepMind推出的Project Astra使用视频显得更加可信:操作者以智能手机为媒介,让大模型实时收集环境中的各种信息,并在围绕着办公室转了一圈后突然提问:“你记得眼镜在哪里吗?”AI从环境信息中捕捉到了眼镜的位置,并给出了正确的方位提示。

02

多模态成为重点

在直播中,OpenAI演示了一段员工与GPT-4o对话的视频,模型反应速度与人类相近,GPT-4o可利用手机摄像头描述其“看到”的东西。另一段展示视频里,GPT-4o被装在两个手机上,其中一个代表人类与电信公司打电话沟通设备更换事项,另一个GPT-4o扮演电信公司客服人员。OpenAI还展示了GPT-4o搭载在手机上的实时翻译能力。

GPT-4o的发布,标志着OpenAI在多模态AI领域的重大突破。这款新模型不仅能够实时对音频、视觉和文本进行推理,还能够生成文本、音频和图像的任意组合输出,大大提升了与人类的交互体验。GPT-4o的响应速度极快,音频输入的平均响应时间仅为320毫秒,与人类对话中的自然反应时间相当。此外,GPT-4o在多语言处理、视觉和音频理解方面的能力也有显著提升,创下了多项新的行业纪录。

根据OpenAI介绍,GPT-4o与GPT-3.5、GPT-4的语音对谈机制不同。GPT-3.5和GPT-4会先将音频转换为文本,再接收文本生成文本,最后将文本转换为音频,经历这三个过程,音频中的情感表达等信息会被折损,而GPT-4o是跨文本、视觉和音频的端到端模型,是OpenAI第一个综合了这些维度的模型,可更好进行对谈。


而如前所述,谷歌本次发布的AI Overview,也在多模态的问题上做足了文章。

那么,“多模态”到底是什么?

多模式深度学习,是一个机器学习的子领域,旨在训练人工智能模型来处理和发现不同类型数据——也就是模式之间的关系,通常是图像、视频、音频和文本。通过结合不同的模态,深度学习模型可以更普遍地理解其环境,因为某些线索仅存在于某些模态中。

例如一个能够识别人类面部情绪的任务,它不仅需要AI看一张人脸(视觉模态),还需要关注人声音(音频模态)的音调和音高,这些内容编码了大量关于他们情绪状态的信息,这些信息可能无法通过他们的面部表情看到,即使他们经常是同步的。

在多模态深度学习中,最典型的模态是视觉(图像、视频)、文本和听觉(语音、声音、音乐)。其他不太典型的模式包括3D视觉数据、深度传感器数据和LiDAR 数据,这是在自动驾驶汽车中经常用到的典型数据。

此外,在临床实践中,成像方式包括计算机断层扫描(CT)扫描和X射线图像,而非图像方式包括脑电图(EEG)数据。传感器数据,如热数据或来自眼动追踪设备的数据也可以包含在列表中。

多模态神经网络通常是多个单模态神经网络的组合。例如,视听模型可能由两个单峰网络组成,一个用于视觉数据,一个用于音频数据。这些单峰神经网络通常分别处理它们的输入。这个过程称为编码。在进行单峰编码之后,必须将从每个模型中提取的信息融合在一起。已经提出了多种融合技术,范围从简单的连接到注意机制。多模态数据融合过程是最重要的成功因素之一。融合发生后,最终的“决策”网络接受融合后的编码信息,并接受最终任务的训练。

可以看出,要想让停留在“画画写字唱歌”程度的AI们真正与现实世界产生交互并影响生产过程,多模态研发是必经之路。

03

国产AI表现如何?

2023年,研发了Vidu的生数科技CEO唐家渝在接受媒体采访时表示,全球范围内来看,多模态大模型的研究仍处于起步阶段,技术成熟度还不高。这一点不同于火热的语言模型,国外已经领先了一个时代。因此,相比于在语言模型上“卷”,唐家渝认为多模态更是国内团队抢占大模型赛道的一个重要机会。

目前国内很多企业都在相继布局视频大模型,主要分为三类:第一类是传统大厂,如字节跳动在视频领域布局已久,此前发布了高清文生视频模型MagicVideo-V2,此外像阿里云、腾讯、百度、讯飞等,除了在通用技术上继续向多模态大模型发力之外,也在面向行业开发一些应用于垂直领域的大模型。第二类是专门做视觉分析的厂商,比如海康威视等,已经开始投入到视频大模型的研发中。第三类包括一些专注内容开发、创意营销的厂商,比如昆仑万维、万兴科技等也研发了自己的视频大模型。

但易观分析研究合伙人陈晨表示,与Sora相比,目前Vidu的时长、画面元素的丰富度、细节表现方面仍然有差距。不过,Vidu是一个阶段性的产物,模型能力的突破只是时间问题。至少Sora到现在还没有开放,原因可能是对实际任务的处理能力仍需要融合,以及资源、商业模式等多方面的问题。从这个角度上看,比起大语言模型,国内做视觉模型的起步是比较早的,技术和经验都有较深的积累,需要的是发挥国内产业链协同方面的优势,能够将多模态的能力落到B端和C端丰富的应用场景当中去。

对于国内AI企业寄希望于通过多模态实现弯道超车的问题,陈晨对媒体表示,视频大模型在技术上的突破必定加速了AGI的进程,但AGI的关键还在于是否能自发地处理无限多任务,以及是否具备与人类一致的认知架构。此外,最近针对Sora也出现了不同的声音,有一部分专家并不认为Sora是真正可以通往AGI的道路。不过现在相对独立的技术路线在未来未必不会出现融合的情况,创造出真正智能且灵活可控的AGI模型。

近期,包括阿里的开源模型通义千问Qwen在内的几个国产开源大模型激战正酣,呼声和反响甚至比在国内还高。Stability AI研究主管Tanishq Mathew Abraham在5月6日发文提醒道:“许多最具竞争力的开源大模型,包括Owen、Yi、InternLM、Deepseek、BGE、CogVLM 等正是来自中国。关于中国在人工智能领域落后的说法完全不属实。相反,他们正在为生态系统和社区做出重大贡献。”

5月9日,阿里云发布Qwen2.5。相较上一版本,2.5版模型的理解能力、逻辑推理、指令遵循、代码能力分别提升9%、16%、19%、10%。团队还开源了Qwen1.5系列首个千亿参数级别模型Qwen1.5-110B,能处理 32K tokens 上下文长度,支持英、中、法、西、德等多种语言。Liquid AI高级机器学习科学家Maxime Labonne看了表示:“Qwen1.5-110B在 MMLU 上的得分竟然高于‘性能野兽’ Llama 370B的instruct版本。微调后它将有可能成为最强开源SOTA模型,至少能和Llama 3媲美。”

在各种尺寸的灵活选择下,通义千问其它参数的模型性能也好评如潮。Qwen-1.5 72B曾在LMSYS Org推出的基准测试平台Chatbot Arena上夺冠,Qwen-72B也多次进入“盲测”对战排行榜全球前十。

5月6日,私募巨头幻方量化旗下的AI公司深度求索发布全新第二代MoE大模型DeepSeek-V2,模型论文双开源。其性能在AlignBench排行榜中位列前三,超过GPT-4且接近GPT-4-Turbo。MT-Bench属于顶尖级别,与LLaMA3-70B比肩,远胜Mixtral 8x22B。支持 128K 的上下文窗口,专精于数学、代码和推理任务。Hugging Face技术主管Philipp Schmid在X发文,列出DeepSeek V2各项技能点向社区隆重推荐——上线仅四天,Hugging Face上的下载量已达3522次,在GitHub也瞬间收获1200颗星星。

除了以上提到的DeepSeek、Qwen,还有MiniCPM、上海人工智能实验室和商汤联合研发的InternLM、零一万物的Yi系列、智谱AI的多模态大模型CogVLM等等在开发者社区里备受欢迎中国的开源模型。

还有人提出,自己属实被过去一年中Arxiv上AI论文里中文署名作者的庞大数量震惊到了。

OpenAI早期投资人Vinod Khosla曾在X发文称,“美国的开源模型都会被中国抄去”。但这番言论马上被Meta的AI教父Yann LeCun反驳:“AI不是武器。无论我们是否把技术开源,中国都不会落后。他们会掌控自己的人工智能,开发自己的本土技术堆栈。”

国盛证券研报认为,GPT-4o是迈向更自然的人机交互的重大进步,新功能带来了崭新的多模态交互能力,通过新的端到端模型实现了体验上的新突破,有望在各类终端实现用户体验的最大化,利好智能终端Agent、机器人等方向。

正如谷歌 DeepMind负责人Demis Hassabis表示,多模态的通用AI代理,“可以在日常生活中真正提供帮助”。科技巨头们正摩拳擦掌,野心勃勃地冲向AI引导的新世界,虽然距离用AI深入改造万千行业的目标仍有一段距离,但其带来的可能性仍然在不断拓展。(综合编辑)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
数学老师说姜萍属于勤奋型选手,中考数学没答完卷,数学天赋在中专才逐渐显现出来

数学老师说姜萍属于勤奋型选手,中考数学没答完卷,数学天赋在中专才逐渐显现出来

封面新闻
2024-06-15 15:40:29
事态升级!黄一鸣已找律师,高调放话法庭见,王思聪新动静曝光!

事态升级!黄一鸣已找律师,高调放话法庭见,王思聪新动静曝光!

古希腊掌管月桂的神
2024-06-13 19:54:17
8名以军士兵在加沙南部拉法发生的爆炸中死亡

8名以军士兵在加沙南部拉法发生的爆炸中死亡

财联社
2024-06-15 23:30:23
普京表示:不攻击北约、不使用核武并愿意谈判!难道要服软了?

普京表示:不攻击北约、不使用核武并愿意谈判!难道要服软了?

翻开历史和现实
2024-06-13 22:56:43
不交吃亏!7月1日起2024年城乡居民医保缴费要多交670元

不交吃亏!7月1日起2024年城乡居民医保缴费要多交670元

映射生活的身影
2024-06-15 12:49:19
“人民”警察网暴人民,丧尽天良!

“人民”警察网暴人民,丧尽天良!

观风者
2024-06-14 10:06:53
新华社消息|中国代表呼吁国际社会倡导文明对话

新华社消息|中国代表呼吁国际社会倡导文明对话

新华社
2024-06-15 11:38:52
工资到账:小米汽车员工实发工资曝光 年入百万不是梦

工资到账:小米汽车员工实发工资曝光 年入百万不是梦

快科技
2024-06-15 19:33:07
中国女排赛后,吴冠希发微博赞美妻子张常宁:最棒的9号

中国女排赛后,吴冠希发微博赞美妻子张常宁:最棒的9号

懂球帝
2024-06-15 23:09:18
唐氏综合症的孩子不应该出生吗?网友:一时心软,累及三代!

唐氏综合症的孩子不应该出生吗?网友:一时心软,累及三代!

户外钓鱼哥阿勇
2024-06-16 07:01:39
上海这夜,耍大牌周也和勒肉张碧晨,都败给了“全裹”出镜的高叶

上海这夜,耍大牌周也和勒肉张碧晨,都败给了“全裹”出镜的高叶

一娱三分地
2024-06-16 08:55:03
G7为何敢用冻结俄资产做担保为乌提供500亿,因为俄T-62坦克上场

G7为何敢用冻结俄资产做担保为乌提供500亿,因为俄T-62坦克上场

山河路口
2024-06-15 23:54:24
怪不得哈尔科夫俄军偃旗息鼓了,原来乌军采取了这么一个动作

怪不得哈尔科夫俄军偃旗息鼓了,原来乌军采取了这么一个动作

听风听你
2024-06-13 11:16:52
鲁尼悼念凯文-坎贝尔:凯文去世令我非常悲痛,他给予我很多帮助

鲁尼悼念凯文-坎贝尔:凯文去世令我非常悲痛,他给予我很多帮助

直播吧
2024-06-15 19:55:40
周鸿祎:嫌360广告弹窗多,可以用极速版,想免费,就要接受广告

周鸿祎:嫌360广告弹窗多,可以用极速版,想免费,就要接受广告

科技Nice
2024-06-15 17:14:28
​美国失算,嫦娥六号后,嫦七合作:禁阿反而来了7国,含盟友

​美国失算,嫦娥六号后,嫦七合作:禁阿反而来了7国,含盟友

环球科学猫
2024-06-15 11:17:14
最新确认:杭州明晚起反转!全省预警多到快挂不下了!

最新确认:杭州明晚起反转!全省预警多到快挂不下了!

明珠电视
2024-06-15 16:55:04
魔怔了?美国洛杉矶移除“禁止转弯”交通标志,因涉嫌歧视“弯的”

魔怔了?美国洛杉矶移除“禁止转弯”交通标志,因涉嫌歧视“弯的”

不掉线电波
2024-06-16 09:33:45
你也想归化?浙江队外援莱昂纳多晒穿国足球衣照片

你也想归化?浙江队外援莱昂纳多晒穿国足球衣照片

懂球帝
2024-06-16 05:52:06
神奇换人!两小将临危受命直取关键两分,主导者不是蔡斌,而是她

神奇换人!两小将临危受命直取关键两分,主导者不是蔡斌,而是她

理工男评篮球
2024-06-16 00:29:00
2024-06-16 12:48:49
中国战略新兴产业
中国战略新兴产业
国家发改委主管新闻期刊
5105文章数 1383关注度
往期回顾 全部

科技要闻

iPhone 16会杀死大模型APP吗?

头条要闻

媒体:普京开出的停火条件有重大变化 已亮出战略底牌

头条要闻

媒体:普京开出的停火条件有重大变化 已亮出战略底牌

体育要闻

没人永远年轻 但青春如此无敌还是离谱了些

娱乐要闻

上影节红毯:倪妮好松弛,娜扎吸睛

财经要闻

打断妻子多根肋骨 上市公司创始人被公诉

汽车要闻

售17.68万-21.68万元 极狐阿尔法S5正式上市

态度原创

数码
艺术
游戏
亲子
本地

数码要闻

华为新款MatePad平板来了:支持北斗卫星消息

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

《怪兽8号》将推游戏 登陆手机/Steam平台

亲子要闻

“快哭,不然阿姨打你哦”新生儿缺氧无法哭出声音

本地新闻

粽情一夏|海河龙舟赛,竟然成了外国人的大party!

无障碍浏览 进入关怀版