网易首页 > 网易号 > 正文 申请入驻

外媒评测GPT-4:较上一代脱胎换骨,但依然有缺陷存在误导性

0
分享至

GPT-4 AI能力精华版 澎湃新闻编辑 李垚瑞(10:23)

当地时间3月14日,OpenAI推出了“深度学习的最新里程碑”GPT-4。据介绍,这是一款大型多模态模型,与ChatGPT所用的模型GPT-3.5相比,它的文本处理量扩大至2.5万个单词,还增加了图片处理功能。

在一直被外界诟病的准确性方面,GPT-4也有所改进。据OpenAI的介绍,在公司内部的对抗性真实性评估中,GPT-4的得分比GPT-3.5高40%,相应的“不允许内容请求的倾向”降低了 82%,根据政策响应敏感请求(如医疗建议和自我伤害)的频率提高了29%。

OpenAI将GPT-4称为“里程碑”式的模型,它是否如宣传的那般智能?与此前的GPT系列模型相比,它到底在哪些方面有所改进?

准确性更高、专业性更强

根据《纽约时报》3月14日发布的GPT-4测评报道,与ChatGPT相比,这款模型的准确性更高、专业性更强。

一位AI研究员分别询问ChatGPT和GPT-4“艾伦人工智能研究所前CEO Oren Etzioni以及企业家Eli Etzioni是什么关系”,GPT-4准确回答出他们是父子关系,而ChatGPT错误地将他们说成兄弟。

不过,在解释了上述两名人士的身份时,GPT-4和ChatGPT都犯了一些错误——这两个机器人均将Oren解释为艾伦人工智能研究所的CEO,但事实上,Oren已经于2022年宣布卸任CEO一职。

但考虑到ChatGPT的数据库仅更新至2021年,而GPT-4的训练数据也只追踪到2021年9月,这一错误显得情有可原。

来源:《纽约时报》

专业性方面,北卡罗来纳大学教堂山分校(University of North Carolina at Chapel Hill)的医学副教授兼心脏病学家Anil Gehi通过询问医学领域的专业问题,发现GPT-4具有一定的专业知识。

Gehi向GPT-4描述了一名患者的病史以及其入院后经历的并发症,并在对话中使用了较为专业的医学术语。当他询问GPT-4应该如何治疗病人时,它给了完美的答案,Gehi评价称“这正是我们对待病人的方式”。他还补充道,在尝试其他场景时,GPT-4给出了同样令人印象深刻的答案。

这似乎也对应了OpenAI所说的,与GPT-3.5相比,GPT-4在响应医疗建议和自我伤害等敏感请求方面,频率提高了29%。

不过,Gehi认为GPT-4并不会每次都能回答专业知识,因此仍然需要专业人士对其内容进行判断并执行相应的医疗程序。

能够处理复杂图片、更具幽默感

与此前发布的GPT系列模型相比,GPT-4最大的突破之一是能够处理图像内容。《纽约时报》的测试显示,它能够识别较为复杂的图片信息,并对其进行解读。

向GPT-4发送塞满食物的冰箱的图片,并询问图中食材能够做几顿饭,它给出了两种菜谱的具体制作方法——食物的搭配相当丰富,还考虑到了口感和风味。

它的回答为,“根据冰箱里可见的物品,有以下食谱:1)酸奶冻糕:将酸奶、草莓和蓝莓分层放在碗或罐子里,顶部撒上蜂蜜或坚果以增加口感和风味。2)胡萝卜和鹰嘴豆泥卷:将鹰嘴豆泥涂在玉米饼或卷上,上面放上切碎的胡萝卜和任何其他想要的蔬菜。”

来源:《纽约时报》

值得注意的是,OpenAI目前尚未对外开放图片识别分析,因为担心这项功能会被滥用。

此外,《纽约时报》还发现,GPT-4的幽默感有所提高。

当被要求提供“关于歌手麦当娜的新鲜笑话”时,GPT-4回答“麦当娜为什么要学习几何?因为她想学会如何摆出各个角度的姿势!”在回答的最后,它还“俏皮”地附上了三角尺、跳舞和麦克风的表情符号。相比而言,GPT3.5的回答就显得平平无奇,并不那么好笑了。

业内人士称警惕AI存在的潜在风险

自OpenAI去年发布其图像生成技术Dall-E 2以来,科技公司一直在炒作生成式AI(人工智能)的可能性;去年11月发布的ChatGPT更像一颗火种,迅速点燃各界对AI的热情。

不过,自发布以来,ChatGPT及其竞争对手的准确性一直为外界诟病,微软和谷歌在展示其聊天机器人相关新技术时,均出现过大大小小的失误。因此,OpenAI花费了6个月的时间,利用对抗性测试程序和ChatGPT的经验教训,迭代调整GPT-4。

OpenAI总裁兼联合创始人Greg Brockman说道,“GPT-4比GPT 3.5犯的错误更少,不过要达到最佳效果仍需辅以人工检查。……它并不完美,但你也不完美,它是让你达到新高度的工具。”Brockman还表示,OpenAI计划把这些通用知识技能推广到各个不同的领域。

虽然OpenAI一直在声称努力改进GPT系列并取得了进展,但该公司也坦然承认,GPT-4还存在一定缺陷。

“它有时会犯简单的推理错误……或者过于轻信用户的错误陈述。有时它会像人类一样在难题上失败,例如在它生成的代码中可能会引入安全漏洞。”OpenAI表示。

目前对于生成式AI,不少业内人士仍然充满担忧。科技媒体CNET表示,大型语言模型的回复有时令人印象深刻,似乎它们真的可以理解大量的问题,并且能够用听起来有点生硬的语言进行交流。不过,从根本上说,大型语言模型以及AI并不能真的了解某样东西,它们只是以精确的统计方式将单词串在一起。

对此,不少研究人员发出警告,希望用户警惕大型语言模型带来的“随机鹦鹉(stochastic parrots)”风险。“随机鹦鹉”指用随机概率信息将语言形式的序列随意拼接在一起的实体,但不涉及任何含义,是对机器学习和人工智能模型在实际应用中可能出现的误导性表现的一种戏谑称呼。

《华尔街日报》援引人工智能分析师的话称,生成式AI仍然存在潜在问题,虽然ChatGPT和其他文本生成器在面对高质量提问时,能给出准确回复,但在其他主题方面可能会给出带有种族主义和性别歧视的答案。

专门研究国际商务和信息安全的加州大学伯克利分校教授Steven Weber 表示,现在判断这项技术还为时过早,因为它尚未在现实​​世界中得到广泛测试。

目前OpenAI没有公开GPT-4的参数数量及运行成本,不过《纽约时报》指出,由于OpenAI新的聊天机器人接受了更多数据训练,其成本将会增加。OpenAI首席技术官Mira Murati称,如果服务器过载,公司可能会限制用户使用。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中央铜川市委常委、市政府副市长、党组副书记黄勇,拟任省属大型企业正职

中央铜川市委常委、市政府副市长、党组副书记黄勇,拟任省属大型企业正职

鲁中晨报
2024-05-13 15:07:11
炸裂!小三叫嚣原配:他舔过我每一个地方!被网友曝出大量性感照

炸裂!小三叫嚣原配:他舔过我每一个地方!被网友曝出大量性感照

阿甘笔记
2024-05-10 16:55:23
伟人逝世后,张国焘听闻痛哭流涕,忏悔几句话字字扎心

伟人逝世后,张国焘听闻痛哭流涕,忏悔几句话字字扎心

卡索
2024-05-10 11:23:48
“刘欢去世”?这一次,让我看到了娱乐圈的新骗局

“刘欢去世”?这一次,让我看到了娱乐圈的新骗局

娱乐圈酸柠檬
2024-05-11 21:56:26
普京任命前防长绍伊古为安全会议秘书,调离国防部!意味着什么?

普京任命前防长绍伊古为安全会议秘书,调离国防部!意味着什么?

点评校尉
2024-05-13 10:00:19
世卫组织呼吁停用3类“伤骨”蔬菜,医生忠告:平时3事可多做

世卫组织呼吁停用3类“伤骨”蔬菜,医生忠告:平时3事可多做

今日养生之道
2024-05-11 07:35:09
中国调水工程,为啥逮着一条汉江“往死里薅”?

中国调水工程,为啥逮着一条汉江“往死里薅”?

莆农阿
2024-05-13 19:04:46
俄军进攻乌克兰第二大城市

俄军进攻乌克兰第二大城市

环球时报国际
2024-05-13 06:13:42
洛杉矶火花官宣裁掉3人!李月汝仍在阵中 季前赛两战9中2需努力

洛杉矶火花官宣裁掉3人!李月汝仍在阵中 季前赛两战9中2需努力

醉卧浮生
2024-05-13 09:45:19
秦岭最神秘19号别墅,建成十年无人敢拆,749局:挖出来!

秦岭最神秘19号别墅,建成十年无人敢拆,749局:挖出来!

纸鸢奇谭
2023-09-17 09:19:42
中国经济的非市场化行为:房地产是一个隐喻

中国经济的非市场化行为:房地产是一个隐喻

永不出场的戈多
2024-05-11 09:34:24
不出意外的话,CBA季后赛打完,身价上涨的5位本土球员

不出意外的话,CBA季后赛打完,身价上涨的5位本土球员

情感路人乙
2024-05-13 12:13:36
杨幂父母苏州买房,父亲左手天珠右手名表,被吐槽太傲又难缠!

杨幂父母苏州买房,父亲左手天珠右手名表,被吐槽太傲又难缠!

柠檬有娱乐
2024-05-13 14:39:09
用了十年的苹果手机,突然打开了新世界的大门!

用了十年的苹果手机,突然打开了新世界的大门!

灵感磁场
2024-05-04 11:16:57
奥尼尔:华子和乔丹接近吗?巴克利:接近乔丹?都是黑人挺接近的

奥尼尔:华子和乔丹接近吗?巴克利:接近乔丹?都是黑人挺接近的

直播吧
2024-05-13 09:40:26
美国居然收割失败?反击开始了,5万亿救市,或给人民币带来良机

美国居然收割失败?反击开始了,5万亿救市,或给人民币带来良机

荣书哥影视
2024-05-13 12:10:30
母亲拾荒培养出985儿子,婚礼仪式岳父听到母亲名字,竟当场下跪

母亲拾荒培养出985儿子,婚礼仪式岳父听到母亲名字,竟当场下跪

纸鸢奇谭
2024-05-08 08:51:32
Woj:老鹰可能要送走吹杨&穆雷了 状元签是他们重建的绝佳机会

Woj:老鹰可能要送走吹杨&穆雷了 状元签是他们重建的绝佳机会

直播吧
2024-05-13 13:44:11
国家一级演员,因长相被嫌弃,拒不整容后她说:我选择孤独终老!

国家一级演员,因长相被嫌弃,拒不整容后她说:我选择孤独终老!

听风听你
2024-05-13 12:01:39
韩红请战《歌手2024》支援那英,网友调侃“第三次世界大战来了”

韩红请战《歌手2024》支援那英,网友调侃“第三次世界大战来了”

娱评人吴清功
2024-05-13 10:19:36
2024-05-13 22:22:44
澎湃新闻
澎湃新闻
专注时政与思想的新闻平台。
686161文章数 5030263关注度
往期回顾 全部

科技要闻

李开复:大模型创业狂奔一年 中美差距缩小

头条要闻

上海"最牛业委会追讨物业4000万"被裁定重审 业主发声

头条要闻

上海"最牛业委会追讨物业4000万"被裁定重审 业主发声

体育要闻

曼联的越位陷阱里,有只胖虎在溜达

娱乐要闻

湖南卫视回应韩红请战,文案堪称一绝

财经要闻

放开买房租房落户 超大特大城市绷不住了

汽车要闻

纯电增程并行 长安马自达EZ-6实车曝光

态度原创

本地
教育
艺术
手机
公开课

本地新闻

云游中国|哪吒小镇,潮玩新地标!

教育要闻

海洋知识竞赛丨初中组冠军诞生!

艺术要闻

新绎美术馆价值体系1+1=3?张子康激活“梦廊坊”社会化艺术生态

手机要闻

vivo X100s图赏 7.8mm超轻薄直屏影像旗舰

公开课

父亲年龄越大孩子越不聪明?

无障碍浏览 进入关怀版