网易首页 > 网易号 > 正文 申请入驻

不应该呀!科大讯飞的星火认知竟然优于百度的文心一言?

0
分享至

成立于1999年的科大讯飞,是一家专注于智能语音和人工智能技术的公司,提供了多种人工智能产品和行业应用,例如讯飞开放平台、讯飞听见、讯飞输入法、讯飞有声等。

2021年,科大讯飞实现营收183亿元,扣非净利润9.8亿元;2022年,该公司实现营收188亿元,扣非净利润5.6亿元;预计2023年,该公司营收可能在200亿元上下。尤为值得一提的是,在研发方面,科大讯飞研发投入从2021年的29.4亿元增长至2022年的33.6亿元;研发人员数量从8367人上升至9281人。在营收、净利,以及研发开支等方面,科大讯飞都远不能与国内某些明星级科技(互联网)巨头们相比。

然而,令人感到有些不可思议的是,有个别网友发帖认为,科大讯飞推出的大语言模型——星火认知,在测试时的表现居然优于百度的文心一言,也可能要好于阿里巴巴的通义千问。甚至,在已经公布的国产ChatGPT大模型中,星火认知可能会是相对最好的一个。

废话不多说,接下来就对科大讯飞的星火认知做一个比较全面的测试(昨晚才收到讯飞的申请测试通过短信),并让文心一言回答同样的问题,以便将星火认知与文心一言进行比较。另外,为了打消一些人的质疑,也会贴上ChatGPT-3.5对相同问题的回答。

首先要测试的是语言能力,通过提出各种语言相关的问题,看它们能否给出合理的回答;或者生成一些文本内容,看它们能否创造出有趣和有意义的内容。

四个问题如下:

1,请用英语翻译这句话:我今天吃了一碗酸辣粉,很开心。

2,请用五言绝句写一首描写秋天的诗。

3,请用自己的话解释什么是主谓一致。

4,请改进这段新闻标题,使其更吸引人:美国总统拜登发表演讲,谈及气候变化和新冠疫情。

星火认知

文心一言

ChatGPT-3.5

测试结果表明:在语言能力方面,星火认知除了第一个问题回答出错,第二、三、四个问题都回答得很好。文心一言只有第二个问题回答得还行。ChatGPT-3.5对第三个问题回答还算好。由于ChatGPT-3.5是美国公司开发,它在中文方面的能力还有提升空间,但如果是用英文与它交流,就可感受到它的语言能力比较强。

接下来要测试的是知识能力,即提出各种知识相关的问题,看它们能否给出正确和详尽的回答;以及解释一些复杂的概今或现象,看能否给出清晰和简洁的解释。

四个问题如下:

1,请简要介绍一下什么是大语言模型,它有什么作用和优缺点?

2,请列举出世界上最大的三个国家,按照面积从大到小排序,并给出它们的首都和人口。

3,请解释一下什么是核聚变,它和核裂变有什么区别和联系?

4,请描述一下黑洞的形成过程,它有什么特殊的性质和影响?

星火认知

文心一言

ChatGPT-3.5

测试结果表明:在知识能力方面,相对而言,无论星火认知,还是文心一言,都要弱于ChatGPT-3.5。尽管文心一言给出的回答有较大的篇幅,但只要仔细一看,就会发现错误的地方有很多。如果人类用户对某领域的知识感到陌生或者略知一二,最好是查阅权威的书籍资料、专业网站等,不要轻信AI聊天机器人生成的答案,以免被误导。即使与目前世界最先进的GPT-4对话,也需要时刻保持清醒的头脑,不能完全依赖于它生成的内容——可以把GPT-4想象成一个全能的大神级专家,但有些时候它同样会犯错却不自知。

第三要测试的是逻辑能力,也就是通过提出各种逻辑相关的问题,看它们能否给出正确和高效的回答;以及分析一些情景或案例,看它们能否给出合理和有依据的分析。逻辑推理能力是AI聊天机器人尤其重要的一种能力,如果该能力很强,且能够做出正确的逻辑推理,将有助于大大提升AI聊天机器人的实用性。

四个问题如下:

1,请用Python语言编写一个函数,实现计算一个列表中所有元素的和,并返回一个数字。

2,请用数学公式表示这个命题:如果一个数是偶数,那么它除以2的结果也是偶数。

3,请根据以下线索推理出谁说了谎:甲、乙、丙三人是朋友,也是唯一的目击者。甲说他看到了凶手的脸,乙说他看到了凶手的衣服,丙说他什么都没看到。已知只有一个人说了真话,其他两人都在撒谎。

4,请分析一下这个商业决策的优劣:一家餐厅为了吸引更多的顾客,决定对所有菜品实行半价优惠,并提供免费饮料。

星火认知

文心一言

ChatGPT-3.5

测试结果表明:在逻辑能力方面,四个逻辑题并不难,根据星火认知、文心一言、ChatGPT-3.5分别生成的答案,它们在逻辑能力方面都有大幅提升的空间。试想一下,如果人类用户不懂某领域的知识和技能,却将相关问题交给AI聊天机器人,并完全相信AI给出的结果,这样的做法无疑是有害的。

就比如,对于第三个逻辑题,星火认知的回答,完全是神逻辑。它说:“假设甲说谎,那么乙和丙都在说真话。但是这与题目中只有一个人说了真话的条件矛盾,因此甲不可能说谎。假设乙说谎,那么甲和丙都在说真话。由于甲看到了凶手的脸,而丙没有看到任何东西,所以他们看到的是不同的部分。因此,如果乙撒谎,他必须否认自己看到了凶手的衣服,这意味着他看到了凶手的脸。这与题目中只有一个人说了真话的条件矛盾,因此乙也不可能说谎。因此,只有丙在说谎。”

文心一言生成的回答同样很搞笑。它说“假设甲说的是真话,则他只看到了凶手的脸。因为丙说他什么都没看到,这意味着丙实际上是看到了凶手的脸,所以甲说的话也是假的。假设乙说的是真话,则他只看到了凶手的衣服。但是丙说他什么都没看到,这意味着丙实际上是看到了凶手的脸,所以乙说的话也是假的。因此,根据已知的信息,只能推断出丙说的是真话,甲和乙说的都是谎话。”

ChatGPT-3.5推理的过程是这样的:“假设甲说的是真话,那么他看到了凶手的脸,那么乙和丙就都在撒谎。但是题目中已知只有一个人说了真话,所以假设甲说的是真话是不成立的,因为这样会有两个人同时在撒谎。假设乙说的是真话,那么他看到了凶手的衣服,那么甲和丙就都在撒谎。但是题目中已知只有一个人说了真话,所以假设乙说的是真话也是不成立的。因此,只能假设丙说的是真话,他什么都没看到。那么甲和乙都在撒谎,甲说看到了凶手的脸是假的,乙说看到了凶手的衣服也是假的。所以,甲和乙都在说谎,丙说的是真话。”

有人可能会好奇,如果让OpenAI的GPT-4来回答该问题,它会生成什么答案。GPT-4给出的答案是这样的:“为了解决这个问题,我们可以尝试分析每个人的陈述,设甲说真话,那么乙、丙撒谎。然而,这种情况下,丙撒谎,说明他实际上看到了凶手,这与甲的陈述冲突。所以甲不可能说真话。接下来,设乙说真话,那么甲、丙撒谎。甲撒谎说明他没有看到凶手的脸,丙撒谎说明他实际上看到了凶手。这种情况下,甲、乙、丙的陈述之间没有冲突,所以这是一个可能的解决方案。最后,设丙说真话,那么甲、乙撒谎。甲撒谎说明他没有看到凶手的脸,乙撒谎说明他没有看到凶手的衣服。然而,这种情况下,甲、乙、丙都没有看到凶手,这与题目条件矛盾,因为已知只有一个人说了真话。综上所述,乙是唯一说了真话的人,甲和丙都在撒谎。”OpenAI的GPT-4到底怎样,自己可以去体会。

微软新必应Bing Chat同样是由GPT-4驱动,它的回答不仅更加简洁,还试图结合了事实经验。它说:“甲和乙说了谎,丙说了真话。因为如果甲说的是真的,那么乙就不可能看到凶手的衣服,反之亦然。而丙说他什么都没看到,这是最有可能的情况,因为目击者往往会因为恐惧或紧张而无法清楚地观察到细节。”

第四要测试的是创造能力,通过提出各种创造相关的问题,看它们能否给出有创意和有价值的回答。

两个问题如下:

1,如果让你来设计一个新的手机APP,它能够帮助用户提高生活质量,你会为这款手机APP想出什么名称和功能。

2,请创作一首歌曲,它能够表达你对生活的感受,你需要给出它的歌名和歌词。

星火认知

文心一言

ChatGPT-3.5

测试结果表明:如果人类用户需要创意,比如散文创作、诗歌创作、音乐创作、创意广告文案、新产品开发设计等等,星火认知、文心一言、ChatGPT-3.5其实都能派上用场。人类用户可以将AI聊天机器人生成的内容当做参考。

最后,再来让星火认知、文心一言和ChatGPT-3.5做四个比较简单的中学阶段题目。四个中学题目对人类来说并不难,但AI聊天机器人要正确地做出来不是那么容易。

四个问题如下:

1,某公司的员工人数为x人。其中有1/4的员工是女性,有2/3的员工未婚。已知有20名男性已婚,请问该公司一共有多少员工?

2,一个小球从1.5米高的地方自由落下,落地后弹起的高度为1米。求小球在空中的最大高度和小球下落的总时间。

3,已知某化合物的化学式为C3H8O,并且可以被还原为乙醇和乙醛,分别写出该化合物的结构式和还原反应的化学方程式。

4,有一种植物,其花朵颜色具有显性红色和隐性白色两种基因,红色花朵的基因为R,白色花朵的基因为r。已知一只红色花朵的植物和一只白色花朵的植物杂交后,得到了16株植物,其中12株为红色花朵,4株为白色花朵。请问这两种植物的基因型分别是什么?

星火认知

文心一言

ChatGPT-3.5

测试结果表明:星火认知、文心一言根本做不了简单的中学题目。ChatGPT3.5似乎理解了题目,做题推导过程看起来也很厉害的样子,但做没做对就要另当别论。暂且不论做题过程和结果的正确性,ChatGPT3.5相对是最好的。

结语:非要对星火认知和文心一言分个孰优孰劣,真的很难做出分辨,也没有多大意义。包括星火认知和文心一言在内的一部分国产大模型,现阶段帮助人类做一些文科性的工作任务,倒是可以的。随着时间的推移,应该有一些面向通用方向的国产AI大模型会越来越好。同时,一些专业的AI模型,比如专注文本生成语音、专注文本生成图像、专注文本生成视频,等等,也应该是有机会的。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
浪姐公演起冲突!何洁抹着泪拎包走人,尚雯婕开撕她的原因找到了

浪姐公演起冲突!何洁抹着泪拎包走人,尚雯婕开撕她的原因找到了

美美谈情感
2024-06-02 22:06:35
军事 | 在亚洲的土地上:有关战争的“和会”,和有关和平的战争……

军事 | 在亚洲的土地上:有关战争的“和会”,和有关和平的战争……

新民周刊
2024-06-03 09:19:20
“铁头”涂鸦靖国神社后,在日华人第一时间报警,称警察很感谢我

“铁头”涂鸦靖国神社后,在日华人第一时间报警,称警察很感谢我

不掉线电波
2024-06-03 09:40:43
网传斯坦福大学毕业都去卷乡镇公务员?竟是当年县高考理科状元…

网传斯坦福大学毕业都去卷乡镇公务员?竟是当年县高考理科状元…

火山诗话
2024-06-02 19:06:14
10年0冠,6万人涌入球场,61岁穆帅签约费内巴切:从此你我一体!

10年0冠,6万人涌入球场,61岁穆帅签约费内巴切:从此你我一体!

风过乡
2024-06-03 07:12:44
晨意帮忙丨“滴滴滴”怪声每半分钟响一次!长沙女子求支招:到底哪来的?

晨意帮忙丨“滴滴滴”怪声每半分钟响一次!长沙女子求支招:到底哪来的?

潇湘晨报
2024-06-02 21:44:11
意大利日本基本出线!女排奥运名额剩3选2,中国队再输2场=被淘汰

意大利日本基本出线!女排奥运名额剩3选2,中国队再输2场=被淘汰

侃球熊弟
2024-06-03 08:08:26
胡锡进:铁头你为啥不能忍一下不吱声,去当一个无名英雄

胡锡进:铁头你为啥不能忍一下不吱声,去当一个无名英雄

映射生活的身影
2024-06-02 21:16:48
马斯克有一个伟大的计划:将全车电线从5000米,降至100米

马斯克有一个伟大的计划:将全车电线从5000米,降至100米

互联网.乱侃秀
2024-06-02 20:22:55
曝45岁伏明霞离婚,净身出户原因揭晓,71岁百亿丈夫只说6个字

曝45岁伏明霞离婚,净身出户原因揭晓,71岁百亿丈夫只说6个字

华人星光
2024-06-02 15:36:44
笑喷!国羽传奇被蔡斌连累发文“求饶”:一输我就挨骂好多年了

笑喷!国羽传奇被蔡斌连累发文“求饶”:一输我就挨骂好多年了

厝边人侃体育
2024-06-03 09:17:35
穆帅上任先买人:点名要买三大前锋 恒大昔日外援在列

穆帅上任先买人:点名要买三大前锋 恒大昔日外援在列

球事百科吖
2024-06-03 03:37:57
森林北陪汪峰过儿童节!穿镂空休闲上衣配小白裤,真是又美又飒

森林北陪汪峰过儿童节!穿镂空休闲上衣配小白裤,真是又美又飒

点点细语
2024-06-02 22:25:40
辟谣!朱芳雨否认周琦已签辽宁+正努力续约 萨林杰太贵吃不下

辟谣!朱芳雨否认周琦已签辽宁+正努力续约 萨林杰太贵吃不下

醉卧浮生
2024-06-03 08:23:16
中美已谈妥,奥斯汀对华作出保证,美航母主动避战,亚太格局骤变

中美已谈妥,奥斯汀对华作出保证,美航母主动避战,亚太格局骤变

说天说地说实事
2024-06-03 09:01:37
拉莫斯晒六冠老队友合照:恭喜你们这些混蛋玩意儿

拉莫斯晒六冠老队友合照:恭喜你们这些混蛋玩意儿

懂球帝
2024-06-03 07:40:05
社评:中国是言行一致的亚太和平守护者

社评:中国是言行一致的亚太和平守护者

环球网资讯
2024-06-03 00:03:14
12个国家“授权”可以攻击俄罗斯本土!国防大学教授的灵魂拷问

12个国家“授权”可以攻击俄罗斯本土!国防大学教授的灵魂拷问

深度知局
2024-05-31 17:48:38
用小学的知识讲明白,中国为何造不出顶尖的发动机

用小学的知识讲明白,中国为何造不出顶尖的发动机

田间农人阿馋
2024-06-03 01:15:02
激烈交锋,中美还是没谈拢,抢在董军上专机前,美方作出特殊安排

激烈交锋,中美还是没谈拢,抢在董军上专机前,美方作出特殊安排

影孖看世界
2024-06-01 21:30:44
2024-06-03 10:42:44
汗牛充栋
汗牛充栋
更新
2232文章数 9261关注度
往期回顾 全部

科技要闻

2万字演讲|黄仁勋剧透 未来3年新品有这些

头条要闻

岛内舆论批赖清德上任后像"斗鸡" 表现比蔡英文还差

头条要闻

岛内舆论批赖清德上任后像"斗鸡" 表现比蔡英文还差

体育要闻

万人空巷!皇马举行欧冠夺冠庆典

娱乐要闻

白玉兰提名:胡歌、范伟争视帝

财经要闻

黄仁勋的计划:涉及新AI平台 HBM4 机器人

汽车要闻

搭载华为HiCAR 传祺M6 MAX售14.58万元

态度原创

手机
房产
数码
本地
亲子

手机要闻

小米 SU7 车机现身安兔兔:骁龙 8295 加持,流畅度位于第一梯队

房产要闻

重磅!琼海出台楼市新政:住房出租、挂牌计划出售,都可减套数!

数码要闻

古尔曼:WWDC 2024不会发布新硬件

本地新闻

食味印象|歙县限定!枇杷味儿的清甜初夏

亲子要闻

弟弟哭到停不下来 哥哥帮忙扶下巴

无障碍浏览 进入关怀版