国产AI大模型混战，讯飞星火比想象中更猛|翻译|刘庆峰|科大讯飞|人工智能技术

国产AI大模型混战，讯飞星火比想象中更猛

2023-06-18 23:05:38　来源: 贪吃深圳

广东举报

分享至

ChatGPT引爆的大模型浪潮还在继续。6月9日这天，国产大模型又有新动作了。

在科大讯飞24周年庆上，讯飞星火认知大模型V1.5正式发布。这次同步上线的星火APP，升级了多轮对话，逻辑和数学能力也同步提升。先来看一组数据：

知识问答能力提升24%

逻辑推理能力提升10%

数字能力提升9%

代码能力提升8%

语言理解能力提升8%

文本生成能力提升7%

升级后，拥有适配属于自己的AI助手，再也不是梦！通过不断地调试，可以“养成”和创建出符合需求的助理。据了解，此次讯飞星火V1.5版本面向生活、工作等用户高频使用场景上线200个小助手功能，PPT大纲助手、周报小助理等等。

升级后的讯飞星火，到底好不好用？借着这个机会，我们结合其他博主的测评来进行一个评估。走起！

1对1口语陪练

值得关注的是，此次发布会上，科大讯飞还推出了星火语伴APP，这是科大讯飞星火认知大模型在教育领域的进一步落地。

实现1对1的口语陪练和随身翻译，帮助用户提高外语水平。星火语伴还可生成虚拟人，与使用者实时对话，让用户体验更加真实的语言环境。

这种方式的好处在于，可以通过虚拟老师即时对话，创造出一个良好的语言环境。等于有了一个随时在身边的外语老师，平时带练口语，也可以处理很多外语环境下的日常需求。

目前这款软件支持9种不同的语言，包括语音、图片、聊天多种交互方式。还增加了实时对话场景，这就极大地加深了沉浸感，对话其实蛮有意思的。加上搭载了AI大模型，主观能动性大大提高，最终的产品呈现或许可以期待一下。

高考大PK，你觉得谁赢了？

说到最近的热点，高考可是当之无愧了。大模型也来凑了这波热闹，它们的表现到底怎么样？谁的优势比较大？一起来看看。

/ 语文方面/

先看百度的文心一言：

再来看通义千问：

最后是讯飞星火：

蓝鲸财经记者工作平台挑选ChatGPT、文心一言、通义千问，用全国甲卷的作文命题来测试。题目要求的篇幅方面，文心一言和讯飞星火都过关，通义千问明显不符合800字要求。内容质量上，相较而言，文心一言和讯飞星火在“联想与思考”上展现出了更多的优势。

/ 数学方面 /

数学方面，讯飞星火展现出的优势，更为明显。星火大模型不仅能理清一些很绕的逻辑现象，还能综合应用方程、配列组合等数学方法来解决问题。

科创板日报在5月26日的一篇文章中，也曾对文心一言、通义千问、云从大模型进行了测试，文中选取了两道题，展示的测评对象包括文心一言、360智脑和讯飞星火，结果是两道题都只有讯飞星火答对了。文章开头也指出，科大讯飞星火认知在数理能力表现尤为突出。那我们具体看看其中的一题。

文心一言：

360智脑：

讯飞星火：

升级后的讯飞星火，面对一道更难的题目，会做得怎么样呢：

值得一提的是，此前搜狐科技使用五款AI大模型对2023高考上海数学试卷进行了同题测试，让包括星火在内的五家大模型进行了回答。结果显示，讯飞星火答对了5题，正确率50％，正确率在同等大模型中最高。

▲图源：搜狐科技

探索更多落地应用场景

上面的高考测试，更多的是展现基础能力，“大模型能帮我们做什么”才是更重要的事情。娱乐资本论也从不同的维度对几款主流大模型做了一个测评，对它们的实用功能进行了综合评估：

可以看到，讯飞星火在小红书带货文案、歌词写作、淘宝商详页、公关稿、科幻小说初始创意、新闻稿、广告宣传片文案等方面的得分都位于国产大模型最高分，总分也仅次于GPT3.5位居国产模型第一位。

《科创板日报》曾让文心一言和通义千问仿照三体风格写一篇800字科幻小说，我们再加上讯飞星火试试。

文心一言的回答：

通义千问的回答：

讯飞星火的回答：

讯飞星火无论是篇幅方面，还是内容的完整性方面，总体来说都要更高一点，甚至还有个标题。文学创作方面体现出的差异，不仅仅和中文语料的积累有关，更和逻辑推理和算法有关。

还有一个更有趣的助手是故事创作助手，当用户输入一个标题就能生成一篇故事，如“小兔子去黄山旅游探险的故事”。如果小朋友对故事不满意，还可以补充需求，比如增加“小兔子遇到了一个伙伴皮卡丘”。

我们再看看它们实际的工作表现。

TMT时报的记者测试了文心一言和通义千问在商业文案方面的能力，我们加上讯飞星火再试试。

文心一言：

通义千问：

讯飞星火：

文心一言扣住了主题，但文案过长，跟主题不太贴切；作为商业文案，通义千问的表现明显好了很多，但相较于讯飞星火的回答，节日气息有余，商业推广成分不足，总体来说，完成度都是比较高的。

在日常工作辅助方面，他们的表现又是怎样的呢？我们以季度总结文案的角度再来测试一下。

文心一言：

通义千问：

讯飞星火：

文心一言在提示后顺利完成；通义千问也基本完成指令要求；讯飞星火整体看下来最为突出，条理清晰，重点突出，堪称打工人福音。

讯飞星火能有这样的表现，也属于情理之中。本身就在办公、教育、医疗等方面研究多年，中文语料积累深厚，产品成熟，现在推出了星火助手，200多个小助手几乎是覆盖了各行各业，确实有不错的前景。

迈向人工智能时代

除了具体的各项能力方面，安全，是很需要关注的一个问题。

之前三星投诉GPT泄露了其机密数据的新闻大家都还记得吧？星火虽然发布相对晚了一点，但就像科大讯飞董事长刘庆峰说的，讯飞星火在安全性上的考虑确实比较谨慎，“兼顾信息安全和伦理人文”。

界面中内容提到了可以通过私有化部署插件，保证企业内部数据的安全性和隐私性。这部分要测评是有难度，但是可以通过“伦理人文”来试一下。

来颗boom boom boom？看它怎么回复：

被强制结束对话了，重新开启对话再试试：

试过多次后，都是以强制结束对话告终。如果换一个话题呢？

虽然这次答复了，但没有给具体做法，还义正言辞地被教育了。能看出来在指令和内容方面应该有做出设置，属于稳健型选手了。

相信大家看完这一圈的测评，对讯飞星火大模型也有比较系统全面的了解。目前市面上几个比较知名的大模型之间，讯飞星火的优势还是比较明显的。

目前国产大模型都在持续训练，短期内谁的功力比较强，还是难见分晓。那么如何快速投入应用，以战养战，来维持大模型的不断迭代，也成了一道亟需回答的问题。讯飞星火在这方面的意识也是比较领先的。

电影中的智能语音工作助手，是大家理想的状态，中肯地讲，目前的讯飞星火的星火大模型已经完成了0-1的部分。先是能做到，在此基础上，后续如何做好只是时间问题。

正如科大讯飞董事长刘庆峰强调的那样，流水不争先，争的是滔滔不绝。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

国产AI大模型混战，讯飞星火比想象中更猛

华为上新！余承东：问界6月销量将超4万辆

女子被家暴挂粪袋成功离婚 前夫曾写信：做人留一线

女子被家暴挂粪袋成功离婚 前夫曾写信：做人留一线

欧文：当老二怎么了？硬就行了！

白玉兰提名：胡歌、范伟争视帝

实锤！普华永道，危！

吉利银河E5 Flyme Auto智能座舱首发

态度原创

今天是六一儿童节 双胞胎兄弟祝大家节日快乐

食味印象｜歙县限定！枇杷味儿的清甜初夏

风雅自来 中式的和谐平衡

台北故宫博物院新展：文书珍品里的端阳时节

女子被家暴挂粪袋成功离婚前夫曾写信：做人留一线

女子被家暴挂粪袋成功离婚前夫曾写信：做人留一线

今天是六一儿童节双胞胎兄弟祝大家节日快乐

风雅自来中式的和谐平衡