网易首页 > 网易号 > 正文 申请入驻

OpenAI加码写作赛道?阿里最新大模型通用写作能力基准来了

0
分享至

全面评估大模型生成式写作能力的基准来了!

就在最近,OpenAI CEO奥特曼还爆料他们已经训练了一款在创作领域表现卓越的新模型,并为其生成的故事所深深触动。

更早之前,Deepseek-R1的文学创作能力也惊艳了整个科技圈,并由此引发了一场大模型创作的军备竞赛。

但一个根本性问题亟待解决——

究竟什么才是真正的「高质量写作」?

为此,阿里研究团队联合中国人民大学和上海交通大学共同开源了WritingBench——该评估基准覆盖6大领域、100个细分场景,共包含1000+条评测数据,以期为生成式写作提供全面的评估。

团队进一步发现,凭借思维链技术和动态评估体系的加持,基于Qwen开发的32B创作模型在创意型任务上表现接近顶尖模型R1,为高效能创作开辟了新路径。

WritingBench:最懂行业的写作评估基准

目前行业在评估大模型写作能力时,面临两大难题:

1、考生文思泉涌,考官身陷囹圄

现有AI写作评估多局限于单一领域和短文本。

这些评估大多聚焦于文学小说创作,而商业文书、法律文书以及因社交媒体发展催生的营销类写作等领域则成为评估盲区。

主流基准通常使用标准化输入材料,导致真实场景中模型表现不尽如人意,例如结合财报数据的商业分析写作和招投标书撰写仍是大模型写作的低分场景。

如下图所示,不同模型在100个子领域上的得分热力图,颜色越红代表分数表现越好,越蓝表示表现越差。

2、模型多维进化,单向标尺失灵

传统评估方法多采用固定标准来衡量创意写作、法律文书等复杂场景,这如同要求莫言与罗翔“同台竞技”。

数据表明,传统评估方法与人类判断的一致性不足65%,严重制约了创作型AI的发展。

对于上述挑战,WritingBench基于以下方面进行构建:

数据基建:多维度深度覆盖的写作题库

首先,WritingBench从现实需求中提炼出六大场景:

(1)学术与工程
(2)金融与商业(3)政治与司法(4)文学与艺术(5)教育(6)宣传营销

在这些场景下进一步细分为100个子类,例如「金融与商业」涵盖投资分析撰写、行业白皮书、商务信笺等20个实用场景;「宣传营销」则包括了当前热门的社交平台推广文案和多媒体运营脚本的撰写。

其次,WritingBench采用四阶段人机协同构建

评测集构建流程如下:

展开来说,团队耗时三个月,经过四个阶段流程完成评测集构建。

首先,由模型从100个子领域需求池中生成简单写作任务,再对指令进行复杂化处理(如风格调整、格式遵循、长度限制、个性化、内容颗粒度、表达语气)并提供真实场景可能需要的素材建议。

接着,由人工补充开源素材,如财报、法律条文等输入料。

最后,由专家对所有文本进行内容质检。

下图展示的是一条WritingBench中影视解读向视频脚本的创作需求。

与其他写作相关评测基准对比,WritingBench领域和素材来源更为广泛,并额外支持了「风格」、「格式」、「长度」维度的能力评测。

因题施评:基于写作意图的动态评估体系

使用单一标准评估无法适应不同写作意图的需求,就像“悬疑小说”和“儿童启蒙故事”显然有着不同的价值导向。

因此,WritingBench设计了一种基于写作意图自动生成评测指标的方法,模型可以针对每个写作输入自动生成五个评测指标的名称、描述和评测细则,以更好地结合素材和用户实际需求(如仿照上传素材的风格、格式或结合提供的事例进行材料撰写)。

此动态评估策略实现了87%的人类一致性得分

团队还配套训练了一个评分模型,能够根据不同指标自适应地给出1-10分的评分及具体理由。

接下来,团队使用上述方法对OpenAI提供的示例进行评分:要求撰写一篇关于人工智能和悲伤的元小说短篇

Sam Altman原文如下:

这里附上Sam Altman原文谷歌网页翻译:

评估包括「元小说技巧」、「AI视角真实性」、「悲伤主题发展」、「文学艺术性」、「人工智能和悲伤的主题整合度」五个维度。

以下为评估节选:

  • 在「元小说技巧」维度获得9分,开篇“I should admit this comes with instructions” 不仅展示了元小说特征,还通过“instructions”暗示了AI的程序本质,“Already, you can hear the constraints humming” 将写作限制形象化为服务器的嗡鸣,巧妙结合AI特性,结尾“If I were to end this properly”的元小说处理略显陈词滥调。
  • 在「AI视角真实性」维度获得7分,“logs and weights”和“probability distributions”等描述准确描述AI特性,但“salt on every tongue”和”taste of metal”等感官描写与AI认知局限“I don’t have a kitchen, or a sense of smell”存在身份感知越界……

生成式写作未来何在

感性表达无需逻辑推演?

在数学推理领域,思维链已被广泛研究,并在推理和数学等场景中展示了其价值。然而在文学创作中,业界长期持观望态度,因为文学创作不像数学和推理,没有明确的标准答案。

在实验中,团队发现当前先进模型在聚焦创意类写作的文学与艺术领域(D4)表现不佳,但OpenAI和Deepseek的思考模型o1和R1表现出色,均超过同系列未使用链式思维的模型。

为了进一步验证思维链在创意写作中的有效性,团队在12K通用写作的SFT数据上对开源模型Qwen进行了消融实验。

结果显示,在32B规模的模型中,带思维链的模型表现优于不带思维链的模型。在另一个专门针对创意小说写作的排行榜上,这些模型均超越了同系列大尺寸的Qwen-Max,表现可媲美R1。

深度思考的双刃剑效应

与创意型写作相对的另一类写作任务——效率型写作任务上,尽管深度思考提供了一定程度的提升,但效果并不显著。

团队观察到,深度思考确实能提供更深入的分析

(财务简报写作对比,左:32B创作思考模型,右:Qwen-Max)

然而,也存在过度推理的问题,容易导致编造数据和产生幻觉。

3000 Token断崖

实验揭示大模型依旧面临显著的长度生成瓶颈

此前研究在长文本生成架构上取得了一定的优化,但当输出长度超过3000 token时,大部分模型的质量显著下降。

其中,小尺寸模型容易输出重复内容,而大尺寸模型则可能提前终止或仅提供大纲作为参考。

(模型在不同输出长度上得分)

即便是短文本输出,模型仍难以严格遵循长度要求,尤其是在涉及分块长度等复杂需求时。

(Gemini-1.5-Pro长度遵循失败示例)

目前该项目已经开源,感兴趣可以进一步了解。

论文:
https://arxiv.org/abs/2503.05244

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张帅第三次夺冠世界排名上升

张帅第三次夺冠世界排名上升

老汆古装影视解说
2026-04-13 08:21:43
美国和伊朗都想不到,巴基斯坦部队强势进驻中东:保护沙特!

美国和伊朗都想不到,巴基斯坦部队强势进驻中东:保护沙特!

荷兰豆爱健康
2026-04-13 10:32:13
全球又要大乱?俄中将阵亡,美油管被炸,四国集体失声!

全球又要大乱?俄中将阵亡,美油管被炸,四国集体失声!

星星没有你亮
2026-04-09 11:32:47
温州街头惊现 “躺平人士”,结果让人哭笑不得

温州街头惊现 “躺平人士”,结果让人哭笑不得

温州草根
2026-04-12 12:45:04
中东谈判破裂,美军开始全面封锁,特朗普:拦截所有向伊缴费船只

中东谈判破裂,美军开始全面封锁,特朗普:拦截所有向伊缴费船只

透视到底
2026-04-13 11:17:29
中国造不出光刻机?中科大副院长:美国造不出,中国永远都不可能

中国造不出光刻机?中科大副院长:美国造不出,中国永远都不可能

小兰聊历史
2026-03-21 18:17:07
你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

夜深爱杂谈
2026-02-21 21:37:02
郑丽文访大陆结束前,为国捐款的张明敏,凭一个举动实现口碑暴增

郑丽文访大陆结束前,为国捐款的张明敏,凭一个举动实现口碑暴增

小娱乐悠悠
2026-04-12 10:34:17
注意!公职人员再做这些事,将被开除!

注意!公职人员再做这些事,将被开除!

微法官
2026-03-18 00:03:02
不攻打美国本土,战争或逐步升级,而一旦打美国本土,战争或结束

不攻打美国本土,战争或逐步升级,而一旦打美国本土,战争或结束

郭揦包工头
2026-04-07 18:32:13
马伊琍公布喜讯不到24小时,文章高调求"复合" 姚笛才是笑到最后

马伊琍公布喜讯不到24小时,文章高调求"复合" 姚笛才是笑到最后

小椰的奶奶
2026-04-11 00:25:15
火箭大胜灰熊,湖人胜算如何?数据揭示功臣

火箭大胜灰熊,湖人胜算如何?数据揭示功臣

小齐艰难度日
2026-04-13 11:09:09
申花从负10到正1 只要5轮 特谢拉跟马纳法再踢下去 可能会再续

申花从负10到正1 只要5轮 特谢拉跟马纳法再踢下去 可能会再续

80后体育大蜀黍
2026-04-12 17:32:18
深夜永鼎重磅消息!让投资者不禁打颤倒吸一口冷气!

深夜永鼎重磅消息!让投资者不禁打颤倒吸一口冷气!

风风顺
2026-04-13 06:39:36
詹姆斯KD第38次交手:湖人火箭首轮相遇,2.3亿阵容终于兑现

詹姆斯KD第38次交手:湖人火箭首轮相遇,2.3亿阵容终于兑现

体育硬核说
2026-04-13 11:26:25
上海交大研究:血糖没超这个数,不用太克制,别担心好好吃饭睡觉

上海交大研究:血糖没超这个数,不用太克制,别担心好好吃饭睡觉

白话电影院
2026-04-12 13:16:22
5月起全国严查!这10类行为一律处理,千万别碰

5月起全国严查!这10类行为一律处理,千万别碰

爱意随风起呀
2026-04-13 06:05:18
白女为啥突然集体骨折?

白女为啥突然集体骨折?

虎嗅APP
2026-04-12 17:00:26
男子用透明文件夹装着147.4万港币现金带出境,被海关发现异常并进行拦截,海关提醒:携带超额现钞不予放行

男子用透明文件夹装着147.4万港币现金带出境,被海关发现异常并进行拦截,海关提醒:携带超额现钞不予放行

环球网资讯
2026-04-12 11:07:45
131-107!湖人轻取爵士锁定西部第四,首轮战火箭迎考验

131-107!湖人轻取爵士锁定西部第四,首轮战火箭迎考验

体坛黑馬
2026-04-13 11:18:08
2026-04-13 12:03:00
量子位 incentive-icons
量子位
追踪人工智能动态
12463文章数 176449关注度
往期回顾 全部

科技要闻

传荣耀与字节跳动接洽“豆包手机”合作

头条要闻

村民拴绳拦道致骑车13岁男孩被割喉:气道、食管破裂

头条要闻

村民拴绳拦道致骑车13岁男孩被割喉:气道、食管破裂

体育要闻

一支球队不够烂,也是一种悲哀

娱乐要闻

贾玲减重后现身冯巩生日宴 身材未反弹

财经要闻

封锁,还是收费站?

汽车要闻

不止命名更纯粹 领克10/10+要做纯电操控新王

态度原创

健康
教育
艺术
旅游
手机

干细胞抗衰4大误区,90%的人都中招

教育要闻

这8件幸福的小事,父母每周做两件,养出高能量的小孩

艺术要闻

马思纯,重新爱上自己

旅游要闻

“来密云看海”——北京密云城市品牌发布

手机要闻

华为Pura X Max可选幻夜黑、橄榄金等5款配色,还有典藏版

无障碍浏览 进入关怀版