网易首页 > 网易号 > 正文 申请入驻

OpenAI加码写作赛道?阿里最新大模型通用写作能力基准来了

0
分享至

全面评估大模型生成式写作能力的基准来了!

就在最近,OpenAI CEO奥特曼还爆料他们已经训练了一款在创作领域表现卓越的新模型,并为其生成的故事所深深触动。

更早之前,Deepseek-R1的文学创作能力也惊艳了整个科技圈,并由此引发了一场大模型创作的军备竞赛。

但一个根本性问题亟待解决——

究竟什么才是真正的「高质量写作」?

为此,阿里研究团队联合中国人民大学和上海交通大学共同开源了WritingBench——该评估基准覆盖6大领域、100个细分场景,共包含1000+条评测数据,以期为生成式写作提供全面的评估。

团队进一步发现,凭借思维链技术和动态评估体系的加持,基于Qwen开发的32B创作模型在创意型任务上表现接近顶尖模型R1,为高效能创作开辟了新路径。

WritingBench:最懂行业的写作评估基准

目前行业在评估大模型写作能力时,面临两大难题:

1、考生文思泉涌,考官身陷囹圄

现有AI写作评估多局限于单一领域和短文本。

这些评估大多聚焦于文学小说创作,而商业文书、法律文书以及因社交媒体发展催生的营销类写作等领域则成为评估盲区。

主流基准通常使用标准化输入材料,导致真实场景中模型表现不尽如人意,例如结合财报数据的商业分析写作和招投标书撰写仍是大模型写作的低分场景。

如下图所示,不同模型在100个子领域上的得分热力图,颜色越红代表分数表现越好,越蓝表示表现越差。

2、模型多维进化,单向标尺失灵

传统评估方法多采用固定标准来衡量创意写作、法律文书等复杂场景,这如同要求莫言与罗翔“同台竞技”。

数据表明,传统评估方法与人类判断的一致性不足65%,严重制约了创作型AI的发展。

对于上述挑战,WritingBench基于以下方面进行构建:

数据基建:多维度深度覆盖的写作题库

首先,WritingBench从现实需求中提炼出六大场景:

(1)学术与工程
(2)金融与商业(3)政治与司法(4)文学与艺术(5)教育(6)宣传营销

在这些场景下进一步细分为100个子类,例如「金融与商业」涵盖投资分析撰写、行业白皮书、商务信笺等20个实用场景;「宣传营销」则包括了当前热门的社交平台推广文案和多媒体运营脚本的撰写。

其次,WritingBench采用四阶段人机协同构建

评测集构建流程如下:

展开来说,团队耗时三个月,经过四个阶段流程完成评测集构建。

首先,由模型从100个子领域需求池中生成简单写作任务,再对指令进行复杂化处理(如风格调整、格式遵循、长度限制、个性化、内容颗粒度、表达语气)并提供真实场景可能需要的素材建议。

接着,由人工补充开源素材,如财报、法律条文等输入料。

最后,由专家对所有文本进行内容质检。

下图展示的是一条WritingBench中影视解读向视频脚本的创作需求。

与其他写作相关评测基准对比,WritingBench领域和素材来源更为广泛,并额外支持了「风格」、「格式」、「长度」维度的能力评测。

因题施评:基于写作意图的动态评估体系

使用单一标准评估无法适应不同写作意图的需求,就像“悬疑小说”和“儿童启蒙故事”显然有着不同的价值导向。

因此,WritingBench设计了一种基于写作意图自动生成评测指标的方法,模型可以针对每个写作输入自动生成五个评测指标的名称、描述和评测细则,以更好地结合素材和用户实际需求(如仿照上传素材的风格、格式或结合提供的事例进行材料撰写)。

此动态评估策略实现了87%的人类一致性得分

团队还配套训练了一个评分模型,能够根据不同指标自适应地给出1-10分的评分及具体理由。

接下来,团队使用上述方法对OpenAI提供的示例进行评分:要求撰写一篇关于人工智能和悲伤的元小说短篇

Sam Altman原文如下:

这里附上Sam Altman原文谷歌网页翻译:

评估包括「元小说技巧」、「AI视角真实性」、「悲伤主题发展」、「文学艺术性」、「人工智能和悲伤的主题整合度」五个维度。

以下为评估节选:

  • 在「元小说技巧」维度获得9分,开篇“I should admit this comes with instructions” 不仅展示了元小说特征,还通过“instructions”暗示了AI的程序本质,“Already, you can hear the constraints humming” 将写作限制形象化为服务器的嗡鸣,巧妙结合AI特性,结尾“If I were to end this properly”的元小说处理略显陈词滥调。
  • 在「AI视角真实性」维度获得7分,“logs and weights”和“probability distributions”等描述准确描述AI特性,但“salt on every tongue”和”taste of metal”等感官描写与AI认知局限“I don’t have a kitchen, or a sense of smell”存在身份感知越界……

生成式写作未来何在

感性表达无需逻辑推演?

在数学推理领域,思维链已被广泛研究,并在推理和数学等场景中展示了其价值。然而在文学创作中,业界长期持观望态度,因为文学创作不像数学和推理,没有明确的标准答案。

在实验中,团队发现当前先进模型在聚焦创意类写作的文学与艺术领域(D4)表现不佳,但OpenAI和Deepseek的思考模型o1和R1表现出色,均超过同系列未使用链式思维的模型。

为了进一步验证思维链在创意写作中的有效性,团队在12K通用写作的SFT数据上对开源模型Qwen进行了消融实验。

结果显示,在32B规模的模型中,带思维链的模型表现优于不带思维链的模型。在另一个专门针对创意小说写作的排行榜上,这些模型均超越了同系列大尺寸的Qwen-Max,表现可媲美R1。

深度思考的双刃剑效应

与创意型写作相对的另一类写作任务——效率型写作任务上,尽管深度思考提供了一定程度的提升,但效果并不显著。

团队观察到,深度思考确实能提供更深入的分析

(财务简报写作对比,左:32B创作思考模型,右:Qwen-Max)

然而,也存在过度推理的问题,容易导致编造数据和产生幻觉。

3000 Token断崖

实验揭示大模型依旧面临显著的长度生成瓶颈

此前研究在长文本生成架构上取得了一定的优化,但当输出长度超过3000 token时,大部分模型的质量显著下降。

其中,小尺寸模型容易输出重复内容,而大尺寸模型则可能提前终止或仅提供大纲作为参考。

(模型在不同输出长度上得分)

即便是短文本输出,模型仍难以严格遵循长度要求,尤其是在涉及分块长度等复杂需求时。

(Gemini-1.5-Pro长度遵循失败示例)

目前该项目已经开源,感兴趣可以进一步了解。

论文:
https://arxiv.org/abs/2503.05244

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
同样40场比赛雷霆取得33胜7负!73胜勇士和72胜公牛,战绩如何呢

同样40场比赛雷霆取得33胜7负!73胜勇士和72胜公牛,战绩如何呢

兵哥篮球故事
2026-01-13 12:44:40
1962年北京饭店,没人敢理那个落难副省长,许世友提着茅台就上,17年后这笔账终于算清了

1962年北京饭店,没人敢理那个落难副省长,许世友提着茅台就上,17年后这笔账终于算清了

源溯历史
2026-01-13 23:49:16
麦当劳回应“汉堡包越做越小”

麦当劳回应“汉堡包越做越小”

第一财经资讯
2026-01-13 22:06:40
官媒发声了!闫学晶儿子入学涉及教育公平,呼吁第三方介入调查

官媒发声了!闫学晶儿子入学涉及教育公平,呼吁第三方介入调查

萌神木木
2026-01-13 22:19:25
特朗普紧急发文,直言美国可能“会完蛋”,中国已是他的最大救星

特朗普紧急发文,直言美国可能“会完蛋”,中国已是他的最大救星

墨兰史书
2026-01-13 20:15:03
官方:北京国安与36岁老将王刚、池忠国续约

官方:北京国安与36岁老将王刚、池忠国续约

懂球帝
2026-01-14 09:45:07
狂掀涨停潮!2026年,跟着马斯克炒股的人赚翻了

狂掀涨停潮!2026年,跟着马斯克炒股的人赚翻了

功夫财经
2026-01-13 08:41:18
一字跌停,2.5万股民“踩雷”!知名酒企被强制退市,股价蒸发8成

一字跌停,2.5万股民“踩雷”!知名酒企被强制退市,股价蒸发8成

红星新闻
2026-01-13 16:51:07
吴敬中死前对余则成说:"在天津找穿蓝旗袍的女人,她知道你身份"

吴敬中死前对余则成说:"在天津找穿蓝旗袍的女人,她知道你身份"

饭小妹说历史
2025-12-16 16:38:39
为什么要保护老虎?如果老虎灭绝,将会对人类产生什么影响?

为什么要保护老虎?如果老虎灭绝,将会对人类产生什么影响?

半解智士
2025-12-28 22:42:12
川普对伊强硬另有企图?

川普对伊强硬另有企图?

今日段评
2026-01-14 10:10:52
特斯拉授予高级副总裁朱晓彤超52万股股票期权:行权价435.8美元,完全归属要等五年后

特斯拉授予高级副总裁朱晓彤超52万股股票期权:行权价435.8美元,完全归属要等五年后

新浪财经
2026-01-13 21:28:27
奔驰S级将迎“史上幅度最大改款”,新车1月29日发布

奔驰S级将迎“史上幅度最大改款”,新车1月29日发布

IT之家
2026-01-14 07:29:22
丈母娘逼我还大舅哥110万外债,拒绝后离婚,3 年后再见他们愣住

丈母娘逼我还大舅哥110万外债,拒绝后离婚,3 年后再见他们愣住

磊子讲史
2025-12-26 15:15:04
若U23亚洲杯中国队顺利出线,邵佳一会尴尬,安东尼奥才适合国足

若U23亚洲杯中国队顺利出线,邵佳一会尴尬,安东尼奥才适合国足

姜大叔侃球
2026-01-13 17:50:42
不算分!U23国足VS泰国,开球时间确定,李昊和拜合拉木影响出线

不算分!U23国足VS泰国,开球时间确定,李昊和拜合拉木影响出线

体育大学僧
2026-01-13 10:08:59
杉杉集团上海总部降价再拍 二次起拍价18.1亿元

杉杉集团上海总部降价再拍 二次起拍价18.1亿元

观点机构
2026-01-14 03:00:15
开拓者12点VS勇士,杨瀚森PK库里,阿夫迪亚伤缺,斯普利特或变阵

开拓者12点VS勇士,杨瀚森PK库里,阿夫迪亚伤缺,斯普利特或变阵

二哥聊球
2026-01-14 10:26:53
前一天促销,后一天闭店!记者调查“洗脸熊”门店跑路背后:明星代言难掩预付卡监管“黑洞”

前一天促销,后一天闭店!记者调查“洗脸熊”门店跑路背后:明星代言难掩预付卡监管“黑洞”

华夏时报
2026-01-13 19:50:05
Win11最强精简版发布:内存占用砍半,帧率暴涨30%

Win11最强精简版发布:内存占用砍半,帧率暴涨30%

小8说科技
2026-01-12 14:43:48
2026-01-14 11:07:00
量子位 incentive-icons
量子位
追踪人工智能动态
12011文章数 176358关注度
往期回顾 全部

科技要闻

美国批准英伟达H200卖给中国,但有条件

头条要闻

李在明谈中日韩三国合作重要性 高市早苗一句不提中国

头条要闻

李在明谈中日韩三国合作重要性 高市早苗一句不提中国

体育要闻

牛津学霸买下儿时主队,让它成为英超黑马

娱乐要闻

何晴去世30天,许亚军终于发声

财经要闻

"死了么"App爆火:流量来了 困境未解

汽车要闻

限时9.99万元起 2026款启辰大V DD-i虎鲸上市

态度原创

房产
游戏
本地
公开课
军事航空

房产要闻

又一新校开建!海口这一片区,迎来教育重磅升级!

《幻兽帕鲁》制作人回怼黑粉:爱玩玩不玩滚!

本地新闻

云游内蒙|到巴彦淖尔去,赴一场塞上江南的邀约

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美再发安全警告 敦促美公民立即离开伊朗

无障碍浏览 进入关怀版