网易首页 > 网易号 > 正文 申请入驻

明略科技吴明辉:通用Benchmark就像学科考试,每个领域要有自己的评估体系

0
分享至

9月16日,2025腾讯全球数字生态大会盛大启幕。本届大会以“智·向远大”为主题,聚焦全球科技、产业发展新趋势,探讨如何以自主创新技术,助力千行百业深挖智能化、国际化新机遇,以高效数字化推动产业升级与可持续发展。

作为企业级大模型与智能体赛道的领先者,明略科技创始人、CEO兼CTO吴明辉受邀出席“互联网AI应用”专场,发表《多模态大模型在营销场景的落地实践》主题演讲,分享明略科技AI前沿成果与落地实践。

以下为演讲全文:

图片来源:明略科技

明略科技创始人、CEO兼CTO 吴明辉

各位现场的朋友们,大家好!

想必大家对明略并不陌生,过去我们在大数据领域深耕多年,与腾讯等企业也有着紧密的合作。近几年,我们开始聚焦企业级大模型与智能体,而我本人硕博阶段的研究方向也是 AI 领域,所以今天很高兴能和大家分享我们明略在 AI 赛道上的探索。

在分享具体工作前,我想先和大家探讨一个关键话题 ——benchmark。我认为,未来无论是 AI 企业,还是各个细分行业的企业,都必须重视 benchmark,但我们关注的不应是通用基准测试,真正有价值的是针对具体细分场景的 benchmark。如果一家企业连自己独有的 benchmark 都没有,坦白说,不仅未来可能在科技行业中被淘汰,甚至都无法称之为一家真正的科技公司。

我读硕士时主攻计算机视觉(CV),研究方向包括指纹掌纹识别、文档识别。前阵子我偶然发现,我家小朋友在中学 AI 课程上做的项目,竟然已经能完成我当年硕士阶段的研究工作。这也让我意识到,如今从事 IT 和技术领域的我们,面临着巨大的压力。普通代码的价值正在大幅降低,无论是基础类代码,还是我们之前讨论的各类业务代码,AI 都能高效完成。那么,我们真正的核心竞争力在哪里?我认为,最重要的是要有属于自己的独特技术体系和差异化优势。

2024年,我带领团队在澳大利亚墨尔本参加全球顶会ACMMM,当时大会首场主题演讲的嘉宾是香港科技大学的一位教授,他在总结智能体未来发展趋势时提到,无论是智能体还是 AI 模型,处理的任务都可以分为两类:客观感知(objective perception)和主观感知(subjective perception)。

什么是 “主观”,什么是 “客观”?这背后涉及一个哲学问题。从 benchmark 的角度出发,我们可以结合实际业务场景来分析。我们明略为企业客户做广告舆情分析,而舆情分析的核心环节之一就是情感分析 —— 判断一篇文章、一个视频中传递的情感是正面还是负面。过去,很多全球人工智能峰会都会举办情感分析竞赛。表面上看,情感分析是典型的 “主观任务”,但后来我们发现,大部分情感分析竞赛的 benchmark 设计,存在明显问题:虽然是主观任务,却采用了客观的评估方式。这类 benchmark 通常是让标注人员判断每个内容的情感倾向(正面 / 负面),之后让 AI 模型的分析结果与人工标注结果进行比对,最终得出一个评测指标,并将其称之为 “主观分数”。

然而,从哲学层面讲,“主观” 的核心在于,不同人对同一件事可能持有不同观点。如果所有人都遵循统一标准,那本质上就是 “客观” 评估。因此,当时市场上并不存在真正意义上的 “主观情感分析 benchmark”,所有情感分析评测本质上都是客观评估 —— 因为都是基于统一的 “标准答案”。

斯坦福大学李飞飞教授曾经提到,无论 AI 模型经过多少轮训练,目前仍无法像人类一样,具备真正意义上的主观情感理解能力。

如何评估“主观” ,这确实是一个值得深入探讨的问题。当我们在 ACMMM 2024 分享论文时,充分表明了决心:我们要构建一个新的 benchmark。

图片来源:明略科技

明略科技研究成果在ACMMM2024会议现场荣获最佳论文提名奖

我们为什么要花精力做这件事情?核心原因是我们想解决广告营销行业的实际痛点 —— 广告内容测试。大家可以回想一下,我们每天在视频号、抖音等平台会看到大量广告,既有图文形式,也有视频形式。对于广告客户来说,投放一支广告的成本极高。除了拍摄广告片需要投入大量资金,后续在各大媒体平台购买流量的费用更是远超拍摄成本。因此,在广告正式投放前,客户必须先测试广告片的效果。判断广告是否能吸引潜在消费者、是否能打动目标人群。

过去,广告测试的方法非常传统,我们会把消费者请到实验室观看广告,之后让他们填写问卷,根据问卷结果决定是否修改广告或直接投放。后来,测试方法升级为消费者佩戴可穿戴设备,我们通过捕捉脑电、眼动等信号,分析消费者观看视频广告时的情感变化。在这一过程中,我们积累了大量广告片的测试信号数据,而这些信号正是 “主观性” 的最佳体现。因为每个人的信号都不同,完全不存在统一标准。

大模型崛起后,通过把这些脑电、眼动信号与基础大模型相结合,我们训练出一个多模态的专业领域专家模型(specialize model)。在模型训练过程中,我们采用了一种特殊的网络结构 —— 超图(hypergraph),这种结构与传统图论中的图形结构不同,它能高效存储广告播放过程中各个视频片段之间的相似度,最终通过超图清晰地呈现出视频的故事线和情节结构。通过超图进行训练,不仅效果好,而且训练与计算成本远低于 Transformer。这项超图多模态大模型研究成果最终获得了ACMMM2024最佳论文提名。

图片来源:明略科技

目前,基于我们自研的超图多模态大模型的产品——全球广告创意优化与测试平台 AdEff 已经正式上线。这是一款面向全球市场的 SaaS 产品,核心功能是可以测试同一支广告片在不同人群中产生的情感反应差异,这对出海企业意义重大。

现在很多中国品牌都在拓展海外市场,但不同国家、不同文化背景的消费者,对广告内容的理解和接受度完全不同。在成本上,过去,在一个市场测试一支广告片的成本大概需要 1 万美元,现在,大模型将测试成本大幅压缩。对企业来说,成本降低意味着他们可以进行更多的尝试。现在很多客户的广告片已经不是由广告公司拍摄,而是用 AI 生成,生成后通过我们的产品快速测试,就能避免因广告效果不佳导致的流量费用浪费。

更有意思的是,当企业测试完广告片后,还能与大模型进行交互。比如,在广告播放的第 3 秒到第 5 秒,消费者为什么会感到兴奋?大模型互动的逻辑其实正是动态推理,它可以用自然语言解释信号升高的原因,分析对应用户群体的想法。如果某个片段的广告效果不好,大模型还能站在广告拍摄专家的视角,给出具体的优化建议,这对客户的吸引力很大。因为过去邀请消费者到实验室测试广告,测试结束后消费者就离开了。当广告主后续想深入了解 “当时消费者为什么会兴奋” 时,已经无法再联系到受访者。但现在,客户随时能与模型交互,挖掘背后的深层原因。

我们最近推出的另一款智能体 ——妙啊,聚焦爆款投流素材内容生成场景。当前短视频营销竞争激烈,很多企业过去一年才发布几十个广告,现在一天就要上线几百个广告,否则很难在社媒平台获得足够流量。然而,很多企业用大模型制作广告,但最大的痛点是不知道该写什么 prompt,不知道如何设计剧情脚本。我们的“妙啊”可以帮助大家解决这个问题。

通过超图多模态大模型,先从全网搜集海量广告素材,再通过模型拆解素材中的 “爆款片段”,之后将优质片段输入到 “故事脚本生成模型” 中。因为我们已经预先解析了真正吸引消费者的内容素材,提炼出有效的脚本逻辑,所以真正挖掘出了消费者感兴趣的内容,同时缩短了 “广告创意” 到 “成片投放” 的周期。

总的来说,我认为,一方面,垂直领域有大量未被挖掘的AI应用场景,未来模型层必然是 “百家争鸣” 的格局,绝非只有基础模型公司。每个领域的模型都应该具备独特性,关键在于要有自己“独特的 benchmark”。对企业来说,通用 benchmark 就像基础学科考试,判断模型是否具备实战能力,看的是每个行业独有的评估体系。

另一方面,AI 的优化不应仅局限于模型层面,未来还将延伸到智能体,甚至多智能体层面。多个智能体组成混合智能体,进行互相博弈,最终形成端到端的优化。

我们今年的重点工作之一是将模型推向全球市场。聚焦15个重点海外市场,深化模型训练,将企业客户从中国出海企业拓展至海外市场的本土企业。同时,我们将推动构建一个覆盖全球各个国家与地区的广告素材库,并与当地广告学院、广告评审专家合作,将专业反馈通过 RLHF(基于人类反馈的强化学习)的方式融入到模型训练中。

目前,无论是做品牌广告测试,还是效果广告的内容生成,我们都欢迎大家体验我们明略的产品,我们也将通过持续的技术创新,帮助企业创造更大价值。

谢谢大家!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
越打越出惊喜!以色列传来好消息,美军彻底歇菜:8年无法再开战

越打越出惊喜!以色列传来好消息,美军彻底歇菜:8年无法再开战

知法而形
2026-03-26 17:28:20
“一降价还不是像狗一样跑过来!”罗技广告辱骂用户遭全网声讨…

“一降价还不是像狗一样跑过来!”罗技广告辱骂用户遭全网声讨…

柴狗夫斯基
2026-03-26 21:06:15
继张雪峰之后,中医大师黄贵华被曝心梗去世,社交账号已变黑白

继张雪峰之后,中医大师黄贵华被曝心梗去世,社交账号已变黑白

180视角
2026-03-26 11:52:12
中方拒收道歉,日本自卫官被转移,小泉进次郎沉默24小时后发声

中方拒收道歉,日本自卫官被转移,小泉进次郎沉默24小时后发声

何氽简史
2026-03-26 15:40:58
人民银行:个贷新规落地,8月1日起施行,这三点借款人必须要知道

人民银行:个贷新规落地,8月1日起施行,这三点借款人必须要知道

一口老汤
2026-03-26 16:11:39
张雪峰前女友哭红眼,喊话不要给张雪峰泼脏水,曝两人分手原因

张雪峰前女友哭红眼,喊话不要给张雪峰泼脏水,曝两人分手原因

180视角
2026-03-26 14:51:03
阿根廷世界杯名单已定20人!16大名将争最后6席 21岁加纳乔已出局

阿根廷世界杯名单已定20人!16大名将争最后6席 21岁加纳乔已出局

我爱英超
2026-03-26 19:07:13
周杰伦继续割韭菜!网友一针见血:他唯一和华流关系最大的是割大陆韭菜

周杰伦继续割韭菜!网友一针见血:他唯一和华流关系最大的是割大陆韭菜

爆角追踪
2026-03-26 08:56:24
一觉醒来,大量美军逃匿!伊朗全力搜捕!美议长透露重要信息

一觉醒来,大量美军逃匿!伊朗全力搜捕!美议长透露重要信息

安安说
2026-03-26 13:00:12
曾在恒大赚上亿!40岁郜林吐槽:在中乙当老总1个月工资不够油费

曾在恒大赚上亿!40岁郜林吐槽:在中乙当老总1个月工资不够油费

我爱英超
2026-03-26 20:47:14
女孩昏迷3周,脑子里却过了7年!她在梦中养大俩娃,醒来崩溃了:娃全没了...

女孩昏迷3周,脑子里却过了7年!她在梦中养大俩娃,醒来崩溃了:娃全没了...

英国那些事儿
2026-03-25 23:12:57
我国航空发动机领域著名专家严红病逝,年仅57岁

我国航空发动机领域著名专家严红病逝,年仅57岁

澎湃新闻
2026-03-26 11:40:26
网易号平台每日辟谣公告(三月二十六日)

网易号平台每日辟谣公告(三月二十六日)

网易号官方平台
2026-03-26 18:04:59
利空突袭,全线杀跌!

利空突袭,全线杀跌!

中国基金报
2026-03-26 13:16:51
清纯得不像动作片女一号!

清纯得不像动作片女一号!

贵圈真乱
2026-03-26 11:33:33
特朗普再次表态:伊朗正与美方对话

特朗普再次表态:伊朗正与美方对话

财联社
2026-03-26 23:10:07
塞尔维亚购买中国超音速导弹?国防部:正常军贸合作,不针对第三方

塞尔维亚购买中国超音速导弹?国防部:正常军贸合作,不针对第三方

澎湃新闻
2026-03-26 17:24:26
伊朗女药剂师拒绝撤离,空袭第10天在“精准”打击下被“误杀”

伊朗女药剂师拒绝撤离,空袭第10天在“精准”打击下被“误杀”

网易新闻出品
2026-03-26 11:16:13
到底有多无知,才能做出这样的判决!

到底有多无知,才能做出这样的判决!

槽三刀
2026-03-25 22:01:04
博主被陌生网友辱骂3个月,默默观察其2年半,终于找到机会碰面了

博主被陌生网友辱骂3个月,默默观察其2年半,终于找到机会碰面了

离离言几许
2026-03-26 15:01:41
2026-03-27 01:23:00
界面新闻 incentive-icons
界面新闻
只服务于独立思考的人群
1044510文章数 1332044关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

本地
家居
艺术
健康
公开课

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

家居要闻

傍海而居 静观蝴蝶海

艺术要闻

都说乌克兰美女多,看完摄影师贝格玛 的作品我信了!

转头就晕的耳石症,能开车上班吗?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版