首个个性化深度研究系统评测基准在OPPO等机构诞生|可靠性|oppo|产品矩阵

分享至

这项由OPPO公司、浙江大学、M-A-P和2077.AI等机构联合完成的研究发表于2025年1月，论文编号为arXiv:2509.25106v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

想象一下，你正在计划一场马拉松训练，但网上找到的所有训练计划都是标准化的通用版本。有的建议每天跑10公里，有的推荐间歇训练，但没有一个考虑到你是个上班族、只有晚上有时间、膝盖还有些老伤、预算有限等具体情况。这正是当前AI研究助手面临的困境——虽然它们能生成详尽的研究报告，但很少能真正"读懂"用户的个人需求，提供量身定制的建议。

这个问题听起来简单，实际上却是AI领域的一个重大挑战。目前市面上的深度研究AI，比如ChatGPT的研究功能、Perplexity的深度搜索，甚至是最新的O3深度研究系统，它们都像是非常聪明但不够贴心的图书管理员。当你问它们关于某个话题的问题时，它们会搜遍整个互联网，整理出一份内容丰富、结构清晰的研究报告。但这些报告往往是"一刀切"的通用版本，就像同一件衣服要适合所有人的身材一样，结果就是谁穿都不太合身。

更关键的是，我们一直缺乏一个统一的标准来评价这些AI助手的个性化能力。这就好比我们有很多厨师声称自己能做出最适合你口味的菜，但从来没有人设计过一套公平的比赛规则来验证谁说的是真话。

针对这个空白，研究团队开发了世界上第一个专门评估AI研究助手个性化能力的测试基准，名为"个性化深度研究基准"。这个基准的核心理念就是要测试AI是否真的能够理解用户的个人背景、需求和偏好，然后据此调整自己的研究策略和报告风格。

研究团队采用了一种非常巧妙的方法来构建这个测试基准。首先，他们设计了50个涵盖生活各个方面的研究任务，包括教育规划、职业发展、健康管理、旅行安排、财务投资等十个主要领域。这些任务都是真实生活中人们可能遇到的情况，比如"我想为自己的第一次全程马拉松制定训练计划"或者"我需要为即将到来的研究生申请做准备"。

接下来，研究团队做了一件特别有趣的事情：他们招募了25位志愿者，请这些志愿者详细描述自己的真实个人情况。这不是简单的年龄、性别、职业信息，而是包括生活习惯、兴趣偏好、知识背景、决策风格等方方面面的立体画像。比如，一位志愿者可能是这样的：34岁的供应链管理专业人士，已婚，有一个6岁的女儿和一只阿拉斯加雪橇犬，轻度肥胖，经常颈椎不适，希望改善整体健康状况，工作压力大，经常出差，是个早起的人，更喜欢早晨运动和学习。

为了让这些用户画像更加真实生动，研究团队还让专业标注人员模拟这些志愿者的日常生活，记录他们可能产生的想法、对话和行为模式。这就像是为每个虚拟角色写日记一样，让AI能够从更丰富的上下文中理解用户的真实需求。

通过这种方式，研究团队最终构建了250个独特的"用户-任务"组合。每一个组合都代表了一个真实的个性化研究场景，比如上面提到的那位34岁供应链专家可能需要一个适合经常出差、照顾家庭、改善健康的马拉松训练计划。

有了这个测试基准，接下来的问题就是如何公平、全面地评价AI系统的表现。研究团队设计了一套名为"PQR评价框架"的评估体系，这个框架从三个关键维度来评判AI生成的研究报告。

第一个维度是"个性化匹配度"，简单说就是这份报告是否真的"为你而写"。这就像评价一套定制西装是否合身一样，需要看报告是否准确理解了用户的目标，内容是否符合用户的知识水平和兴趣点，表达方式是否适合用户的理解习惯，以及建议是否切实可行。比如，如果用户是个健身新手，报告就不应该推荐过于复杂的训练方法；如果用户时间有限，就不应该建议每天训练3小时。

第二个维度是"内容质量"，评价报告本身的专业水准。这包括分析的深度和洞察力、逻辑结构的清晰性，以及语言表达的易懂程度。即使是个性化的报告，也必须保证内容的专业性和可靠性。

第三个维度是"事实可靠性"，检查报告中提到的事实和数据是否准确，引用的信息源是否可信。研究团队开发了一套自动化验证流程，会逐一核查报告中的每个具体声明，确保没有编造或歪曲事实。

为了验证这套评价体系的可靠性，研究团队还进行了人工评价对比实验。他们邀请专家按照同样的标准评价AI生成的报告，然后与自动化评价结果进行对比。结果显示，AI评价系统与人类专家的判断有很高的一致性，证明这套评价框架确实能够客观反映报告的质量。

在实际测试中，研究团队评估了目前市面上主要的AI研究系统，包括谷歌的Gemini 2.5 Pro深度研究、OpenAI的O3深度研究、Perplexity的深度研究功能，以及一些开源的研究助手如OAgents、Deerflow、MiroFlow等。同时，他们还测试了配备搜索功能的大语言模型，比如带搜索的Claude、GPT-4等。

测试结果揭示了一些非常有趣的现象。开源的AI研究助手在个性化能力方面表现最为出色，其中OAgents获得了最高的个性化评分。这些系统似乎更擅长理解用户的具体需求，能够调整自己的研究策略和报告风格。比如，当为一位预算有限的学生制定留学规划时，OAgents会重点关注奖学金机会、兼职工作可能性以及生活成本控制，而不是简单地列出各种昂贵的选项。

商业化的AI研究系统虽然在个性化方面稍显逊色，但在内容质量和事实可靠性方面表现更加稳定。特别是Gemini 2.5 Pro深度研究在事实准确性方面得分最高，引用的信息源都经过了严格验证。这就像是一个非常严谨的研究员，虽然可能不够贴心，但绝对不会给你错误的信息。

最令人意外的是，简单地为大语言模型添加搜索功能并不能显著提升其个性化研究能力。这些系统虽然能够获取最新信息，但在理解用户个人需求和调整输出风格方面仍然有很大局限。这说明个性化研究能力需要更复杂的系统设计，而不仅仅是信息检索能力的提升。

研究团队还发现了一个重要现象：当用户提供的个人信息越详细，AI系统的个性化表现就越好。这就像是医生问诊一样，患者提供的症状描述越准确详细，医生就越能做出精准的诊断和治疗建议。具体来说，当用户仅仅提供任务描述时，所有系统的个性化表现都相对一般。但当用户额外提供一些背景对话或行为记录时，系统表现明显提升。而当用户提供结构化的详细个人档案时，个性化效果达到最佳。

这个发现对我们使用AI研究助手有重要启示：如果你希望获得更贴合自己需求的研究报告，最好主动提供更多个人背景信息，包括你的知识水平、时间限制、预算考虑、个人偏好等。这就像是在餐厅点菜时告诉服务员你的口味偏好和饮食禁忌一样，信息越详细，最终的体验就越满意。

研究团队还测试了一些先进的记忆系统是否能帮助AI更好地理解用户。他们发现，配备了记忆功能的AI系统确实能够从用户的历史行为中学习，逐步建立更准确的用户画像。不过，目前这些记忆系统还不够成熟，与理想状态仍有不小的差距。这就像是一个刚认识你的朋友，虽然努力记住你的喜好，但还需要更多时间才能真正了解你。

值得注意的是，这项研究还揭示了当前AI研究助手的一些普遍局限。大部分系统在处理需要深度个人化考虑的复杂决策时仍然力不从心。比如，当一个用户同时面临职业转换、家庭责任和健康挑战时，很少有AI能够综合考虑这些相互影响的因素，提供真正全面的建议。

此外，不同文化背景的用户可能有不同的决策习惯和价值观念，但目前的AI系统对这种文化差异的理解还很有限。这就像是一个外国导游，虽然对景点很熟悉，但可能不太理解本地游客的具体偏好。

研究团队指出，个性化深度研究的发展还面临一些技术挑战。首先是隐私保护问题：为了提供个性化服务，AI需要收集和处理大量用户个人信息，如何在保护隐私的同时实现个性化是一个重要课题。其次是计算效率问题：为每个用户定制研究策略需要大量计算资源，如何平衡个性化效果和系统效率需要进一步优化。

展望未来，研究团队认为个性化深度研究将朝着几个方向发展。一是更智能的用户画像构建，AI将能够从更少的信息中推断出用户的深层需求。二是更灵活的研究策略调整，AI将能够根据研究进展动态调整搜索重点和分析角度。三是更自然的交互体验，用户将能够通过对话的方式逐步完善自己的需求描述，AI也能主动询问关键信息。

这项研究的意义远不止于学术价值。随着AI助手越来越深入我们的日常生活，个性化能力将成为决定用户体验的关键因素。无论是学生规划学习路径、职场人士制定职业发展策略，还是家庭做出重大决策，都需要AI能够真正理解个人情况，提供有针对性的帮助。

同时，这项研究也为AI系统的开发者提供了明确的改进方向。通过这个评测基准，开发团队可以客观评估自己系统的个性化能力，识别不足之处，有针对性地进行优化。这就像是为AI研发提供了一面镜子，让开发者能够清楚看到自己的系统在用户眼中是什么样子。

更重要的是，这项研究建立了一个开放的评测标准，为整个行业的发展提供了参考基准。就像汽车行业有安全碰撞测试、手机行业有性能跑分一样，AI研究助手现在也有了衡量个性化能力的统一标准。

当然，个性化AI研究助手的发展也需要我们用户的配合。我们需要学会更好地表达自己的需求，提供必要的背景信息，同时也要保持理性的期待。AI虽然越来越聪明，但它仍然需要我们的引导才能提供最合适的帮助。

说到底，这项研究的核心价值在于推动AI从"标准化服务"向"个性化伙伴"的转变。在不久的将来，我们可能会拥有真正懂我们的AI助手——它知道你是夜猫子还是早起鸟，理解你的风险偏好和价值观念，记得你的过往经历和当前处境，能够像一个贴心的朋友一样为你提供建议。这样的AI助手不仅仅是一个信息搜索工具，而是一个真正的智能伙伴，能够陪伴我们做出更好的人生决策。

Q&A

Q1：个性化深度研究基准是什么？它如何测试AI的个性化能力？

A：个性化深度研究基准是世界首个专门评估AI研究助手个性化能力的测试系统。它通过250个真实的"用户-任务"组合来测试AI，每个组合都包含具体的研究任务和详细的用户个人背景。比如让AI为一位34岁的供应链专家制定马拉松训练计划，测试AI是否能考虑到他的工作压力、家庭情况、健康状况等个人因素。

Q2：PQR评价框架是如何评判AI报告质量的？

A：PQR框架从三个维度评价AI生成的研究报告：个性化匹配度（P）看报告是否真正"为用户而写"，考虑用户的具体需求和背景；内容质量（Q）评价报告的专业水准和逻辑清晰度；事实可靠性（R）检查报告中的事实和数据是否准确。这就像评价一套定制西装，既要看是否合身（个性化），也要看做工质量（内容），还要确保材料真实（可靠性）。

Q3：测试结果显示哪些AI系统的个性化能力最强？

A：测试结果显示开源AI研究助手在个性化方面表现最佳，其中OAgents获得最高分。这些系统更擅长理解用户具体需求并调整输出风格。商业化系统如Gemini 2.5 Pro虽然个性化能力稍逊，但在事实准确性方面表现更稳定。简单添加搜索功能的大语言模型在个性化方面表现最差，说明个性化需要更复杂的系统设计。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.