![]()
买显示器前,你平均打开多少个标签页?
RTINGS给7.8分,PCMag打4.5星,YouTube博主说背光漏光,Reddit老哥骂USB-C充不进MacBook。同一台设备,四个来源,四种评价体系,八种痛点描述。两小时过去,你比下单前更懵了。
这不是信息匮乏,是信息过载后的认知坍缩。每个评测都在说"好",但好的维度完全不同。产品经理出身的开发者Chris干脆写了个管道——用3家大语言模型供应商、6阶段架构,把20-50个来源压缩成90秒的决策报告。
从"人肉交叉验证"到自动化管道
SetupScore的核心假设很朴素:人类不擅长跨源比对,但擅长定义"要比什么"。
Chris的痛点是典型产品经理型焦虑。他想要的不只是分数,而是"RTINGS说的色准"和"PCMag说的色彩表现"是不是同一回事——前者测的是ΔE<2的专业指标,后者可能只是肉眼看着舒服。这种语义对齐,人工做两小时,机器做90秒。
管道第一阶段是信源层。Brave Search API替代Google(定价杀了那个实验),Groq Whisper转录YouTube视频,Reddit API抓取真实用户反馈。单台显示器通常汇聚25-35个独立来源:RTINGS、PCMag、Tom's Hardware等160+出版物,加上YouTube拆解视频和Reddit ownership threads。
一个细节:20分钟的YouTube视频被完整转录,第14分钟评测者随口提的USB-C供电功率,会被提取为结构化声明。"我们活在奇怪的时代"——Chris的原话。
评分压缩:为什么5星不是100分
最耗时的 redesign 在评分标准化层。
表面看很简单:4.5/5 → 90分,7.8/10 → 78分,88% → 88分。自动识别五种量表后,真正的麻烦才开始。
首先是等级通胀压缩。科技媒体很慷慨,5/5意思是"优秀"而非"完美",但映射到百分制就成了100分。Chris的解法:90分以上软化处理,100→96.5,95→93.25,90维持不变。90以下不动——差评通常是真的差。
其次是异常值阻尼。一条愤怒的Reddit rant不该拉低总分,一篇 sponsored review 不该虚高。任何偏离可信度加权均值20分以上的评分,直接硬截断。没有中位数体操,只有 crude、effective、debuggable 的粗暴逻辑。
最后是来源数量置信度。单个5星评测不该决定命运,样本量不足时分数会带置信区间提示。这套规则是 Chris 迭代最久的部分——比 LLM 提示工程花的时间还多。
LLM 不是答案,是管道中的一环
SetupScore 的架构刻意限制了 LLM 的发挥空间。
Transcript 提取、评分标准化、异常值处理,全是确定性代码。LLM 只干两件事:从非结构化文本中提取声明("USB-C 供电 65W"),以及跨源语义对齐(判断两个描述是否指向同一属性)。
Chris 用了三家 LLM 供应商,不是为了 ensemble 投票,而是成本路由:简单任务扔给便宜模型,复杂对齐换贵的能力。管道思维替代了"一个万能模型"的幻觉。
这种克制源于产品经理的本能。LLM 的幻觉在买显示器场景下代价很低(顶多推荐错型号),但在医疗或金融场景就是灾难。SetupScore 的架构预留了人工复核入口——分数旁永远带原始引用链接。
90秒决策的代价与边界
这套系统跑通后,Chris 的 monitor 选购时间从 2 小时降到 90 秒。但他也承认边界:SetupScore 对主观偏好无能为力。
你喜欢雾面屏还是镜面屏?偏冷色温还是暖色温?这些没有客观答案的维度,管道只能罗列各方说法,无法替你决定。它解决的是"这台显示器到底有没有硬件级低蓝光",不是"你眼睛累不累"。
另一个隐性成本:信源偏见被编码进系统。Brave Search 的索引偏好、YouTube 转录的口音识别误差、Reddit 用户的地域分布——这些偏差没有被消除,只是被显性化了。分数旁边标注着"基于 34 个来源,其中 12 个来自北美评测机构"。
Chris 把项目开源后,最意外的反馈来自 B2B 场景。采购部门用它批量比价,电商运营用它监控竞品口碑——个人决策工具意外切中了企业信息整合的痛点。
但开发者自己最常用的功能,反而是管道里那个"原始引用链接"按钮。90 秒看完分数,再花 10 分钟抽查几个来源,确认机器没把"色准优秀"和"色彩鲜艳"混为一谈。信任但验证——老派的习惯,新式的效率。
当所有评测都被量化成可比分数,你会更依赖系统推荐,还是更想亲手打开那 34 个标签页验证一遍?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.