2,000条合成差旅记录,谷歌的碳排放模型只认出了810条。剩下的1,190条被作者直接丢弃——不是估算,不是插值,是整行删除。这个名叫ScopeWise的周末项目,用一道硬门槛测出了"真实数据"在气候科技领域的稀缺程度。
从一张假报表开始的怀疑
![]()
ScopeWise的作者Alessandro Bahgat在GitHub上写得很直白:大多数"范围三仪表板"演示都建立在虚构的排放值上——一个固定的公斤/公里常数乘以距离估算。评委无法核实数字,细心的读者也不需要核实:换一组常数,同一个仪表板就会讲出完全不同的故事。
这种造假成本极低。企业可持续发展报告里的航班碳排放,往往来自国际民航组织的通用系数表,或者供应商提供的"典型值"。一架波音737-800从北京飞上海,实际排放取决于当天载客率、货舱配重、航路天气、备降燃油携带量,但报表上可能只有一个198克的行业平均值。
Bahgat想做的是另一件事:让每一个屏幕上的数字都可辩护(defensible)。这意味着从数据源到计算链路的全链条透明,意味着拒绝任何无法追溯的估算。
两条产品线的分野:特定航班 vs 典型基准
ScopeWise的核心架构建立在谷歌旅行影响模型(Travel Impact Model,TIM)的两条数据产品线上。
第一条是computeScope3FlightEmissions,返回特定航班的精确排放。TIM在这里动用的是真实飞机型号、实际载客率、具体座位布局。数据标记为TIM_EMISSIONS,这是作者唯一接受的信源。
第二条是computeTypicalFlightEmissions,返回舱位无关的典型基准值。这条产品线用于横向比较——同一航线上,你的实际选择比"随便买一张经济舱"好多少或差多少。
关键设计决策:两条线完全分离。特定航班的声明保持承重地位,典型值只是比较用的独立数据产品。作者用一道硬编码的检查强制这一分离:
「if (r.source !== 'TIM_EMISSIONS') { droppedFallback++; continue; }」
不满足特定航班标准的记录,直接丢弃。1,190条候选记录就这样被过滤掉,占比59.5%。
365条真实航线的策展工程
数据来源是公开出版的航空公司时刻表。Bahgat从中策展了365条真实定期航班,覆盖42家承运人、55个机场。这不是网络爬虫抓取的低价机票数据,而是官方发布的(承运人、航班号、出发地、目的地)四元组。
在此基础上,脚本生成了2,000条合成企业差旅记录。这些记录模拟的是一家虚构公司的真实出行模式:同一员工可能多次往返同一航线,不同部门可能有不同的舱位偏好,季度末可能出现预订高峰。
合成数据提交给TIM的Scope 3端点后,只有40.5%返回了特定航班排放值。其余1,190条的失败原因被作者明确分类:停飞服务、湿租航线(飞机和机组都来自第三方租赁)、时刻表覆盖范围外的地区性承运人。
这些失败案例本身构成了一幅行业地图。全球航空碳排放核算的盲区,恰好集中在航线网络边缘——支线航空、包机服务、季节性航线、新兴市场承运人。主流企业的差旅支出可能很少触及这些盲区,但供应链碳足迹的完整性恰恰取决于边缘数据的覆盖度。
控制中心的界面逻辑:机会优先于报告
ScopeWise的落地视图不是年度报告,而是机会面板(Opportunities panel)。这里列出四到五个政策杠杆,按预估回收的吨二氧化碳当量(tCO₂e)排序。
界面层级依次展开:过滤条、对标SBTi(科学碳目标倡议)轨迹的关键绩效指标、基准比较表(每条航线对标舱位无关的典型值)、最重航线台账(带"vs typical"比率列,超过1.2倍基线即标红)。
最下方嵌入一个Gemini 2.5 Flash抽屉,操作者可以用自然语言追问,调用与UI相同的数据工具。这是"代理式"(agentic)设计的体现——系统不只是一个展示层,而是一个可以对话的决策支持环境。
界面设计的隐含假设:可持续发展负责人的核心痛点不是"我们去年排了多少",而是"下周该先改哪条政策"。机会面板的排序逻辑直接回应这一痛点,将数据洞察转化为行动优先级。
v2版本的批量优化:从逐个查询到并行计算
技术架构的迭代值得关注。早期版本可能对每条航线单独调用典型值接口,v2版本改为对所有幸存航线一次性批量调用computeTypicalFlightEmissions。
这一改动将网络往返次数从115次(幸存航线数)压缩到1次,显著降低延迟和API成本。更重要的是,批量调用确保了比较基准的时间一致性——所有典型值来自同一模型版本、同一计算批次,避免因API更新导致的基准漂移。
特定航班数据与典型基准数据的并置,形成了ScopeWise的核心信号:两者之间的差距。这个差距量化了"选择"的碳排放价值——选直飞而非中转、选新机型而非老机型、选高载客率航班而非低密度航班,具体能省多少。
为什么是范围三类别六:差旅的核算特殊性
温室气体核算体系将范围三排放分为15个类别,类别六(商务差旅)有其特殊复杂性。
与类别一(外购商品和服务)或类别四(上游运输和分销)不同,差旅排放的核算边界模糊。员工自掏腰包后报销的机票,算谁的范围三?通过第三方平台预订的行程,数据归属如何认定?混合出差(商务+个人延长停留)的排放拆分依据什么规则?
更深层的问题是数据可得性。企业采购系统通常只记录机票金额,不记录航班号、机型、舱位等级。没有这些字段,任何排放计算都不得不退回到距离×系数的粗糙估算。
ScopeWise的演示假设了一种理想状态:企业能够获取或重建完整的差旅记录,包括承运人、航班号、航段信息。这一假设本身揭示了现状与理想之间的鸿沟——大多数企业的差旅数据基础设施,远未达到支持精确核算的粒度。
合成数据的方法论意义:当真实数据不可得时
2,000条合成差旅记录的生成,引出了一个方法论问题:在无法获取真实企业数据的情况下,如何构建可验证的演示系统?
Bahgat的选择是"基于真实航线的合成行为"。航线网络是真实的,但出行行为是模拟的。这种方法保留了排放计算链路的完整性——从航班号到机型到载客率到燃油效率——同时避免了使用任何真实企业的敏感数据。
合成数据的局限性也很明显。它无法反映特定企业的实际出行模式:某家咨询公司可能过度依赖特定枢纽机场,某家制造企业可能有季节性的工厂巡检高峰。这些模式性的偏差,只有真实数据才能揭示。
但合成数据的价值在于可重复性。任何评审者都可以重新运行生成脚本,验证2,000条记录的构成逻辑。这种透明性在气候科技领域尤为稀缺——大多数碳核算工具是黑箱,输入输出关系无法审计。
谷歌TIM模型的覆盖边界:40.5%通过率说明什么
810/2,000的通过率是一个值得深究的数字。它反映的不是数据质量,而是模型覆盖范围。
TIM_EMISSIONS标记的触发条件包括:航班在谷歌航班数据库中有记录、机型信息可解析、历史载客率数据充足。这些条件对主干航线的大型承运人通常满足,对边缘场景则容易失效。
作者明确列出的失效场景具有行业代表性:停飞服务(时刻表数据滞后于实际运营)、湿租航线(飞机注册号与承运人不一致,导致机型匹配失败)、地区性承运人(未进入谷歌的航班数据库)。
这一覆盖边界对依赖TIM进行企业级碳核算的用户有直接影响。如果你的差旅组合包含大量支线航空或包机服务,TIM的特定航班输出比例可能远低于40.5%。此时系统是否优雅降级,还是像ScopeWise一样直接丢弃记录,成为产品设计的伦理选择。
从演示到产品:代理式架构的扩展性
ScopeWise的定位是"代理式范围三类别六控制中心"。代理式(agentic)在这里指系统具备目标导向的自主行动能力,而非仅响应预设查询。
当前实现中,代理能力体现在Gemini 2.5 Flash的自然语言接口。操作者可以问"下季度如果强制所有跨大西洋航班选直飞,能省多少排放",系统解析意图、调用工具、返回计算结果。这比传统的下拉菜单筛选更贴近决策者的思维习惯。
代理式架构的扩展方向包括:自动监控政策杠杆的执行效果、在KPI偏离SBTi轨迹时主动预警、模拟不同碳价格情景下的最优差旅组合。这些功能在ScopeWise的当前版本中尚未实现,但界面布局已为它们预留了位置。
开源策略与评审透明度
项目采用完全开源策略:实时演示部署在Vercel,代码仓库托管在GitHub。这种透明度在周末挑战赛提交作品中并不常见。
开源的价值在于可审计性。评审者可以检查enrich-emissions.ts中的过滤逻辑,验证810条记录的筛选标准;可以复现2,000条合成差旅的生成过程,评估其代表性;可以审查典型值批处理调用的实现,确认时间一致性保障。
更重要的是,开源为行业建立了一个基准实现。其他开发者可以fork代码,替换为自己的航线目录,比较TIM通过率;可以修改过滤阈值,观察对结果分布的影响;可以接入其他排放模型,进行横向对比。
气候科技的数据基础设施缺口
ScopeWise的周末项目体量,恰好照亮了一个结构性缺口:企业碳核算所需的数据基础设施,远未达到支撑精确决策的成熟度。
这一缺口体现在多个层面。航班层面,全球缺乏统一的、机器可读的、实时更新的机型-航段-排放数据库。企业层面,采购系统与排放核算系统的数据模型不兼容,字段映射需要大量手工清洗。模型层面,TIM等商业工具覆盖范围有限,且使用条款约束严格,难以嵌入第三方工作流。
Bahgat的应对策略是"在约束条件下最大化透明"——用公开数据源、用可验证的过滤逻辑、用完全开源的实现。这不是对缺口的忽视,而是对缺口存在性的明确承认。
数字的终点:810条记录,115条航线,4-5个政策杠杆
回到起点:2,000条合成记录,40.5%获得特定航班排放值,115条幸存航线,界面呈现4-5个按tCO₂e排序的政策杠杆。
这些数字构成了一套完整的信息架构。2,000是尝试的广度,810是验证的深度,115是决策的粒度,4-5是行动的聚焦度。每一层压缩都伴随着信息损失,但损失是显式的、可审计的、有文档记录的。
这与主流实践形成对比:许多可持续发展仪表板呈现的是经过多轮估算和聚合后的单一数字,"范围三类别六:X吨"。数字背后的假设链条被折叠,用户无法判断它是基于真实航班记录、基于典型值推算,还是基于距离系数的粗略估算。
ScopeWise的价值不在于数字本身,而在于数字的谱系学——每一个展示值都可以追溯到其生成条件,每一个丢弃记录都被计数并分类。这种对不确定性的显式处理,比虚假的精确性更接近科学诚实。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.