![]()
数据项目失败率常年在70%左右徘徊,但很少有人愿意公开聊自己怎么搞砸的。谷歌最近放出了一组内部复盘——不是成功案例,是三个连续翻车的数据项目,导火索都是同一张表。
这事有意思的地方在于:问题不在技术,也不在管理,而在两张表之间的缝隙。产品经理和工程师各自拿着一张表干活,却以为对方看的是同一张。
第一张表:PM的"进度表"
谷歌内部把这叫"执行仪表盘"。PM每天盯的是交付节点、资源占用、风险标红。三个翻车项目里,PM的表都显示"按计划推进",绿点比红绿灯还多。
但工程师的表完全是另一套逻辑。他们看的是数据血缘、管道延迟、schema变更频率。有个工程师在复盘会上说:「我的管道每天早上6点准时报警,但PM的表上这个项目已经绿了两周。」
两张表的数据源不同,刷新频率不同,甚至对"完成"的定义都不同。PM的"完成"是功能上线,工程师的"完成"是数据质量达标。谷歌统计发现,这种定义错位在数据项目里出现的概率,比传统软件项目高3倍。
第一个翻车项目是个用户行为分析平台。PM按表推进,按时交付了仪表盘界面。上线后第三天,业务方发现数据延迟4小时,决策用的全是隔夜数据。工程师早就知道这个问题,但他们的表上这属于"技术债务",优先级P2,排期在下个季度。
第二张表:工程师的"健康度表"
谷歌数据工程师有一套自己的监控体系,叫"数据健康度评分"。延迟、完整性、一致性、新鲜度,四个维度打分。分数低于80自动发警报,但警报发给工程师,PM收不到。
第二个项目栽在数据一致性上。A系统和B系统的用户ID映射表,工程师的表显示"一致性98.7%",看起来不错。但PM的表上没有这个指标,他们关注的是"功能覆盖率100%"。
上线后业务部门发现,同一批用户在两个系统里被算成了不同的人。营销预算多花了40%,因为重复触达。复盘时工程师很委屈:「我的表上早就标黄了,我以为你们都知道。」PM更委屈:「你的表我根本看不到。」
谷歌把这叫"表间盲区"。两个角色各自的信息系统没有接口,靠人工同步,滞后且失真。三个项目里,这种盲区平均持续了11周才被发现。
第三张表:谁该来填这个缝
第三个项目最典型。是个实时推荐系统,技术复杂度最高,两张表的冲突也最激烈。PM的表显示"模型已部署",工程师的表显示"推理延迟超标,不可用"。
项目按PM的表结了项,工程师的表却持续报警。上线当天,推荐结果延迟8秒,用户刷不到新内容。谷歌内部有个说法:数据项目的"上线"和"可用"之间,往往隔着一整个季度。
这次复盘后,谷歌试了一个新做法:强制两张表每周对齐一次,不是人对人,是表对表。把PM的进度指标和工程师的健康指标做交叉验证,冲突项自动标红,升级给双方共同的上级。
试点了6个月,项目失败率从原来的行业平均水平,降到了接近传统软件项目的水平。但代价也很明显:每周对齐会议平均消耗4.5小时,双方都觉得自己的自主权被侵蚀了。
有个资深PM在内部文档里写:「我们花了十年学会让开发者和设计师协作,但PM和工程师在数据项目里的协作,好像还在原始社会。」
谷歌没有给出最终答案,只是把三个项目的复盘全文放了出来,包括当时每张表的具体截图、会议记录、甚至Slack争吵的节选。这种透明度本身就很罕见——大多数公司只晒成功案例。
最后一个细节:三个项目的工程师团队,事后都申请了转岗。不是转去别的工程师团队,是转去做PM。他们想亲自看看那张表到底长什么样。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.