![]()
2018年,MIT媒体实验室一篇论文抛出一个数字:深色皮肤女性的识别错误率,是浅色皮肤男性的40倍。7年过去,算法精度确实涨了,但新麻烦也来了——技术越普及,用错地方的代价越大。
论文之后:精度涨了,问题变了
那项研究测试了微软、IBM、旷视三家系统。当时最差的模型,深色皮肤女性错误率高达34.7%,而浅色皮肤男性只有0.8%。这不是"不够准"的问题,是系统性偏差被写进了代码。
后续改进很快跟上。IEEE Spectrum技术政策编辑Lucas Laursen在最新分析中指出,算法公平性已成为行业标准测试项,错误率差距已大幅收窄。但精度提升像给旧车换了新引擎——车还是那辆车,路却越来越复杂。
真实场景正在制造论文没覆盖的麻烦。机场刷脸登机、便利店无感支付、小区门禁自动放行,这些场景里没有实验室的均匀光照,没有配合度高的受试者,更没有"识别失败请重试"的缓冲。
用错地方比不准更麻烦
![]()
Laursen举了个典型场景:某零售商用人脸识别抓"惯偷",系统标记了一位拉美裔顾客。店员拦下盘查,最后发现是误报。这位顾客起诉,零售商赔钱了事,但算法怎么纠偏?没人知道。
更隐蔽的伤害是"沉默的拒绝"。租房平台用刷脸验证身份,某非洲裔申请人连续三次认证失败,转人工审核要排48小时。房源在这期间被租走。没有歧视的意图,但产生了歧视的结果。
这类案例的共同点:技术部署的速度,远超问责机制的建立。2018年论文讨论的是"算法偏见",现在的问题是"部署偏见"——明知道有瑕疵,还是在高压场景里上线。
监管在追,但追的是旧版本
欧盟《人工智能法案》把公共场所实时人脸识别列为"高风险",要求人类复核。美国部分州禁止警方用人脸识别匹配逮捕令。这些规则针对的是2018年那种"算法不准"的问题。
但Laursen观察到,新威胁来自组合使用。某机场把人脸识别与"旅客风险评分"挂钩,分数由购票记录、行程模式、甚至社交媒体情绪共同决定。人脸识别在这里只是入口,真正的决策黑箱在后面。
![]()
更棘手的是跨境数据。一家中东航空公司用欧洲供应商的识别系统,旅客生物数据存储在第三国。哪个司法管辖区能管?2023年某案例显示,旅客在A国机场被误标为"安全威胁",在B国入境时触发警报,花了两周才澄清。没有算法出错,是数据流转的缝隙造成了伤害。
产品经理的困境:上线还是等?
从PM视角看,这是个经典的"进度vs风险"博弈。竞品已经上了刷脸支付,你等合规细则出台,市场份额丢多少?上线后出问题,品牌损失又怎么算?
Laursen采访的一位合规官说得很直白:「我们内部测试的公平性指标都达标,但上线后发现,某光照条件下的特定年龄段用户,通过率就是低一截。要为此延迟全国推广吗?业务部门的答案是:先上,再迭代。」
这种"先上再修"的逻辑,在消费互联网里跑通了十年。但人脸数据不一样——泄露了换不了,误伤了难举证,歧视了难察觉。2018年论文的40倍差距是个醒目的数字,现在的伤害更分散,更难归因,也因此更难推动改变。
精度提升解决了"认不认得准"的问题,但没解决"该不该认"的问题。当技术从实验室走进闸机、摄像头、招聘系统,每个部署决策都在重新定义"公平"的边界。而那个边界,目前基本由产品团队的上线排期表决定。
你家小区门禁用的是哪家算法?误拦过外卖员吗?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.