周二下午的站会,一位资深数据工程师甩出一句话,会议室直接散了。「Have you seen what GPT-5.4 just did on GDPVal?」没人追问后半句,所有人低头开电脑。
GDPVal是业内用来测专业任务的标准基准,覆盖法律、医学、工程、金融四大领域。GPT-5.4在这个测试里,83%的任务得分追平或超过人类专家——不是平均水平,是顶尖从业者。
这个数字什么概念?GPT-4在同套测试里大概是62%,Claude 4是71%。换句话说,18个月的沉默期里,OpenAI把 gap 从"明显落后"拉到了" statistically indistinguishable"。
工程师们现在分两派:一派在查API文档看有没有偷偷更新,另一派在算自己手里的项目还能撑几个季度。没人讨论"AGI来了没"这种虚头巴脑的问题,都在问同一个事——客户什么时候会发现,他们付高价买的专业意见,成本其实只有0.002美元/千token。
站会提前结束的原因很简单:再聊下去,就要讨论哪些代码该删了。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.