![]()
密集图像描述这门技术,有点像让你朋友看图说话——只不过普通人说"桌上有水果",高手得说出"木质餐桌左前方的青苹果带褐色斑点,旁边玻璃杯有半杯橙汁"。越细越难,训练成本也越离谱。
![]()
苹果和威斯康星大学刚放了个新框架 RubiCap,核心思路挺有意思:与其砸钱请人标注,不如让 AI 自己教自己。具体玩法分三步——先用 GPT-5、Gemini 2.5 Pro 给 5 万张图写一堆候选描述,再让 Gemini 总结这些描述的共识和漏洞,提炼成评分标准,最后让 Qwen2.5 当裁判按标准打分。
![]()
这套"自产自评"的机制,相当于给模型配了个实时纠错的教练。最终练出的 70 亿参数模型,盲测排名和幻觉错误率都压过了 720 亿参数的大家伙。更意外的是 30 亿参数的迷你版,部分测试里居然反超了自家大哥。
这事给行业提了个醒:参数竞赛未必是唯一解,训练方法的精细度可能才是性价比更高的杠杆。
论文已挂 arXiv,代码和权重暂未开源——按苹果近年的节奏,估计得等 WWDC 看有没有下文。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.