Qwen真是怪胎,奖励错了,模型反而更强,强化学习得推翻重来?

2025-06-04 21:44:30 机器之心Pro 天津 举报
0
分享至
无障碍浏览 进入关怀版