![]()
几个月前,苹果研究团队发布了一项关于训练AI生成功能性UI代码的有趣研究。
与设计质量不同,该研究重点确保AI生成的代码能够实际编译,并在界面功能和外观方面大致匹配用户的提示要求。
研究成果是UICoder,这是一个开源模型系列。
现在,负责UICoder的部分团队发布了一篇新论文,题为《从设计师反馈改进用户界面生成模型》。
在论文中,研究人员解释说,现有的人类反馈强化学习(RLHF)方法并不是训练大语言模型可靠生成优质UI设计的最佳方法,因为这些方法"与设计师的工作流程不匹配,忽略了用于批评和改进UI设计的丰富理由"。
为解决这个问题,他们提出了不同的路径。他们让专业设计师使用评论、草图甚至直接编辑来直接批评和改进模型生成的UI,然后将这些前后变化转换为用于微调模型的数据。
这使他们能够基于具体的设计改进来训练奖励模型,有效地教会UI生成器偏好更好地反映真实世界设计判断的布局和组件。
总共有21名设计师参与了这项研究。
研究人员收集了1460个标注,然后将其转换为配对的UI"偏好"示例,对比原始模型生成的界面与设计师改进版本。
这反过来被用于训练奖励模型以微调UI生成器。
关于生成器模型,苹果使用Qwen2.5-Coder作为UI生成的主要基础模型,后来将同样的设计师训练奖励模型应用到较小和较新的Qwen变体上,以测试该方法在不同模型大小和版本之间的泛化能力。
有趣的是,正如研究作者自己指出的,该框架最终看起来很像传统的RLHF管道。他们认为,区别在于学习信号来自设计师原生工作流程(评论、草图和直接修订),而不是点赞/点踩或简单排名数据。
那么,这真的有效吗?根据研究人员的说法,答案是肯定的,但有重要注意事项。
总体而言,在设计师原生反馈(特别是草图和直接修订)上训练的模型产生的UI设计质量明显高于基础模型和仅使用传统排名或评级数据训练的版本。
事实上,研究人员注意到他们表现最好的模型(使用草图反馈微调的Qwen3-Coder)超越了GPT-5。更令人印象深刻的是,这最终仅源自设计师的181个草图标注。
至于注意事项,研究人员注意到主观性在什么构成良好界面方面起着很大作用。
在研究中,这种差异表现为对哪些设计实际更好的分歧。当研究人员独立评估设计师排名的相同UI配对时,他们只有49.2%的时间同意设计师的选择,几乎是抛硬币的概率。
另一方面,当设计师通过绘制改进草图或直接编辑UI提供反馈时,研究团队同意这些改进的频率要高得多:草图为63.6%,直接编辑为76.1%。
换句话说,当设计师能够具体展示他们想要改变什么,而不仅仅是在两个选项之间选择时,更容易就什么是"更好"达成一致。
Q&A
Q1:苹果研究团队提出的新训练方法有什么特点?
A:苹果研究团队让专业设计师使用评论、草图甚至直接编辑来直接批评和改进模型生成的UI,然后将这些前后变化转换为用于微调模型的数据。这种方法来自设计师原生工作流程,而不是简单的点赞/点踩或排名数据。
Q2:新方法训练的模型效果如何?
A:使用设计师原生反馈训练的模型产生的UI设计质量明显高于基础模型和传统方法训练的版本。表现最好的模型Qwen3-Coder甚至超越了GPT-5,而这仅源自设计师的181个草图标注。
Q3:设计师反馈方式的有效性如何?
A:研究发现,当设计师仅在两个选项间排名时,研究人员只有49.2%的时间同意其选择。但当设计师通过草图或直接编辑提供具体反馈时,同意率分别提升至63.6%和76.1%。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.