作者:小森(阿里巴巴 大模型算法工程师)
部门与岗位:阿里集团 - 国际数字商业集团 - AI Business - 视觉与多模态
一面
自我介绍和过项目,和以往面试一样,项目和论文都问的非常细节,每一步的做法是什么,为什么要这样做
有了解过 Ovis 模型吗
目前的多模态大模型的视觉特征传递给 LLM 都有哪些方法
讲一下 BLIP 系列的三篇工作,连接视觉编码器和 LLM 的 Adapter 经历了怎样的变化
ViT 的结构是怎么样的,目前 ViT 一般怎么预训练
对于不同形状的图片或视频,位置编码怎么设计
在 ResNet 或者 Transformer 中,残差连接的作用是什么,展开讲讲
代码:Focal Loss
代码:215. 数组中的第K个最大元素
一面整体来说考察的都是一些八股知识,感觉面试官之前是做视觉的,问的问题都比较偏视觉一些,对于 LLM 的考察并不是很多
二面
自我介绍和过项目,也是问的比较细,花了挺长时间的
目前多模态大模型的整体结构是什么样的,都了解哪些多模态大模型
刚刚提到了 BLIP2 和 Qwen-VL,这些模型里的 Learned Queries 有什么用
Qwen-VL 的训练流程是怎样的
讲一下大模型的训练流程,PPO 和 DPO 的主要思想是什么,有什么优缺点
在多模态这边,一般对齐是怎么做的
多模态 RAG 有了解吗
代码:208. 实现 Trie (前缀树)
二面问的比较常规,但是某些点问的比较细,包括项目中的一些点,应该是在考察对于模型的理解。面试官人也挺好的,会做一些提示和补充
三面
自我介绍,挑一个你觉得做的好的工作讲一下,动机、做法、效果
看你用到了 Qwen,说一下 Qwen 的结构是怎么样的
怎么计算模型的参数量和计算量,大致估算一下,比如 Qwen 的 7B 模型,这个 7B 是怎么计算出来的,推理的时候需要多少计算量
为什么大模型设计的参数量都是 7B,13B,72B 这种规格的
开放题:大模型在训练和推理的时候显存不够,有哪些优化方法
三面更加注重大模型的训练和推理这些内容,对于动手能力的考察比较多,没有写代码,整体面试时间也比较短,不到一个小时
总结
总的来说考察还是挺全面的,包括三面也问了很多知识点,感觉应该 hc 比较少,所以大老板也问的比较多,想再筛一些人
@AI行业洞察
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.