13本七月在线内部电子书在文末,自取~
公众号福利
回复【100题】领取《名企AI面试100题》PDF
回复【干货资料】领取NLP、CV、ML、大模型等方向干货资料
问题1、召回不准有什么方法提升召回率?
语义检索:使用语义向量空间的检索方式(如ANN、Dense Retrieval)替代传统关键词匹配(BM25)。
预训练模型优化:对召回模型进行微调,让模型更好地适应特定领域。
数据增强:利用同义句生成、数据切分等方式扩大训练集。
问题2、reranker有什么方法?
双塔模型(DSSM/ESM):独立编码查询和文档后计算匹配分数。
交叉编码器:将查询与文档输入同一模型,通过注意力机制捕获更细粒度的相关性(如BERT-based Cross-Encoder)。
问题3、检索器和reranker的得分太相近,不可靠如何解决?
引入多样化信号:
增加reranker模型的复杂性,捕获更多细粒度的语义信息。
将检索器得分作为reranker输入的一部分,通过学习优化。
改进reranker:
对比学习:通过contrastive loss训练reranker,让得分差距更明显。
样本难度加权:对“难以区分”的样本赋予更高权重,强化模型判别能力。
调整评分方式:
将检索器得分和reranker得分联合使用(如线性加权融合)。
对两者得分进行归一化,降低不同分值范围带来的问题。
增加多阶段排序:
在检索与reranker之间增加中间排序阶段,减少初始误差对最终排序的影响。
问题4、怎么解决模型输出有害的问题?
训练数据优化:
数据清洗:剔除有害、不安全的训练样本。
对抗训练:针对潜在有害输出生成对抗样本进行训练
优化模型设计:
引入多任务学习,加入价值观、伦理约束任务。
使用DPO(Direct Preference Optimization)等方法,通过用户偏好直接对输出进行优化。
问题5、决策树有哪些?
分类与回归树(CART):支持分类和回归,使用Gini系数或平方误差作为分裂标准。
ID3算法:基于信息增益进行分裂,适用于分类问题。
C4.5算法:改进自ID3,采用信息增益比避免偏向多值属性。
随机森林:基于多个决策树的集成方法,通过Bagging提升性能。
梯度提升决策树(GBDT):以决策树为基础的集成学习算法,通过Boosting不断优化误差。
问题6、简单说一下GBDT的算法原理
GBDT(Gradient Boosting Decision Tree)通过以下步骤实现:
初始化模型:以数据均值初始化预测值 。
迭代训练:
计算残差:根据上一轮预测值,计算损失函数对目标值的负梯度作为残差。
拟合残差:构建一棵决策树拟合残差。
更新模型:将新树的预测值加权累加到当前模型中。
得到最终模型
问题7、HMM大概是怎么样的
HMM(Hidden Markov Model)是一种用于建模隐变量和观测变量之间关系的概率模型:
基本组成:
隐状态(Hidden States):不可直接观测的状态集合。
观测序列(Observations):由隐状态生成的可观测数据。
转移概率(Transition Probability):隐状态之间的转移概率。
发射概率(Emission Probability):隐状态生成观测数据的概率。
初始概率(Initial Probability):初始状态的分布。
三大问题:
概率计算:给定观测序列,计算其出现的概率。
解码问题:给定观测序列,推测最可能的隐状态序列(Viterbi算法)。
参数估计:学习模型参数(Baum-Welch算法)。
应用场景:
自然语言处理中的词性标注、分词。
生物信息学中的基因序列分析。
↓以下13本书电子版免费领,直接送↓
扫码回复【999】免费领13本电子书
(或找七月在线其他老师领取)
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.