一、单项选择题(本大题共 15 小题)
1、根据汤姆·米切尔(Tom Mitchell)对机器学习的定义,一个计算机程序被称为可以学习,是指它能够针对某个任务 T 和某个性能指标 P 从经验 E 中学习,其特点是( )。
① 程序在 T 上的被 P 所衡量的性能会随着经验 E 的增加而提高
② 程序不需要任何数据即可自动提升性能
③ 程序必须通过人工编写规则来更新知识
④ 程序的性能与经验 E 无关
2、在机器学习的三要素中,作为模型学习的“经验来源”的是( ),实现“规律”的具体体现的是( )。
① 模型;数据 ② 学习过程;算法
③ 数据;模型 ④ 算法;数据
3、以下关于监督学习的描述,正确的是( )。
① 训练数据不包含标签,模型自主发现规律
② 训练数据包含输入特征和对应的期望输出(标签)
③ 监督学习只能用于分类任务,不能用于回归任务
④ 监督学习不需要划分训练集和测试集
4、在回归任务中,因变量的特征是( );在分类任务中,因变量的特征是( )。
① 连续的数值;离散的类别标签
② 离散的类别标签;连续的数值
③ 文本字符串;数值
④ 无序的集合;有序序列
5、线性回归模型的基本形式为 y = ax + b,其核心用途是( )。
① 预测离散类别
② 预测连续数值(如房价、温度)
③ 将数据划分为多个簇
④ 降低数据维度
6、关于 K 近邻(KNN)算法的描述,错误的是( )。
① KNN 算法通过计算待分类样本与训练样本之间的距离来寻找最近邻
② KNN 算法的预测结果受 K 值选择的影响
③ KNN 算法在预测阶段通常需要计算待预测样本与训练样本之间的距离,计算成本较高
④ KNN 算法的预测结果与距离度量和特征尺度无关
7、在常见分类决策树算法中,选择分类分裂特征时常用的衡量标准不包括( )。
① 信息增益 ② 基尼指数
③ 均方误差 ④ 信息增益比
8、以下关于无监督学习的说法,正确的是( )。
① 无监督学习的训练数据包含标签,需要人工标注
② 聚类和降维是无监督学习的典型任务
③ 无监督学习的目标是预测未知样本的类别标签
④ 无监督学习无法处理未标注数据
9、降维(Dimensionality Reduction)的核心用途是( )。
① 将相似样本归为同一簇
② 减少特征数量,同时尽可能保留数据关键信息,用于可视化和简化计算
③ 预测连续数值
④ 实现二分类
10、K-means 聚类算法中,簇中心更新的方式是( )。
① 随机选择新的中心点
② 计算簇内所有样本的均值作为新中心
③ 选择簇内距离其他点最近的点作为新中心
④ 保持初始中心不变
11、在模型评估中,用于衡量回归模型预测误差的常用指标是( )。
① 准确率(Accuracy) ② 精确率(Precision)
③ 均方误差(MSE) ④ F1 分数
12、在二分类问题的混淆矩阵中,真正例(TP)表示( ),假正例(FP)表示( )。
① 正类样本被正确预测为正类;负类样本被错误预测为正类
② 负类样本被正确预测为负类;正类样本被错误预测为负类
③ 正类样本被错误预测为负类;负类样本被正确预测为负类
④ 负类样本被错误预测为正类;正类样本被正确预测为正类
13、以下关于过拟合和欠拟合的说法,正确的是( )。
① 过拟合是指模型在训练集上表现差,在测试集上也差
② 欠拟合是指模型在训练集上表现好,但在测试集上表现差
③ 过拟合通常是由于模型过于复杂,学习了数据中的噪声
④ 增加训练数据一定可以缓解欠拟合
14、当需要分析“用户购买行为特征并将用户自动分群”时,应优先选择( );当需要预测“明天股票收盘价”时,应优先选择( )。
① 聚类算法;回归算法
② 分类算法;降维算法
③ 回归算法;聚类算法
④ 分类算法;回归算法
15、精确率(Precision)的计算公式是( ),召回率(Recall)的计算公式是( )。
① TP/(TP+FP);TP/(TP+FN)
② TP/(TP+FN);TP/(TP+FP)
③ (TP+TN)/(TP+TN+FP+FN);TP/(TP+FP)
④ TP/(TP+FP);(TP+TN)/(TP+TN+FP+FN)
二、判断题(本大题共 5 小题)
1、监督学习可以分为回归和分类两大类任务,其中回归任务的输出是连续值,分类任务的输出是离散类别。( )
2、KNN 算法不需要显式的训练过程,属于“懒惰学习”算法。( )
3、K-means 聚类算法需要预先指定聚类数量 K,且对初始簇中心的选择不敏感。( )
4、在回归任务中,决定系数 R² 的取值范围一定是 [0,1],越接近 1 通常表示模型拟合效果越好。( )
5、为了评估模型的泛化能力,通常将数据集划分为训练集和测试集,且测试集应参与模型训练过程。( )
三、编程填空题(本大题共 5 小题)
1、补全以下代码,使用单变量线性回归预测房价。已知房屋面积(平方米)与价格(万元)的数据,请训练线性回归模型并预测面积为 85 平方米的房价。
2、补全以下代码,使用 KNN 算法对鸢尾花数据集进行分类,并计算准确率。
3、补全以下代码,使用 K-means 算法对生成的二维数据进行聚类,并输出聚类中心。
4、补全以下代码,使用交叉验证评估线性回归模型的性能。
5、补全以下代码,对特征进行标准化后训练线性回归模型,并输出模型的系数。
“点赞有美意,赞赏是鼓励”
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.