signed

QiShunwang

“诚信为本、客户至上”

机器学习复习

2021/6/24 20:05:50   来源:

机器学习就是让机器通过学习数据来获得某种知识,从而获得解决问题的能力。

1.数据集
数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。

2.特征(属性)
通过对样本数据的汇总,提取出对象或者事件在某方面的表现或性质的事项,提取出的这些表现或者事项我们称之为特征(feature)或者属性(attribute)。

3.训练集和测试集
将整个数据集分为训练集和测试集两个集合,训练集中的数据是用来在训练模型的过程中所使用的,通过对训练集中的数据对的某种潜在的规律而学得的模型,这一过程称之为“假设”。在这个过程中,就是对这个“假设”的一个验证过程,验证“假设”的真实度的一个过程,在这样一个反复的寻找的过程中找出或逼近真相。往往我们对训练集中的选择,只占据样本空间一个很小部分。测试集则是将训练集训练出来的模型,进行测试验证的一个过程,这个被用来测试的数据集我们称之为“测试集”。
(验证集用来验证模型的有效性,训练集用来训练模型,测试集用来对模型进行预测)
数据集的分类
4.有监督式学习、无监督学习、半监督学习、强化学习
有监督学习:是指训练的数据是有标签的,算法依据标签和预测之间的差异对模型进行修正的学习过程。
无监督学习:训练的数据没有标签,自动从训练数据中学习,建立模型
半监督学习:半监督学习使用的数据,一部分是标记过的,而大部分是没有标记的
强化学习:强化学习与半监督学习类似,均使用未标记的数据,但是强化学习通过算法学习是否距离目标越来越近
区别:
(1)监督学习有反馈,无监督学习无反馈,强化学习是执行多步之后才反馈。
(2)强化学习的目标与监督学习的目标不一样,即强化学习看重的是行为序列下的长期收益,而监督学习往往关注的是和标签或已知输出的误差。
(3)强化学习的奖惩概念是没有正确或错误之分的,而监督学习标签就是正确的,并且强化学习是一个学习+决策的过程,有和环境交互的能力(交互的结果以惩罚的形式返回),而监督学习不具备。

5.过拟合、欠拟合
过拟合:在训练集上表现很好,而在测试集上表现很差。
产生原因:模型过于复杂,以至于学习太过了,把噪声的特征也学习进去了
解决方法:正则化、数据增强、Dropout和训练提前停止等

欠拟合:欠拟合指的是模型在训练和预测时表现都不好的情况
欠拟合产生的原因:特征维度过少,导致拟合的函数无法满足训练集,误差较大
解决方法:增加模型复杂度,增加训练样本,提取更多特征