你好毒番外机器学习是计算机从数据中学习出规律和模式,以应用在新数据上做预测的任务。
机器学习研究的是计算机怎样模拟人类的学习行为,以获得新的知识或技能,并重新组织已有的知识结构使之不断改善自身。
过拟合是模型过于精确地匹配特定数据集,以至于无法良好拟合其他数据或预测未来观察结果。
数据集增强主要是为了减少网络的过拟合现象,通过对训练图片进行变换可以得到泛化能力更强的网络,更好的适应应用场景。
正规化是给误差函数增加一个惩罚项,使得系数不会达到很大的值,从而平衡模型的复杂和灵活性,同时控制过拟合。
留出法直接将数据集 划分为两个互斥的集合,分别为训练集 和测试集 。在 上训练出模型后,用 来评估其测试误差。
自助法也被称为有放回采样。给定包含 个样本的数据集 ,我们对它进行采样产生数据集 ′:每次随机从D中挑选一个样本,将其拷贝放入,这就是自助采样的结果。
主成分分析通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。
对于一个多分类问题,想要把他们映射到一个低维空间从而达到降维的目的,我们希望映射之后的数据,同类数据点(within-class)的尽可能接近,异类样例(between-class)尽可能远离。
信息熵是度量样本集合“纯度”最常用的一种指标,假定当前样本集合D中第k类样本所占比例为pk,则D的信息熵定义为:
误差反向传播算法是基于梯度下降(Gradient Descent)策略,迭代更新方法。
支持向量机是一种监督学习二分类模型,它的目的是寻找一个超平面来对样本进行分割,分割的原则是间隔最大化,最终转化为一个凸二次规划问题来求解。
对于训练集中的每个样本建立权值 wi, 表示对每个样本的关注度。 当某个样本被误分类的概率很高时, 需要加大对该样本的权值。 进行迭代的过程中, 每一步迭代都是一个弱分类器。 我们需要用某种策略将其组合作为最终模型。
|