千百汇军品网版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
8、导师学习)-Supervised learning数据的类标志是已知的由训练数据集得到模型,用于新的对象classification非监督的学习(无导师学习)-Unsupervised learning数据的类标志是未知的根据对象之间的距离或相似性进行划分clustering2022/7/29 The Institute of Business Intelligence, HFUT16/100简单例子分类两岁宝宝,给他看几个水果,并告诉他:红的圆的是苹果,橘黄的圆的是橘子 (建立模型)拿一个水果问宝宝:这个水果,红的圆的,是什么?(使用模型)聚类三岁宝宝,给他一堆水果,告诉他:根据颜色分成两堆
11、对象(个体)t和一组类C=C1,Cm。假定t包括一些数值型的属性值:t=t1,t2,tk,每个类也包含数值型属性值:Cj=Cj1,Cj2,Cjk,则分类问题是要分配t到满足如下条件的类Cj:sim(t,Cj)=sim(t,Ci) , Ci C, Ci Cj,其中sim(t,Cj)被称为相似性。在实际的计算中往往用距离来表征,距离越近,相似性越大,距离越远,相似性越小。距离的计算方法有多种,最常用的是通过计算每个类的中心来完成。2022/7/29 The Institute of Business Intelligence, HFUT27/100 基于距离分类算法的一般性描述算法 4-1通过对每
13、确定每个类的分类中心CA,CB,CC;通过计算待分类的样例到每个分类中心的距离就可以找出最相似的类。(a)类定义(b)待分类样例(c)分类结果2022/7/29 The Institute of Business Intelligence, HFUT29/100k-近邻分类算法思想k-近邻分类算法(k Nearest Neighbors,简称kNN)计算新样本与训练样本之间的距离,找到距离最近的K个邻居;根据这些邻居所属的类别来判定新样本的类别,如果属于同一个类别,那么新样本也属于这个类;否则,对每个候选类别进行评分,按照某种规则确定新样本的类别。2022/7/29 The Institute
16、名性别身高(米)类别Kristina女1.6矮Dave 男1.7矮Kathy 女1.6矮Wynette女1.75中等Stephanie 女1.7矮在这五项中,四个属于矮个、一个属于中等。最终kNN方法认为Pat为矮个。2022/7/29 The Institute of Business Intelligence, HFUT33/100K-近邻算法的几个问题确定距离函数 距离函数决定了哪些样本是待分样本的K个最近邻居,它的选择取决于实际的数据和决策问题。如果样本是空间中的点,最常用是欧几里德距离。其它常用的距离函数有:绝对距离、平方差或标准差等。 决定K的取值 邻居的个数对分类的结果有一定的影
17、响,一般先确定一个初始值,再进行调整,直到找到合适的值为止。 综合K个邻居的类别 多数法是最简单一种综合方法。从邻居中选择一个出现频率最高的类别作为最后的结果,如果频率最高的类别不止一个,就选择最近邻居的类别。权重法是较复杂的一种方法,对K个最近邻居设置权重,距离越大,权重就越小。在统计类别时,计算每个类别的权重和,最大的那个就是新样本的类别。 2022/7/29 The Institute of Business Intelligence, HFUT34/100分类分析什么是分类?K-近邻算法分类决策树分类2022/7/29 The Institute of Business Intelli
18、gence, HFUT35/100决策树基本概念 决策树是一种典型的分类方法,将分类器表示成树状结构,然后使用决策树对新数据进行分类。年龄?学生?信誉?买青中老否是优良不买买买不买2022/7/29 The Institute of Business Intelligence, HFUT36/100决策树计数年龄收入学生信誉归类:买计算机?64青高否良不买64青高否优不买128中高否良买60老中否良买64老低是良买64老低是优不买64中低是优买128青中否良不买64青低是良买132老中是良买64青中是优买32中中否优买32中高是良买63老中否优不买1 老中否优买2022/7/29 The In
19、stitute of Business Intelligence, HFUT37/100内部节点:数据集的一个属性分枝:对应属性的一个分割叶子节点:表示一个类年龄?学生?信誉?买青中老否是优良不买买买谁在买计算机?他/她会买计算机吗?类似情况学习602022/7/29 The Institute of Business Intelligence, HFUT38/100决策树不买决策树决策树算法在数据处理过程中,将数据按树状结构分成若干分枝形成决策树,从根到树叶的每条路径创建一个规则。 年龄? 学生?信誉?买青中老否是优良不买不买买买If (年龄中) then 买计算机If (年龄老 and 信
21、nce, HFUT40/100反 例一棵很糟糕的决策树收入?学生?青中否是高低中信誉?良优年龄?不买买买不买 年龄? 学生?信誉?买青中老否是优良不买不买买买2022/7/29 The Institute of Business Intelligence, HFUT41/100决策树算法思想基本算法自上而下分而治之的方法开始时,所有的数据都在根节点根据特定的启发式规则选择某一属性对样本数据递归地进行分割 结束条件内部结点对应的所有样本属于同一类没有属性可以继续分割再继续分割的意义不大2022/7/29 The Institute of Business Intelligence, HFUT42
24、不危险4黑小卷毛不危险5棕中光滑危险6黑大光滑危险7棕小卷毛危险8棕小光滑不危险9棕大卷毛危险10黑中卷毛不危险11黑中光滑不危险12黑小光滑不危险体形2022/7/29 The Institute of Business Intelligence, HFUT44/100 为什么要选择最有分类能力的属性作为决策树当前节点?实例颜色体形毛型类别1黑大卷毛危险2棕大光滑危险3棕中卷毛不危险4黑小卷毛不危险5棕中光滑不危险6黑大光滑危险7棕小卷毛不危险8棕小光滑不危险9棕大卷毛危险10黑中卷毛不危险11黑中光滑不危险12黑小光滑不危险体形大中小危险不危险不危险决策树生成过程2022/7/29 The
25、 Institute of Business Intelligence, HFUT45/100 如何选择最有分类能力的属性作为决策树当前节点? 信息增益、增益指标、GINI指标、实例颜色体形毛型类别1黑大卷毛危险2棕大光滑危险3棕中卷毛不危险4黑小卷毛不危险5棕中光滑危险6黑大光滑危险7棕小卷毛危险8棕小光滑不危险9棕大卷毛危险10黑中卷毛不危险11黑中光滑不危险12黑小光滑不危险决策树生成过程2022/7/29 The Institute of Business Intelligence, HFUT46/100 根据当前决策属性取值不同,将训练样本数据集划分为若干子集。实例序号颜色体形毛型类
26、别1黑大卷毛危险2棕大光滑危险6黑大光滑危险9棕大卷毛危险体形大中小实例序号颜色体形毛型类别3棕中卷毛不危险5棕中光滑危险10黑中卷毛不危险11黑中光滑不危险实例序号颜色体形毛型类别4黑小卷毛不危险7棕小卷毛危险8棕小光滑不危险12黑小光滑不危险决策树生成过程2022/7/29 The Institute of Business Intelligence, HFUT47/100 针对上一步得到每一个子集,重复上述过程,直到子集中所有元组都属于同一类,不能再进一步划分为止。实例序号颜色体形毛型类别3棕中卷毛不危险5棕中光滑危险10黑中卷毛不危险11黑中光滑不危险体形大中小危险?颜色序号颜色体形毛
27、型类别3棕中卷毛不危险5棕中光滑危险序号颜色体形毛型类别10黑中卷毛不危险11黑中光滑不危险棕黑决策树生成过程2022/7/29 The Institute of Business Intelligence, HFUT48/100体形大中小危险颜色?不危险黑?棕实例颜色体形毛型类别4黑小卷毛不危险7棕小卷毛危险8棕小光滑不危险12黑小光滑不危险颜色实例颜色体形毛型类别4黑小卷毛不危险12黑小光滑不危险实例颜色体形毛型类别7棕小卷毛危险8棕小光滑不危险黑棕决策树生成过程2022/7/29 The Institute of Business Intelligence, HFUT49/100体形大中
28、小危险颜色颜色不危险黑?棕不危险?黑棕实例序号颜色体形毛型类别3棕中卷毛不危险5棕中光滑危险毛型实例序号颜色体形毛型类别3棕中卷毛不危险实例序号颜色体形毛型类别5棕中光滑危险卷毛光滑实例序号颜色体形毛型类别7棕小卷毛危险8棕小光滑不危险毛型实例序号颜色体形毛型类别3棕小卷毛危险实例序号颜色体形毛型类别5棕小光滑不危险卷毛光滑决策树生成过程2022/7/29 The Institute of Business Intelligence, HFUT50/100最终生成的决策树体形大中小危险颜色颜色不危险黑毛型棕不危险毛型黑棕不危险危险不危险危险卷毛光滑卷毛光滑决策树生成过程2022/7/29 Th
30、滑危险6黑大光滑危险7棕小卷毛危险8棕小光滑不危险9棕大卷毛危险10黑中卷毛不危险11黑中光滑不危险12黑小光滑不危险2022/7/29 The Institute of Business Intelligence, HFUT54/100决策树分类算法ID3分类算法决策树的每个内部节点对应一个非类别属性每条边对应该属性的每个可能值以信息增益作为选取测试属性的标准,即所选的测试属性是从根到当前节点的路径上尚未被考虑的具有最高信息增益的属性。2022/7/29 The Institute of Business Intelligence, HFUT55/100ID3学习算法熵 度量样例的纯度 (度
32、是由于使用这个属性而导致的熵的降低属性X相对样例集合S的信息增益定义:ID3学习算法2022/7/29 The Institute of Business Intelligence, HFUT58/100决策树建立的关键实例体形类别1大危险2大危险3中不危险4小不危险5中危险6大危险7小危险8小不危险9大危险10中不危险11中不危险12小不危险2022/7/29 The Institute of Business Intelligence, HFUT59/100ID3学习算法根据“体形”取值可分为3个子表,每个表划分为2类,每个子表进行划分的信息熵为:实例序号体形类别1大危险2大危险6大危险9
34、属性(体形),进行分类ID3学习算法2022/7/29 The Institute of Business Intelligence, HFUT63/100对当前的数据表,建立一个节点N。如果数据表中的数据都属于同一类,N就是树叶,在树叶上标上所属的那一类。如果数据表中没有其他属性可以考虑,N也是树叶,按照少数服从多数的原则在树叶上标上所属类别。否则,根据Information Gain值选出一个最佳属性作为节点N的测试属性A。节点属性选定以后,对于该属性的每一个值ai:从N生成一个A=ai的分支, 并将数据表中与该分支有关的数据收集形成分支节点的数据表,在表中删除节点属性那一栏。如果分支数据
51、拟合”问题决策树的过度拟合现象(overfitting)-过学习分支过多完全拟合的决策树对新数据的预测性能较低产生原因训练集存在噪声,为了与训练数据相一致,必然生成一些反映噪声的分支,这些分支不仅会在新的决策问题中导致错误的预测,而且增加了模型的复杂性决策树越小就越容易理解,存储与传输的代价也较小,但结点过少会造成准确度下降,因此需在树的规模与准确度之间权衡2022/7/29 The Institute of Business Intelligence, HFUT85/100避免过度的两种方法 前剪枝提前终止树的生长后剪枝先构造决策树,再删除多余分支2022/7/29 The Institut
52、e of Business Intelligence, HFUT86/100前剪枝(prepruning) 由于决策树学习要从候选集合中选择满足给定标准的最大化属性,并且不回溯,也就是我们常说的爬山策略,其选择往往会是局部最优而不是全局最优。树结构越复杂,则过渡拟合发生的可能性越大。因此,要选择简单的模型。 Occam法则(又称Occam剃刀 Occam Razor):具有相同泛化误差的两个模型,简单的模型比复杂的模型更可取。2022/7/29 The Institute of Business Intelligence, HFUT87/100前剪枝(prepruning) 在生成决策树的过程
53、中,利用某些测试条件,决定是否继续对不纯的训练子集进行划分参数控制法:利用某些参数(结点的大小、树的深度、频率最高的类别样本比例等)限制树的增长分裂阈值法:设定一个分裂阈值,只有分裂后的信息增益不小于该阈值,才保留分支,否则停止分裂2022/7/29 The Institute of Business Intelligence, HFUT88/100后剪枝(postpruning) 生成完全拟合的决策树,自下而上地逐层开始剪枝。如果删除某个结点的子结点后,决策树的准确度(或其它评价指标)并没有(显著)降低,那么就将该结点变为叶结点.2022/7/29 The Institute of Busi
61、样本作为测试集,比较预测的类别和实际的类别是否一致,结果一致的样本在测试集中所占的比例就是模型的准确度两种方法保留法(holdout)交叉验证法(cross validation)保留法常用于最初试验,或多于5000条样本的数据集,交叉法常用于最终的分类器或小规模数据集2022/7/29 The Institute of Business Intelligence, HFUT100/100保留测试法把整个数据集划分为两个不相交的子集,通常训练集占2/3,测试集占1/3速度快,但没有充分利用所有的数据来进行学习,当样本数量比较少时,容易造成过学习数据训练集测试集2022/7/29 The Ins
1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
黑龙江2023年07月黑龙江齐齐哈尔市委办公室选调2024年国家公务员考试考试大纲历年真题上岸笔试历年难、易错点考题附带参考答案与详解
黑龙江2023年07月黑龙江齐齐哈尔市委统战部选调2024年国家公务员考试考试大纲历年真题上岸笔试历年难、易错点考题附带参考答案与详解
黑龙江2023年07月黑龙江齐齐哈尔市营商局选调2024年国家公务员考试考试大纲历年真题上岸笔试历年难、易错点考题附带参考答案与详解
|