考试马上就要来了,为了做好考前的备考准备,下面由出国留学网小编为你精心准备了“2020中级经济师经济基础备考知识点:数据挖掘”,持续关注本站将可以持续获取更多的考试资讯!
2020中级经济师经济基础备考知识点:数据挖掘
数据挖掘
数据挖掘的相关概念如下:
1.含义:从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐藏在其中但又有潜在价值的信息和知识的过程。包含以下几层含义:
(1)数据源必须是真实的、大量的、有噪声的。
(2)发现的是用户感兴趣的知识。
(3)发现的知识是可接受的、可理解、可运用的。
(4)并不要求发现放之四海而皆准的知识,只支持特定的发现问题。
2.出发点和核心任务:数据挖掘以解决实际问题为出发点;核心任务是对数据关系和特征进行探索。
3.类型
(1)指导学习或监督学习
监督学习是对目标需求的概念进行学习和建模,通过探索数据和建立模型来实现从观察变量到目标需求的有效解释。
(2)无指导学习或非监督学习
无监督学习没有明确的标识变量来表达目标概念,主要任务是探索数据之间的内在联系和结构。
4.常用的算法
(1)分类
1)含义:确定目标对象属于哪个预定类别,以实现对未来潜在的预测需求。分类技术属于一种监督学习,即使用已知类别的训练数据建立分类模型的方法。
2)实际应用:在邮件系统中区分出垃圾邮件,在贷款客户中判断出有风险客户等。
3)常用方法:决策树分类法、贝叶斯分类法、关联分类法、支持向量机、神经网络等。
(2)聚类分析
1)含义:把一组数据按照差异性和相似性分为几个类别,使得同类的数据相似性尽量大,不同类的数据相似性尽可能小,跨类的数据关联性尽可能低。聚类是一种无监督学习。其要划分的类是未知的,聚类分析是根据观察学习来确定数据之间的关系。
2)实际应用:用于客户细分、文本归类、结构分组、行为跟踪等问题。
3)常用方法:基于划分的方法、基于分层的方法、基于密度的方法、基于网格的方法和基于模型的方法。
(3)关联分析
1)含义:是对数据集中反复出现的相关关系和关联性进行挖掘提取,从而可以根据一个数据项的出现预测其他数据项的出现。
2)实际应用:啤酒尿布案例,数据挖掘发现大型超市中购买啤酒的男士经常同时购买小孩纸尿裤,基于这一发现,超市把啤酒和纸尿裤摆放在一起,结果两种商品的销售量明显提升。
3)常用方法:购物篮分析,目的是发现交易数据中不同商品之间的联系规则,让营销商制定更好的营销策略。
(4)趋势与演化分析
趋势与演化分析包括数据变化趋势、序列模式分析、周期性分析以及相似程度分析等内容。统计学的回归分析方法经常用于这类问题的分析。
推荐阅读: