数据挖掘
数据挖掘
本文讨论了数据挖掘的相关知识,包括基础概念、通用概念、细节算法等内容,介绍了多种算法及其原理、应用、局限性等。关键要点包括:
1.
基础概念:数据是原始素材,从数据到知识的过程即数据挖掘。大数据具有大量、高速、多样、低价值密度的特征。数据挖掘能发现数据项关系、进行分类聚类等,应用广泛。
2.
通用型概念:分类是为未知标号数据对象分配标号,实质是预测;聚类是描述性问题,能发现数据模式。
3.
k-均值算法:通过迭代优化代价函数,将对象划分成簇。对初始代表点选择敏感,易陷入局部最优,对噪音点敏感。
4.
Knn算法:定义相似性或距离指标,选择最近的k个数据对象进行分类或回归。需注意k值选择和距离定义,是惰性算法,内存开销大。
5.
朴素贝叶斯算法:基于概率原理,核心是比较不同条件下的概率。处理连续特征有挑战,存在独立性假设的局限。
6.
决策树算法:通过自动化方法构建决策树,应用广泛。信息熵用于衡量数据集纯净度,不同算法有不同的特征选择准则。存在误差累积、泛化能力差等缺点,可通过集成学习改进。
7.
关联规则:用于揭示数据项关系,常用支持度、置信度和提升度等指标衡量。先验原则可加快搜索频繁项集的速度。
一、基础的概念
数据,信息,知识:
“数据是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材。”
数据就是可定量分析的记录,从数据到知识的过程就是数据挖掘。
“信息”广义的概念泛指一切我们可以感知和传播的内容,是包含“数据”的。
学习如何从数据中获得信息,知识,怎么样产生价值
加载失败,