绘制FP-tree树的生成过程与KNN算法步骤：海明距离、Jaccard距离和向量夹角余弦

最编程 2024-01-26 18:18:20

...

1.给定如下表所示的一个事务数据库，画出FP-tree树的生成过程。

100 BCDE

200 ACE

300 ABCE

400 CDEF

500 ABCDEF

答：

扫描（出现次数）：

Item	Frequency
A	3
B	3
C	5
D	3
E	5
F	2

设最小支持度：Support_min=3;

F-List降序排序：

CEABD

重写：

TID	Itemset
1	C,E,B,D
2	C,E,A
3	C,E,A,B
4	C,E,D
5	C,E,A,B,D

数据挖掘算法||给定如下表所示的一个事务数据库，画出FP-tree树的生成过程&KNN算法的步骤&海明距离&Jaccard距离&向量的夹角余弦_数据集

2.结合下面的例子给出KNN算法的步骤

如图所示，有两类数据，分别是蓝色方块和红色三角形，现在，我们在图正中间有了一个绿色圆圈，并且需要判断它属于这两类中的哪一类。k的取值不同结果就不一样。

数据挖掘算法||给定如下表所示的一个事务数据库，画出FP-tree树的生成过程&KNN算法的步骤&海明距离&Jaccard距离&向量的夹角余弦_数据集_02

答：

如果K=3，绿色圆点的最近的3个邻居是2个红色小三角形和1个蓝色小正方形，红⾊三⾓形所占⽐例⾼为2/3，判定绿色的这个待分类点属于红色三角形类。

如果K=5，绿色圆点的最近的5个邻居是2个红色三角形和3个蓝色的正方形，蓝⾊⽅块所占⽐例⾼，为3/5，判定绿色的这个待分类点属于蓝色正方形类。

3.计算两两之间的海明距离：000000,110011,010101和011100.

答：

000000,110011的海明距离：4；

000000，010101的海明距离：3；

000000，011100的海明距离：3；

110011，010101的海明距离：3；

110011，011100的海明距离：5；

010101，011100的海明距离：2；

4.计算下列集合对之间的Jaccard距离：

1）{1,2,3,4}和{2,,3,4,5}；

2）{1,2,3}和{4,5,6}.

答：

1）{1,2,3,4}和{2,3,4,5}的交集：{2，3，4}，元素个数为3；

{1,2,3,4}和{2,,3,4,5}的并集：{1，2，3，4，5}，元素个数为5

Jaccard距离3/5；

2）{1,2,3}和{4,5,6}无交集；

{1,2,3}和{4,5,6}的并集：{1，2，3，4，5，6}，元素个数为6；

的Jaccard距离0；

5.计算下列向量的夹角余弦：

（0,1,1,0,1,1)和(0,0,1,0,0,0).

答：

数据挖掘算法||给定如下表所示的一个事务数据库，画出FP-tree树的生成过程&KNN算法的步骤&海明距离&Jaccard距离&向量的夹角余弦_Data_03

6.名词解释

数据集（Dataset）:

定义：一组相关数据的集合，通常用于分析和建模。
示例：一个包含数万个产品销售记录的数据表。

特征（Feature）:

定义：数据集中用来描述每个观测或对象的变量。
示例：一个产品特征可能包括价格、重量、颜色等。

数据清洗（Data Cleaning）:

定义：处理数据集中的错误、不一致性和缺失值的过程。
示例：删除重复记录或填充缺失的数据。

数据集成（Data Integration）:

定义：将来自不同来源的数据集合并为一个的过程。
示例：将来自不同部门的数据整合到一个*数据仓库。

数据规约（Data Reduction）:

定义：在不丧失有用信息的前提下简化数据集的技术。
示例：使用主成分分析（PCA）减少数据的维度。

数据变换（Data Transformation）:

定义：改变数据形式以适应特定分析过程的操作。
示例：对数值特征进行标准化或归一化处理。

数据挖掘算法（Data Mining Algorithms）:

定义：用于从数据集中发现有用模式的计算方法。
示例：使用决策树算法来预测客户流失。

分类（Classification）:

定义：预测对象所属类别的数据挖掘任务。
示例：根据客户的交易历史预测其是否会违约。

聚类（Clustering）:

定义：将数据对象分组，使得同一组内的对象相似度高，而不同组之间的相似度低。
示例：将客户按照购买行为进行分组。

关联规则学习（Association Rule Learning）:

定义：发现数据集中项目之间的关联性或模式。
示例：购物篮分析，发现哪些商品经常一起购买。

回归（Regression）:

定义：预测数值型变量的数据挖掘任务。
示例：预测房价随着时间的变化趋势。

异常检测（Anomaly Detection）:

定义：识别那些与预期行为显著不同的数据点或事件。
示例：检测信用卡交易中的欺诈行为。

推荐系统（Recommender System）:

定义：根据用户的历史行为和偏好，为其推荐产品或服务的系统。
示例：电商网站根据用户的历史购买和浏览行为推荐商品。

知识库（Knowledge Base）:

定义：存储在数据挖掘过程中发现的知识和模式的数据库。
示例：存储了多种商品销售模式的仓库。

元数据（Metadata）:

定义：描述数据的数据，包括数据来源、格式、内容等信息。
示例：数据集中每个特征的描述和定义。

数据仓库（Data Warehouse）:

定义：用于决策支持的大规模、多结构数据集合。
示例：企业用来进行市场分析和业务智能的数据中心。

特征选择（Feature Selection）:

定义：从原始特征集中选择最相关的特征以提高模型性能的过程。
示例：在预测房价时，选择与房价最相关的特征，如地段和面积。

特征提取（Feature Extraction）:

定义：从原始数据中创建新的特征，这些新特征可以更好地表示数据的模式或结构。
示例：使用词嵌入技术将文本数据中的单词转换为密集向量。

监督学习（Supervised Learning）:

定义：训练数据包含输入特征和对应的目标变量，模型通过学习这些对应关系来进行预测。
示例：使用有标签的图像数据训练一个分类模型来识别新的图像内容。

无监督学习（Unsupervised Learning）:

定义：训练数据不包含目标变量，模型需要自行发现数据中的结构和模式。
示例：通过分析客户的消费行为数据来发现不同的客户群体。

半监督学习（Semi-supervised Learning）:

定义：训练数据包含少量有标签数据和大量无标签数据，模型利用这些数据进行学习。
示例：使用少量标记的图像和大量未标记的图像训练一个分类模型。

强化学习（Reinforcement Learning）:

定义：通过与环境的交互获得奖励信号，学习采取最优动作以最大化累积奖励的过程。
示例：训练一个游戏AI，通过游戏中的得分来学习最佳的游戏策略。

深度学习（Deep Learning）:

定义：使用包含多个隐藏层的神经网络模型进行学习，能够自动提取高级特征。
示例：使用深度卷积神经网络进行图像识别或自然语言处理。

交叉验证（Cross Validation）:

定义：将数据集分为训练集和测试集，以评估模型在未知数据上的泛化能力。
示例：采用k折交叉验证来评估模型的稳定性和准确性。

数据预处理（Data Preprocessing）:

定义：在数据分析或建模之前对原始数据进行清理、规范化和转换的过程。
示例：去除文本数据中的停用词，或者对数值数据进行标准化处理。

数据分布（Data Distribution）:

定义：数据在各种特性上的表现形式，包括数据的集中趋势、离散程度等。
示例：通过直方图或箱线图来可视化数据的分布情况。

数据采样（Data Sampling）:

定义：从较大的数据集中随机选择一部分数据进行研究的过程。
示例：采用随机抽样或分层抽样方法来减少数据集的大小，便于分析。

数据可视化（Data Visualization）:

定义：使用图形和图表来呈现数据，帮助人们理解数据的特征和模式。
示例：使用散点图、折线图或柱状图来展示数据分布和关系。

领域知识（Domain Knowledge）:

定义：特定领域的专业信息，对于理解数据和构建有效模型至关重要。
示例：在进行金融数据挖掘时，对金融市场和金融产品的了解。

数据质量（Data Quality）:

定义：数据的准确性、完整性、及时性、一致性和可用性等特征。
示例：通过数据清洗和验证来保证数据的质量，提高分析结果的可靠性。

上一篇： Vue2.0初学者指南：一键搞定数字输入框指令的方法

下一篇：实测迅为RK3568开发板的 Xenomai 实时系统性能

绘制FP-tree树的生成过程与KNN算法步骤：海明距离、Jaccard距离和向量夹角余弦

1.给定如下表 所示的一个事务数据库，画出FP-tree树的生成过程。

2.结合下面的例子给出KNN算法的步骤

3.计算两两之间的海明距离：000000,110011,010101和011100.

4.计算下列集合对之间的Jaccard距离：

5.计算下列向量的夹角余弦：

6.名词解释

绘制FP-tree树的生成过程与KNN算法步骤：海明距离、Jaccard距离和向量夹角余弦

1.给定如下表所示的一个事务数据库，画出FP-tree树的生成过程。