绘制FP-tree树的生成过程与KNN算法步骤:海明距离、Jaccard距离和向量夹角余弦
1.给定如下表 所示的一个事务数据库,画出FP-tree树的生成过程。
100 BCDE
200 ACE
300 ABCE
400 CDEF
500 ABCDEF
答:
扫描(出现次数):
Item |
Frequency |
A |
3 |
B |
3 |
C |
5 |
D |
3 |
E |
5 |
F |
2 |
设最小支持度:Supportmin=3;
F-List降序排序:
CEABD
重写:
TID |
Itemset |
1 |
C,E,B,D |
2 |
C,E,A |
3 |
C,E,A,B |
4 |
C,E,D |
5 |
C,E,A,B,D |
2.结合下面的例子给出KNN算法的步骤
如图所示,有两类数据,分别是蓝色方块和红色三角形,现在,我们在图正中间有了一个绿色圆圈,并且需要判断它属于这两类中的哪一类。k的取值不同结果就不一样。
答:
如果K=3,绿色圆点的最近的3个邻居是2个红色小三角形和1个蓝色小正方形,红⾊三⾓形所占⽐例⾼为2/3,判定绿色的这个待分类点属于红色三角形类。
如果K=5,绿色圆点的最近的5个邻居是2个红色三角形和3个蓝色的正方形,蓝⾊⽅块所占⽐例⾼,为3/5,判定绿色的这个待分类点属于蓝色正方形类。
3.计算两两之间的海明距离:000000,110011,010101和011100.
答:
000000,110011的海明距离:4;
000000,010101的海明距离:3;
000000,011100的海明距离:3;
110011,010101的海明距离:3;
110011,011100的海明距离:5;
010101,011100的海明距离:2;
4.计算下列集合对之间的Jaccard距离:
1){1,2,3,4}和{2,,3,4,5};
2){1,2,3}和{4,5,6}.
答:
1){1,2,3,4}和{2,3,4,5}的交集:{2,3,4},元素个数为3;
{1,2,3,4}和{2,,3,4,5}的并集:{1,2,3,4,5},元素个数为5
Jaccard距离3/5;
2){1,2,3}和{4,5,6}无交集;
{1,2,3}和{4,5,6}的并集:{1,2,3,4,5,6},元素个数为6;
的Jaccard距离0;
5.计算下列向量的夹角余弦:
(0,1,1,0,1,1)和(0,0,1,0,0,0).
答:
6.名词解释
- 数据集(Dataset):
- 定义:一组相关数据的集合,通常用于分析和建模。
- 示例:一个包含数万个产品销售记录的数据表。
- 特征(Feature):
- 定义:数据集中用来描述每个观测或对象的变量。
- 示例:一个产品特征可能包括价格、重量、颜色等。
- 数据清洗(Data Cleaning):
- 定义:处理数据集中的错误、不一致性和缺失值的过程。
- 示例:删除重复记录或填充缺失的数据。
- 数据集成(Data Integration):
- 定义:将来自不同来源的数据集合并为一个的过程。
- 示例:将来自不同部门的数据整合到一个*数据仓库。
- 数据规约(Data Reduction):
- 定义:在不丧失有用信息的前提下简化数据集的技术。
- 示例:使用主成分分析(PCA)减少数据的维度。
- 数据变换(Data Transformation):
- 定义:改变数据形式以适应特定分析过程的操作。
- 示例:对数值特征进行标准化或归一化处理。
- 数据挖掘算法(Data Mining Algorithms):
- 定义:用于从数据集中发现有用模式的计算方法。
- 示例:使用决策树算法来预测客户流失。
- 分类(Classification):
- 定义:预测对象所属类别的数据挖掘任务。
- 示例:根据客户的交易历史预测其是否会违约。
- 聚类(Clustering):
- 定义:将数据对象分组,使得同一组内的对象相似度高,而不同组之间的相似度低。
- 示例:将客户按照购买行为进行分组。
- 关联规则学习(Association Rule Learning):
- 定义:发现数据集中项目之间的关联性或模式。
- 示例:购物篮分析,发现哪些商品经常一起购买。
- 回归(Regression):
- 定义:预测数值型变量的数据挖掘任务。
- 示例:预测房价随着时间的变化趋势。
- 异常检测(Anomaly Detection):
- 定义:识别那些与预期行为显著不同的数据点或事件。
- 示例:检测信用卡交易中的欺诈行为。
- 推荐系统(Recommender System):
- 定义:根据用户的历史行为和偏好,为其推荐产品或服务的系统。
- 示例:电商网站根据用户的历史购买和浏览行为推荐商品。
- 知识库(Knowledge Base):
- 定义:存储在数据挖掘过程中发现的知识和模式的数据库。
- 示例:存储了多种商品销售模式的仓库。
- 元数据(Metadata):
- 定义:描述数据的数据,包括数据来源、格式、内容等信息。
- 示例:数据集中每个特征的描述和定义。
- 数据仓库(Data Warehouse):
- 定义:用于决策支持的大规模、多结构数据集合。
- 示例:企业用来进行市场分析和业务智能的数据中心。
- 特征选择(Feature Selection):
- 定义:从原始特征集中选择最相关的特征以提高模型性能的过程。
- 示例:在预测房价时,选择与房价最相关的特征,如地段和面积。
- 特征提取(Feature Extraction):
- 定义:从原始数据中创建新的特征,这些新特征可以更好地表示数据的模式或结构。
- 示例:使用词嵌入技术将文本数据中的单词转换为密集向量。
- 监督学习(Supervised Learning):
- 定义:训练数据包含输入特征和对应的目标变量,模型通过学习这些对应关系来进行预测。
- 示例:使用有标签的图像数据训练一个分类模型来识别新的图像内容。
- 无监督学习(Unsupervised Learning):
- 定义:训练数据不包含目标变量,模型需要自行发现数据中的结构和模式。
- 示例:通过分析客户的消费行为数据来发现不同的客户群体。
- 半监督学习(Semi-supervised Learning):
- 定义:训练数据包含少量有标签数据和大量无标签数据,模型利用这些数据进行学习。
- 示例:使用少量标记的图像和大量未标记的图像训练一个分类模型。
- 强化学习(Reinforcement Learning):
- 定义:通过与环境的交互获得奖励信号,学习采取最优动作以最大化累积奖励的过程。
- 示例:训练一个游戏AI,通过游戏中的得分来学习最佳的游戏策略。
- 深度学习(Deep Learning):
- 定义:使用包含多个隐藏层的神经网络模型进行学习,能够自动提取高级特征。
- 示例:使用深度卷积神经网络进行图像识别或自然语言处理。
- 交叉验证(Cross Validation):
- 定义:将数据集分为训练集和测试集,以评估模型在未知数据上的泛化能力。
- 示例:采用k折交叉验证来评估模型的稳定性和准确性。
- 数据预处理(Data Preprocessing):
- 定义:在数据分析或建模之前对原始数据进行清理、规范化和转换的过程。
- 示例:去除文本数据中的停用词,或者对数值数据进行标准化处理。
- 数据分布(Data Distribution):
- 定义:数据在各种特性上的表现形式,包括数据的集中趋势、离散程度等。
- 示例:通过直方图或箱线图来可视化数据的分布情况。
- 数据采样(Data Sampling):
- 定义:从较大的数据集中随机选择一部分数据进行研究的过程。
- 示例:采用随机抽样或分层抽样方法来减少数据集的大小,便于分析。
- 数据可视化(Data Visualization):
- 定义:使用图形和图表来呈现数据,帮助人们理解数据的特征和模式。
- 示例:使用散点图、折线图或柱状图来展示数据分布和关系。
- 领域知识(Domain Knowledge):
- 定义:特定领域的专业信息,对于理解数据和构建有效模型至关重要。
- 示例:在进行金融数据挖掘时,对金融市场和金融产品的了解。
- 数据质量(Data Quality):
- 定义:数据的准确性、完整性、及时性、一致性和可用性等特征。
- 示例:通过数据清洗和验证来保证数据的质量,提高分析结果的可靠性。