当前位置：首页> 大数据复习提纲

大数据复习提纲

时间：2020-09-07 19:43:19 下载该word文档

1、线性判别函数的正负和数值大小的几何意义

正（负）表示样本点位于判别界面法向量指向的正（负）半空间中；绝对值正比于样本点到判别界面的距离。

2、感知器算法特点

收敛性：经过算法的有限次迭代运算后，求出了一个使所有样本都能正确分类的W，则称算法是收敛的。感知器算法是在模式类别线性可分条件下才是收敛的。

感知器算法只对线性可分样本有收敛的解，对非线性可分样本集会造成训练过程的震荡，这也是它的缺点。

3、聂曼-皮尔逊判决准则、最小最大判决准则等区别

聂曼-皮尔逊判决准则主要用于某一种判决错误较另一种判决错误更为重要情况；

最小最大判别准则主要用于先验概率未知的情况。

4、马式距离较之于欧式距离的优点

优点：马氏距离不受量纲的影响，两点之间的马氏距离与原始数据的测量单位无关。由标准化数据和中心化数据(即原始数据与均值之差）计算出的二点之间的马氏距离相同。马氏距离还可以排除变量之间的相关性的干扰。缺点：夸大了变化微小的变量的作用。受协方差矩阵不稳定的影响，马氏距离并不总是能顺利计算出。尺度不变性；考虑了模式的分布

5、关联规则的经典算法有哪些

Apriori 算法；FP-tree；基于划分的算法

Apriori算法、GRI算法、Carma

6、分类的过程或步骤

答案一：ppt上的

1、模型构建（归纳）

通过对训练集合的归纳，建立分类模型。

2、预测应用（推论）

根据建立的分类模型，对测试集合进行测试。

答案二：老师版本的

训练样本的收集训练集的预处理、模型的选择、模型的训练（问老师后理解整理）

7、分类评价标准

1）正确率（accuracy）就是被分对的样本数除以所有的样本数，通常来说，正确率越高，分类器越好；

2）错误率（error rate)

错误率则与正确率相反，描述被分类器错分的比例，error rate = (FP+FN)/(P+N)，对某一个实例来说，分对与分错是互斥事件，所以 accuracy =1 - error rate；

3）灵敏度（sensitive）

sensitive = TP/P，表示的是所有正例中被分对的比例，衡量了分类器对正例的识别能力；

4）特效度（specificity)

specificity = TN/N，表示的是所有负例中被分对的比例，衡量了分类器对负例的识别能力；

5）精度（precision）

精度是精确性的度量，表示被分为正例的示例中实际为正例的比例， precision=TP/（TP+FP）；

6）召回率（recall）

召回率是覆盖面的度量，度量有多个正例被分为正例， recall=TP/(TP+FN)=TP/P= sensitive，可以看到召回率与灵敏度是一样的。

正确率：它表示的预测结果正确比例。包括正例和负例。

精确度：它表示的是预测是正例的结果中，实际为正例的比例。

召回率：它表示的是实际为正例样本中，预测也为正例的比例。

综合指标：F1=2*精确率*召回率/精确率+召回率，它实际上精确度和召回率的一个综合指标。

8、支持向量机及常见的核函数选择

SVM的目的是寻找泛化能力好的决策函数，即由有限样本量的训练样本所得的决策函数，在对独立的测试样本做预测分类时，任然保证较小的误差。

本质：求解凸二次优化问题，能够保证所找到的极值解就是全局最优解。

支持向量机的标准：使两类样本到分类面的最短距离之和尽可能大

支持向量机基本思想：通过训练误差和类间宽度之间的权衡，得到一个最优超平面

支持向量机是利用分类间隔的思想进行训练的，它依赖于对数据的预处理,即在更高维的空间表达原始模式。通过适当的到一个足够高维的非线性映射，分别属于两类的原始数据就能够被一个超平面来分隔。

支持向量机的基本思想可以概括为：首先通过非线性变换将输入空间变换到一个高维空间，然后在这个新空间中求取最优线性分类面，而这种非线性变换是通过定义适当的内积函数来实现的。支持向量机求得的分类函数形式上类似于一个神经网络，其输出是若干中间层节点的线性组合，而每一个中间层节点对应于输入样本与一个支持向量的内积，因此也被叫做支持向量网络。

9、什么是数据样本、什么是机器学习

样本：研究中实际观测或调查的一个个体叫样本

机器学习：机器学习通过从数据里提取规则或模式来把数据转换成信息。经典定义：利用经验改善系统自身的性能，随着该领域的发展，主要做智能数据分析。

机器学习：利用经验改善系统自身的性能随着该领域的发展，主要做智能数据分析

10、机器学习的一般步骤

1、问题识别、数据理解：明确系统与组织之间的关键问题，分析数据的价值和质量

2、数据准备、数据预处理：将数据汇集在一起，形成数据挖掘库或数据集市

3、模型选择：通过分析，选择几个合适的模型

4、训练模型：使用机器学习算法或统计方法对大量的数据进行建模分析，从而获得对系统最适合的模型

5、模型测试：将真实数据带入模型，进行运算

6、模型验证：模型评价包含两个方面：功能性评价，和服务性评价

11. 样本属性的主要类型

属性有四种类型：

1、连续性属性

2、二值离散型

3、多值离散型

4、混合类型

12．信息增益

信息增益是特征选择中的一个重要指标，来衡量一个属性区分以上数据样本的能力,它定义为一个特征能够为分类系统带来多少信息，带来的信息越多，该特征越重要。信息增益量越大，这个属性作为一棵树的根节点就能使这棵树更简洁. 信息增益就是前后信息的差值，在决策树分类问题中，即就是决策树在进行属性选择划分前和划分后的信息差值。

信息增益 = 先验熵（信息熵）-条件熵（表示信息消除随机不确定性的程度）

13．核函数SVM的判别方程

14. Adaboost的判别函数

16.聚类分析有哪些主要距离度量方法

欧氏距离（Euclidean distance）:

曼哈顿距离（Manhattan distance）:

闵可夫斯基距离（Minkowski distance:

17、频繁项集

频繁项集：有一系列集合，这些集合有些相同的元素，集合中同时出现频率高的元素形成一个子集，满足一定阈值条件，就是频繁项集。频繁项集：在所有训练元组中同时出现的次数超过人工定义的阈值的项集称为频繁项集。

18、支持度

项目集 X 的支持度 support (X) 是 D 中事务包含 X 的百分比，它是概率P (X)：

support (X) = P (X) = (包含 X 的事务数 / D 的事务总数)×100%

若 support(X) 不小于指定的最小支持度，则称 X 为频繁项目集(简称频集)，否则称 X 为非频繁项目集(简称非频集) 。

支持度：项集同时出现的次数

19.可信度

XY 对事务集 D 的置信度 (confidence)

定义为 D 中包含有 X 的事务数与同时包含 Y 的百分比。这是条件概率 P(Y | X) 即：

confidence (XY) = P(Y | X)= (包含 X 和Y的事务数/包含X的事务数)×100%

20关联规则

关联规则是形如“XY”的蕴涵式，其中 X⊂I，Y⊂I，并且 X∩Y = ，X 称为规则的条件，Y 称为规则的结果。在不知道关联函数或关联函数不确定的情况下，为了反映所发现规则的有用性和确定性，关联分析生成的规则都要满足最小支持度阀值和最小置信度阀值。

21 什么是贝叶斯网络及作用

贝叶斯网络是描述随机变量（事件）之间依赖关系的一种图形模式，是一种可用来进行推理的模型。贝叶斯网络通过有向图的形式来表示随机变量间的因果关系，并通过条件概率将这种因果关系量化。一个贝叶斯网络由网络结构和条件概率表两部分组成。

作用：贝叶斯网络的预测、诊断和训练、、、因果预测、原因诊断、解释远离

22、决策树算法及步骤

1 生成一颗空决策树和一张训练样本属性集;

2 若训练样本集T 中所有的样本都属于同一类,

则生成结点T , 并终止学习算法;否则

3 根据某种策略从训练样本属性表中选择属性

A 作为测试属性, 生成测试结点A

4 若A的取值为v1,v2,…,vm, 则根据A 的取值的

不同,将T 划分成 m个子集T1,T2,…,Tm;

5 从训练样本属性表中删除属性A;

6 转步骤2, 对每个子集递归调用CLS;

23、ID3算法及步骤

1 决定分类属性；

2 对目前的数据表，建立一个节点N

3 如果数据库中的数据都属于同一个类，N就是树叶，在树叶上标出所属的类

4 如果数据表中没有其他属性可以考虑，则N也是树叶，按照少数服从多数的原则在树叶上标出所属类别

5 否则，根据平均信息期望值E或GAIN值选出一个最佳属性作为节点N的测试属性

6 节点属性选定后，对于该属性中的每个值：

从N生成一个分支，并将数据表中与该分支有关的数据收集形成分支节点的数据表，在表中删除节点属性那一栏如果分支数据表非空，则运用以上算法从该节点建立子树。

24、bp网络的优缺点

BP神经网络具有以下优点：

1) 非线性映射能力：BP神经网络实质上实现了一个从输入到输出的映射功能，数学理论证明三层的神经网络就能够以任意精度逼近任何非线性连续函数。这使得其特别适合于求解内部机制复杂的问题，即BP神经网络具有较强的非线性映射能力。

2) 自学习和自适应能力：BP神经网络在训练时，能够通过学习自动提取输出、输出数据间的“合理规则”，并自适应的将学习内容记忆于网络的权值中。即BP神经网络具有高度自学习和自适应的能力。

3) 泛化能力：所谓泛化能力是指在设计模式分类器时，即要考虑网络在保证对所需分类对象进行正确分类，还要关心网络在经过训练后，能否对未见过的模式或有噪声污染的模式，进行正确的分类。也即BP神经网络具有将学习成果应用于新知识的能力。

4) 容错能力：BP神经网络在其局部的或者部分的神经元受到破坏后对全局的训练结果不会造成很大的影响，也就是说即使系统在受到局部损伤时还是可以正常工作的。即BP神经网络具有一定的容错能力。

BP神经网络也暴露出了越来越多的缺点和不足，比如：

1) 局部极小化问题：从数学角度看，传统的BP神经网络为一种局部搜索的优化方法，它要解决的是一个复杂非线性化问题，网络的权值是通过沿局部改善的方向逐渐进行调整的，这样会使算法陷入局部极值，权值收敛到局部极小点，从而导致网络训练失败。加上BP神经网络对初始网络权重非常敏感，以不同的权重初始化网络，其往往会收敛于不同的局部极小，这也是很多学者每次训练得到不同结果的根本原因。

2) BP 神经网络算法的收敛速度慢：由于BP神经网络算法本质上为梯度下降法，它所要优化的目标函数是非常复杂的，因此，必然会出现“锯齿形现象”，这使得BP算法低效；又由于优化的目标函数很复杂，它必然会在神经元输出接近0或1的情况下，出现一些平坦区，在这些区域内，权值误差改变很小，使训练过程几乎停顿；BP神经网络模型中，为了使网络执行BP算法，不能使用传统的一维搜索法求每次迭代的步长，而必须把步长的更新规则预先赋予网络，这种方法也会引起算法低效。以上种种，导致了BP神经网络算法收敛速度慢的现象。

3) BP 神经网络结构选择不一：BP神经网络结构的选择至今尚无一种统一而完整的理论指导，一般只能由经验选定。网络结构选择过大，训练中效率不高，可能出现过拟合现象，造成网络性能低，容错性下降，若选择过小，则又会造成网络可能不收敛。而网络的结构直接影响网络的逼近能力及推广性质。因此，应用中如何选择合适的网络结构是一个重要的问题。

4) 应用实例与网络规模的矛盾问题：BP神经网络难以解决应用问题的实例规模和网络规模间的矛盾问题，其涉及到网络容量的可能性与可行性的关系问题，即学习复杂性问题。

5) BP神经网络预测能力和训练能力的矛盾问题：预测能力也称泛化能力或者推广能力，而训练能力也称逼近能力或者学习能力。一般情况下，训练能力差时，预测能力也差，并且定程度上，随着训练能力地提高，预测能力会得到提高。但这种趋势不是固定的，其有一个极限，当达到此极限时，随着训练能力的提高，预测能力反而会下降，也即出现所谓“过拟合”现象。出现该现象的原因是网络学习了过多的样本细节导致，学习出的模型已不能反映样本内含的规律，所以如何把握好学习的度，解决网络预测能力和训练能力间矛盾问题也是BP神经网络的重要研究内容。

6）BP神经网络样本依赖性问题：网络模型的逼近和推广能力与学习样本的典型性密切相关，而从问题中选取典型样本实例组成训练集是一个很困难的问题。

25、什么是过拟合，怎么解决过拟合

过拟合问题是指过于完美拟合了训练集数据，而对新的样本失去了一般性，不能有效预测新样本，训练误差特别小，实际误差特别大。泛化能力极差。造成过拟合的原因可能是特征量太多或者模型函数过于复杂。

解决方法：主要通过1、模型简化2.减少特征数量.3、衰减，4、交叉验证5、减少特征6、正则化

26、衡量模式识别与机器学习算法优劣的标准

时间复杂性、空间复杂性、可读性、一致性、泛化能力、健壮性、精度、

①时间复杂度：同样输入规模（问题规模）花费多少时间

②空间复杂度：同样输入规模花费多少空间（主要内存）

上两点越小越好

③稳定性：会因输入同而导致稳定情况发生

④算法思路否简单：越简单越容易实现越好

空间复杂度：指执行这个算法所需要的内存空间

时间复杂度：指执行算法所需要的计算工作量

可读性：指一个算法可供人们阅读的容易程度。

泛化能力：指机器学习算法对新鲜样本的适应能力。

健壮性：指一个算法对不合理数据输入的反应能力和处理能力，也成为容错性。

27、什么是有监督学习、什么无监督学习

监督学习方法用来对数据实现分类，分类规则通过训练获得。该训练集由带分类号的数据集组成，因此监督学习方法的训练过程是离线的。

　　非监督学习方法不需要单独的离线训练过程，也没有带分类号（标号）的训练数据集，一般用来对数据集进行分析，如聚类，确定其分布的主分量等。

　　有监督学习就是分类，通过已有的训练样本去训练得到一个最优模型，然后利用这个最优模型将所有输入映射为相应的输出，对于输出进行判断实现分类，这就对未知数据进行了分类。监督学习中的典型例子是KNN和SVM。

无监督学习与监督学习的不同之处，主要是它没有训练样本，而是直接对数据进行建模。典型案例就是聚类了，其目的是把相似的东西聚在一起，而不关心这一类是什么。聚类算法通常只需要知道如何计算相似度就可以了，它可能不具有实际意义。

28、什么是Fisher判别准则、感知准则、支持向量机感知准则的异同

相同点：都是用来进行线性判别的，感知器和向量机要求样本线性可分，支持向量机解决非线性问题也是将非线性转化为线性，本质上还是线性判别。

不同点：Fisher是将样本投射到一维使类间样本尽量分开

感知器和支持向量机是将低维转化为高维再将高维还原到低维，但感知器只找到一个分类面即可，支持向量机要求找最优分类面。

Fisher准则：根据两类样本一般类内密集, 类间分离的特点，寻找线性分类器最佳的法线向量方向，使两类样本在该方向上的投影满足类内尽可能密集，类间尽可能分开。

　　该种度量通过类内离散矩阵Sw和类间离散矩阵Sb实现。

　　感知准则函数：准则函数以使错分类样本到分界面距离之和最小为原则。

其优点是通过错分类样本提供的信息对分类器函数进行修正，这种准则是人工神经元网络多层感知器的基础。

　　支持向量机：基本思想是在两类线性可分条件下，所设计的分类器界面使两类之间的间隔为最大, 它的基本出发点是使期望泛化风险尽可能小。

Fisher线性判别：

可以考虑把d维空间的样本投影到一条直线上，形成一维空间，即把维数压缩到一维，这在数学上容易办到，然而，即使样本在d维空间里形成若干紧凑的互相分得开的集群，如果把它们投影到一条任意的直线上，也可能使得几类样本混在一起而变得无法识别。但是在一般情况下，总可以找到某个方向，使得在这个方向的直线上，样本的投影能分开得最好。问题是如何根据实际情况找到这条最好的、最易于分类的投影线，这就是Fisher算法所要解决的基本问题。

支持向量机(SVM )

SVM可以分类线性与非线性数据。SVM的原理是将训练数据转化进入更高的维度，再检查这个维度中的最优间隔距离，或者不同分类中的边界。在SVM中，这些边界被称为“超平面”，通过定位支持向量来划分，或者通过最能够定义类型的个例及其边界。边界是与超平面平行的线条，定义为超平面及其支持向量之间的最短距离。

SVM的宏伟概念概括起来就是：如果有足够多的维度，就一定能发现将两个类别分开的超平面，从而将数据库成员的类别进行非线性化。当重复足够多的次数，就可以生成足够多的超平面，在N个空间维度中，分离所有的类别。

29、基于最小错误率的贝叶斯决策及基于最小风险的贝叶斯决策解决实际问题。

假设在某个地区细胞识别中正常（w1）和异常（w2）两类先验概率分别为 P(w1)=0.9，P(w2)=0.1，现有一待识别的细胞，其观察值为x，从类条件概率密度分布曲线上查得，，并且已知，，，

试对该细胞x用一下两种方法进行分类：

1. 基于最小错误率的贝叶斯决策；

2. 基于最小风险的贝叶斯决策；

请分析两种结果的异同及原因。

答：1.

30、贝叶斯决策算法、fisher算法、感知器算法、提升算法、k-近邻算法、Apriori 算法、fp-tree算法、k-均值算法步骤及伪代码。

1. 贝叶斯决策算法

(1)基于最小错误率的贝叶斯决策

(2）基于最小风险的贝叶斯决策

最小风险贝叶斯决策规则为

如果，则

最小风险贝叶斯决策的实现步骤：

⑴在已知P(ωj)，p(x|ωj)，j=1，2…，c及给出待识别的x的情况下，根据贝叶斯公式计算出后验概率：

j=1，2，…，c

⑵利用计算出的后验概率及决策表，按(2-15)计算出采取，i=1，2，…，a的条件风险R(|x)

i=1，2，…，a

⑶对⑵中得到的a个条件风险值R(|x)，i=1，2，…，a 进行比较，找出使条件风险最小的决策，即

即就是最小风险贝叶斯决策。

注意与基于最小错误率的贝叶斯决策的对比

2.fisher算法

3. 感知器算法

4、提升算法

输入: ( x1, y1 ), ( x2, y 2 )… ( xm , ym ), 其中, xi∈X, yi∈Y = { + 1, - 1}。

初始化: D1 (i) = 1 /m; ** 表示第一次迭代中, 每个训练例M的权重都为1 /m

for t= 1 to T; ** T 为迭代次数, 通常为经验值

在Dt下训练;

得到弱的假设ht: X→ { + 1, - 1}; ** 即得到第t次的预测函数

计算ht的错误率: ɛt = ∑Dt (i) ( ht(xi)≠Yi );

令at = 1 /2 ln( ( 1- ɛt ) / ɛt ); ** ht 的权重

更改权值: ** Zt 为归一化因子

循环结束, 输出H(x)：

5. k-近邻算法

⏹ 设这N个样本中，来自ω1类的样本有N1个，来自ω2类的样本有N2个，…，来自ωc类的样本有Nc个，若k1，k2，…，kc分别是k个近邻中属于ω1，ω2，…，ωc类的样本数，定义判别函数为

gi(x) = ki，i =1，2，…，c (4-71)

使用 k-近邻算法将每组数据划分到某个类中，其伪代码如下：

对未知类别属性的数据集中的每个点依次执行以下操作：

1. 计算已知类别数据集中的点与当前点之间的距离；

2. 按照距离递增交序排序；

3. 选取与当前点距离最小的k个点；

4. 确定前k个点所在类别的出现频率；

5. 返回前k个点出现频率最高的类别作为当前点的预测分类。

注意：距离函数决定了哪些样本是待分类本的K个最近邻居，它的选取取决于实际的数据和决策问题。如果样本是空间中点，最常用的是欧几里德距离。其它常用的距离函是由绝对距离、平方差和标准差。欧几里德距离：点 x = (x1,...,xn) 和 y = (y1,...,yn) 之间的距离为向量的自然长度，即该点到原点的距离为它是一个纯数值。在欧几里得度量下，两点之间直线最短。

3. 决定K的取值

邻居的个数对分类的结果有一定的影响，一般先确定一个初始值，再进行调整，直到找到合适的值为止。如何选择一个最佳的K值取决于数据。一般情况下，在分类时较大的K值能够减小噪声的影响。但会使类别之间的界限变得模糊。一个较好的K值能通过各种启发式技术来获取，比如，交叉验证。噪声和非相关性特征向量的存在会使K近邻算法的准确性减小。对于选择特征向量进行分类已经作了很多研究。一个普遍的做法是利用进化算法优化功能扩展，还有一种较普遍的方法是利用训练样本的互信息进行选择特征。

6.Apriori 算法描述

㈢ Apriori 算法描述

1. 使用逐层迭代找出频繁项集

输入：事务数据库 D；最小支持度阈值；

输出：D 中的频繁项集；

2. 求候选项集的集合 Ck 子过程

输入：频繁(k-1)-项集 Lk-1；

输出：候选项集的集合 Ck；

3. 由频繁项集产生关联规则

输入：所有频繁项集集合 L=∪k>1 Lk；

L 中每个频繁项集的支持频度；

最小可信度 min_conf ；

输出：关联规则；

处理流程：

⑴ 对于所有频繁 k-项集集合 Lk ( k>1)

⑵ 对于 Lk中的每个频繁 k-项集 l

⑶ 对于 l 的每个非空子集 s ：

如果support_count(l)/support_count(s)≥min_conf；

则输出关联规则 “s =>(l-s)”。7.FP-tree

Step 1: 遍历一次数据库，导出频繁项（1项集）的集合和支持度计数（频率），并且以降序排序。

Step 2: 构造FP-tree

Step 3: 根据第二步得到的FP-Tree, 为1项频繁项集中的每一项构造条件FP-Tree.

Step 4: 得到频繁模式（频繁项集）.

K均值聚类算法k均值算法

先随机选取K个对象作为初始的聚类中心。然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。一旦全部对象都被分配了，每个聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是以下任何一个：

1)没有（或最小数目）对象被重新分配给不同的聚类。

2)没有（或最小数目）聚类中心再发生变化。

3)误差平方和局部最小。

5.K均值聚类算法k均值伪代码

选择k个点作为初始质心。

repeat 将每个点指派到最近的质心，形成k个簇重新计算每个簇的质心 until 质心不发生变化

3.K-means

在聚类问题中，给我们的训练样本是，每个，没有了y。

K-means算法是将样本聚类成k个簇（cluster），具体算法描述如下：

1、随机选取k个聚类质心点（cluster centroids）为。

2、重复下面过程直到收敛 {

对于每一个样例i，计算其应该属于的类

对于每一个类j，重新计算该类的质心

}

K是我们事先给定的聚类数，代表样例i与k个类中距离最近的那个类，的值是1到k中的一个。质心代表我们对属于同一个类的样本中心点的猜测，拿星团模型来解释就是要将所有的星星聚成k个星团，首先随机选取k个宇宙中的点（或者k个星星）作为k个星团的质心，然后第一步对于每一个星星计算其到k个质心中每一个的距离，然后选取距离最近的那个星团作为，这样经过第一步每一个星星都有了所属的星团；第二步对于每一个星团，重新计算它的质心（对里面所有的星星坐标求平均）。重复迭代第一步和第二步直到质心不变或者变化很小。