贝叶斯算法的应用实例_贝叶斯算法的基本原理

实验三 朴素贝叶斯算法及应用

基于贝叶斯定理与特征条件设的分类方法。

贝叶斯算法的应用实例_贝叶斯算法的基本原理贝叶斯算法的应用实例_贝叶斯算法的基本原理


贝叶斯算法的应用实例_贝叶斯算法的基本原理


贝叶斯算法的应用实例_贝叶斯算法的基本原理


特征的可能性被设为高斯

需要一个比较容易解释,而且不同维度之间相关性较小的模型的时候可以使用。

还可以高效处理高维数据,虽然结果可能不尽如人意。

(1)朴素贝叶斯模型发源于古典数学理论,有稳定的分类效率。

(2)对小规模的数据表现很好,能个处理多分类任务,适合增量式训练,尤其是数据量超出内存时,我们可以一批批的去增量训练。

(3)对缺失数据不太敏感,算法也比较简单,常用于文本分类。

(1)理论上,朴素贝叶斯模型与其他分类方法相比具有小的误率。但是实际上并非总是如此,这是因为朴素贝叶斯模型给定输出类别的情况下,设属性之间相互,这个设在实际应用中往往是不成立的,在属性个数比较多或者属性之间相关性较大时,分类效果不好。而在属性相关性较小时,朴素贝叶斯性能为良好。对于这一点,有半朴素贝叶斯之类的算法通过考虑部分关联性适度改进。

(2)需要知道先验概率,且先验概率很多时候取决于设,设的模型可以有很多种,因此在某些时候会由于设的先验模型的原因导致预测效果不佳。

(3)由于我们是通过先验和数据来决定后验的概率从而决定分类,所以分类决策存在一定的错误率。

(4)对输入数据的表达形式很敏感。

本次实验我理解了朴素贝叶斯算法原理,掌握了朴素贝叶斯算法框架;还掌握了常见的高斯模型,多项式模型和伯努利模型;能根据不同的数据类型,选择不同的概率模型实现朴素贝叶斯算法;还可以针对特定应用场景及数据,能应用朴素贝叶斯解决实际问题。

【理论篇】贝叶斯算法概述

贝叶斯是十八世纪英国伟大的数学家,贝叶斯算法源于他生前为解决 “逆概” 问题而写的一篇文章。

既然贝叶斯算法解决的问题是逆概问题,那么我们首先就需要搞明白什么是正概,什么是逆概了。我们拿中学数学课常用的摸球来举个例子。

设袋子里有 M 个白球, N 个黑球,随机摸出一个球,请问摸出白球的概率有多大?这个问题对大家来说想必非常轻松了,摸出白球的概率为: M/(M+N) 。

以上就是正向概率的求解,我们事先是知道袋子中黑球白球的分布的,所以可以轻松的求出摸出白球和摸出黑球的概率。

如果我们事先不知道袋子中黑球和白球的比例,而是闭上,摸出几个球之后。之后观察被摸出的球中,白球和黑球的比例,并以此来推测袋中黑球和白球的比例。

这个就是逆向概率,我们实现并不知道黑球和白球的分布。现实世界中,应用更广泛的也是逆向概率,因为人类的观察能力是有限的,比如观察海洋生物的多样性,计算一批产品中的残次品概率等等,我们是无法统计到所有样本的。

我们先来看一下贝叶斯公式,不需要记住,只需要先有个大概印象就好。

场景来了:设某个中学男女比例为 60%:40% ,并且男生总是穿长裤,而女生则一半穿长裤一半穿裙子。

那么请问穿裤子的学生中女生的概率 P(Girl|Pants) 是多少呢?

步: 我们需要知道穿裤子的人有多少个?设学校总人数为 M ,则穿裤子的人数为男生穿裤子的人数+女生穿裤子的人数,即 MP(Boy)P(Pants|Boy) + MP(Girl)P(Pants|Girl) ,其中 P(Pants|Boy) 和 P(Pants|Girl) 为条件概率,即男生穿裤子的概率和女生穿裤子的概率。

第二步: 接下来,还需要知道穿裤子的女生的人数,首先得是女生,其次还得是穿着裤子,因此穿裤子的女生就是 MP(Girl)P(Pants|Girl) 。

第三步: 计算穿裤子中的人中,女生的概率 P(Girl|Pants) ,即 MP(Girl)P(Pants|Girl) / (MP(Boy)P(Pants|Boy) + MP(Girl)P(Pants|Girl)) ,将 M 进行约分得到 P(Girl)P(Pants|Girl) / (P(Boy)P(Pants|Boy) + P(Girl)P(Pants|Girl)) 。

通过以上三步的拆解,终得到:

P(Girl|Pants) = P(Girl)P(Pants|Girl) / (P(Boy) P(Pants|Boy) + P(Girl) P(Pants|Girl))

其中,分母 (P(Boy)P(Pants|Boy) + P(Girl)P(Pants|Girl)) 也就是穿裤子的概率,可以表示为 P(Pants) ,上述计算穿裤子中女生概率的公式就变为:

P(Girl|Pants) = P(Girl)P(Pants|Girl) / P(Pants)

这样,我们求逆向概率,穿裤子的人中是女生的概率就可以转变为求正向概率了。把其中的 Girl 和 Pants 换成 A 和 B 就是小鱼前面给出的贝叶斯公式了。

贝叶斯公式及经典例子有哪些?

公式:P(A∩B)=P(A)P(B|A)=P(B)P(A|B),贝叶斯公式其实就是找发生的原因的概率。

贝叶斯定理用于投资决策分析是在已知相关项目B的资料,而缺证项目A的直接资料时,通过对B项目的有关状态及发生概率分析推导A项目的状态及发生概率。

如果用数学语言描绘,即当已知Bi的概率P(Bi)和Bi已发生条件下A的概率P(A│Bi),则可运用贝叶斯定理计算出在A发生条件下Bi的概率P(Bi│A)。

贝叶斯法则

通常,A在B(发生)的条件下的概率,与B在A的条件下的概率是不一样的;然而,这两者是有确定的关系,贝叶斯法则就是这种关系的陈述。

作为一个规范的原理,贝叶斯法则对于所有概率的解释是有效的;然而,频率主义者和贝叶斯主义者对于在应用中概率如何被赋值有着不同的看法:频率主义者根据随机发生的频率,或者总体样本里面的个数来赋值概率;贝叶斯主义者要根据未知的命题来赋值概率。

04 贝叶斯算法 - 贝叶斯网络

01 贝叶斯算法 - 朴素贝叶斯

02 贝叶斯算法 - 案例一 - 鸢尾花数据分类

03 贝叶斯算法 - 案例二 - 数据分类

之前聚类算法中讲了 无向图 的聚类算法 - 谱聚类 。

13 聚类算法 - 谱聚类

本章介绍的贝叶斯算法是 有向图 的聚类算法。

区别:

谱聚类 的无向图里的点里放的是 样本 。

贝叶斯网络 的有向图的点里放的是 样本的特征 。

把某个研究系统中涉及到的 随机变量 ,根据是否条件绘制在一个有向图中,就形成了贝叶斯网络。 贝叶斯网络(Bayesian Network) ,又称有向无 环图模型 (directed acyclic graphical model, DAG);

贝叶斯网络 是一种概率图模型,根据概率图的拓扑结构,考察一组随机变量:{X1,X2,...,Xn}及其N组条件概率分布(Conditional ProbabililtyDistributions, CPD)的性质。

当多个特征属性之间 存在着某种相关关系 的时候,使用朴素贝叶斯算法就没法解决这类问题,那么贝叶斯网络就是解决这类应用场景的一个非常好的算法。

分析: 很好理解上面的概念,先回顾下面的算法,朴素贝叶斯算法要求的是互相的形成出x1~xn,这些特征彼此概率互不影响,所以才能求出联合概率密度。贝叶斯网络算法就是来解决有关联的特征组成的样本分类的。

一般而言,贝叶斯网络的有向无环图中的表示随机变量,可以是可观察到的变量,或隐变量,未知参数等等。连接两个之间的箭头代表两个随机变量之间的因果关系(也就是这两个随机变量之间非条件);如果两个间以一个单箭头连接在一起,表示其中一个是“因”,另外一个是“果”,从而两之间就会产生一个条件概率值。

PS: 每个在给定其直接前驱的时候,条件于其非后继。

贝叶斯网络的关键方法是图模型,构建一个图模型我们需要把具有因果联系的各个变量用箭头连在一起。贝叶斯网络的有向无环图中的表示随机变量。连接两个的箭头代表此两个随机变量是具有因果关系的。

贝叶斯网络是模拟人的认知思维推理模式的,用一组条件概率以及有向无环图对不确定性因果推理关系建模。

目标,求P(a,b,c)

a的概率和任何别的特征都无关,所以先求a的概率:P(a);

b的生成和a有关。即a发生的情况下,b发生的概率:P(b|a);

c的生成和a、b有关。即a和b同事发生的情况下,c发生的概率。P(c|a,b);

有一天早晨,白尔摩斯离开他的房子的时候发现他家花园中的草地是湿的,有两种可能,:昨天晚上下雨了,第二:他昨天晚上忘记关掉花园中的喷水器,接下来,他观察他的邻居华生,发现他家花园中的草地也是湿的,因此,他推断,他家的草地湿了是因为昨天晚上下雨的缘故。

那么在贝叶斯网络中,哪些条件下我们可以认为是条件的?

条件一:

在C给定的条件下,a和b被阻断(blocked)是的。

即只要C给定了,a、b就。

条件:tail - to -tail

条件二:

在C给定的条件下,a和b被阻断(blocked)是的。

条件:head- to -tail

条件三:

在C未知的情况下,a和b被阻断(blocked),是的。

条件:head - to - head

贝叶斯统计的应用

贝叶斯统计的应用:机器学习,模式识别。

贝叶斯统计方法被广泛应用于统计学、计算机科学、模式识别、计算机视觉、信号处理、机器学习等多个领域,是一种基于概率论的可解释性分析方法。

英国学者托马斯·贝叶斯在《论有关机遇问题的求解》中提出一种归纳推理的理论,后被一些统计学者发展为一种系统的统计推断方法,称为贝叶斯方法。采用这种方法作统计推断所得的全部结果,构成贝叶斯统计的内容。

认为贝叶斯方法是合理的统计推断方法的统计学者,组成数理统计学中的贝叶斯学派,其形成可追溯到 20世纪 30 年代。到50~60年代,已发展为一个有影响的学派。其影响日益扩大。

贝叶斯学派与频率学派争论的焦点在于先验分布的问题。所谓频率学派是指坚持概率的频率解释的统计学家形成的学派。贝叶斯学派认为先验分布可以是主观的,它没有也不需要有频率解释。

而频率学派则认为,只有在先验分布有一种不依赖主观的意义,且能根据适当的理论或以往的经验决定时,才允许在统计推断中使用先验分布,否则就会丧失客观性。

另一个批评是:贝叶斯方法对任何统计问题都给以一种程式化的解法,这导致人们对问题不去作深入分析,而只是机械地套用公式。

贝叶斯学派则认为:从理论上说,可以在一定条件下证明,任何合理的优良性准则必然是相应于一定先验分布的贝叶斯准则,因此每个统计学家自觉或不自觉地都是“贝叶斯主义者”。他们认为,频率学派表面上不使用先验分布,但所得到的解也还是某种先验分布下的贝叶斯解。

而这一潜在的先验分布,可能比经过慎重选定的主观先验分布更不合理。其次,贝叶斯学派还认为,贝叶斯方法对统计推断和决策问题给出程式化的解是优点而非缺点,因为它免除了寻求抽样分布,(见统计量)这个困难的数学问题。

而且这种程式化的解法并不是机械地套公式,它要求人们对先验分布、损失函数等的选择作大量的工作。还有,贝叶斯学派认为,用贝叶斯方法求出的解不需要频率解释,因而即使在一次使用下也有意义。

反之,根据概率的频率解释而提供的解,则只有在大量次数使用之下才有意义,而这常常不符合应用的实际。这两个学派的争论是战后数理统计学发展中的一个特色。这个争论还远没有解决,它对今后数理统计学的发展还将产生影响。


版权声明:本文内容由互联网用户自发贡献。如发现本站有涉嫌抄袭侵权/违法违规的内容, 836084111@qq.com 举报,一经查实,本站将立刻删除。

随便看看