做网站的背景图片要多大,国通快速免费建站,太原网页设计培训班,免费ppt模板网站大全朴素贝叶斯法#xff08;Naive Bayes model#xff09;是基于贝叶斯定理与特征条件独立假设的分类方法。
贝叶斯定理 P ( A ∣ B ) P ( B ∣ A ) ∗ P ( A ) P ( B ) P(A|B)\frac{P(B|A) * P(A)}{P(B)} P(A∣B)P(B)P(B∣A)∗P(A) 其中A表示分类#xff0c;B表示属性Naive Bayes model是基于贝叶斯定理与特征条件独立假设的分类方法。
贝叶斯定理 P ( A ∣ B ) P ( B ∣ A ) ∗ P ( A ) P ( B ) P(A|B)\frac{P(B|A) * P(A)}{P(B)} P(A∣B)P(B)P(B∣A)∗P(A) 其中A表示分类B表示属性因此此公式更通俗的表述如下 P ( 分类 ∣ 属性 ) P ( 属性 ∣ 分类 ) ∗ P ( 分类 ) P ( 属性 ) P(分类|属性)\frac{P(属性|分类) * P(分类)}{P(属性)} P(分类∣属性)P(属性)P(属性∣分类)∗P(分类) 即在已知属性B的前提下分类为A的概率等于似然率(已知分类中属性B的概率)乘以先验概率分类A的概率除以证据概率(属性B的概率)。
优点
对于大量数据的预测靠谱。计算简便。
缺点
属性之间必须独立。选取没有相互干涉的属性是难点。
举例在夏季某公园男性穿凉鞋的概率为 1/2 女性穿凉鞋的概率为 2/3 并且该公园中男女比例通常为 2:1 问题若你在公园中随机遇到一个穿凉鞋的人 请问他的性别为男性或女性的概率分别为多少
P(男|穿凉鞋)P(穿凉鞋|男)P(男)/P(穿凉鞋) 1/2 * 2/3 / (2/3 * 1/2 1/3 2/3) 1/3 / (1/32/9) 3/5
P(女|穿凉鞋)P(穿凉鞋|女)P(女)/P(穿凉鞋) 2/3 * 1/3 / (2/3 * 1/2 1/3 2/3) 2/9 / (1/32/9) 2/9 * 9/5 2/5
所以在公园里随机遇到一个穿凉鞋的人性别为女男的概率是 3/5性别为女的概率为 2/5。
怎样避免0概率问题
使用拉普拉斯修正修改公式如下 P ^ ( C c j ) N ( c j ) 1 N C \hat{P}(Cc_j)\frac{N(c_j)1}{NC} P^(Ccj)NCN(cj)1 上式表示 c j c_j cj分类的概率其中 C 表示分类数量N 表示所有的数量。 P ^ ( x i ∣ C c j ) N ( x i ∣ C c j ) 1 N X \hat{P}(x_i|Cc_j)\frac{N(x_i|Cc_j)1}{NX} P^(xi∣Ccj)NXN(xi∣Ccj)1 上式表示特定 x i x_i xi属性中类 c j c_j cj的概率其中 X 表示属性数量。
高斯朴素贝叶斯分类器
高斯分布 P ( x i ∣ μ , σ ) 1 ( 2 π σ 2 ) 1 2 ∗ e − ( x i − μ ) 2 2 σ 2 P(x_i|\mu,\sigma)\frac{1}{(2\pi \sigma^2)^{\frac{1}{2}}} * e^{-\frac{(x_i-\mu)^2}{2\sigma^2}} P(xi∣μ,σ)(2πσ2)211∗e−2σ2(xi−μ)2 其中 μ 1 N ∑ i 1 N x i \mu\frac{1}{N}\sum\limits_{i1}^{N}x_i μN1i1∑Nxi表示样本的期望 σ 2 1 N ∑ i 1 N ( x i − μ ) 2 \sigma^2\frac{1}{N}\sum\limits_{i1}^{N}(x_i-\mu)^2 σ2N1i1∑N(xi−μ)2表示样本的方差。 如果要使用无偏差估计N 取 N1。如果特征值服从高斯分布那么根据特征值估计分类概率的公式如下 P ^ ( x i ∣ C c i ) 1 ( 2 π σ i j 2 ) 1 2 ∗ e − ( x i − μ i j ) 2 2 σ i j 2 \hat{P}(x_i|Cc_i)\frac{1}{(2\pi \sigma_{ij}^2)^{\frac{1}{2}}} * e^{-\frac{(x_i-\mu{ij})^2}{2\sigma_{ij}^2}} P^(xi∣Cci)(2πσij2)211∗e−2σij2(xi−μij)2 其中 μ i j \mu_{ij} μij表示分类为 c i c_i ci时属性 x j x_j xj的期望 σ i j 2 \sigma_{ij}^2 σij2表示分了为 c i c_i ci时属性 x j x_j xj的方差。