高斯函数python代码的简单介绍

[译] 高斯混合模型 --- python教程

本文翻译自

创新互联从2013年开始，是专业互联网技术服务公司，拥有项目网站制作、网站设计网站策划，项目实施与项目整合能力。我们以让每一个梦想脱颖而出为使命，1280元咸宁做网站,已为上家服务,为咸宁各地企业和个人服务,联系电话:13518219792

上一节中探讨的k-means聚类模型简单易懂，但其简单性导致其应用中存在实际挑战。具体而言，k-means的非概率特性及简单地计算点与类蔟中心的欧式距离来判定归属，会导致其在许多真实的场景中性能较差。本节，我们将探讨高斯混合模型(GMMs)，其可以看成k-means的延伸，更可以看成一个强有力的估计工具，而不仅仅是聚类。

我们将以一个标准的import开始

我们看下k-means的缺陷，思考下如何提高聚类模型。正如上一节所示，给定简单，易于分类的数据，k-means能找到合适的聚类结果。

举例而言，假设我们有些简单的数据点，k-means算法能以某种方式很快地将它们聚类，跟我们肉眼分辨的结果很接近：

从直观的角度来看，我可能期望聚类分配时，某些点比其他的更确定：举例而言，中间两个聚类之间似乎存在非常轻微的重叠，这样我们可能对这些数据点的分配没有完全的信心。不幸的是，k-means模型没有聚类分配的概率或不确定性的内在度量（尽管可能使用bootstrap 的方式来估计这种不确定性）。为此，我们必须考虑泛化这种模型。

k-means模型的一种理解思路是，它在每个类蔟的中心放置了一个圈（或者，更高维度超球面)，其半径由聚类中最远的点确定。该半径充当训练集中聚类分配的一个硬截断：任何圈外的数据点不被视为该类的成员。我们可以使用以下函数可视化这个聚类模型：

观察k-means的一个重要发现，这些聚类模式必须是圆形的。k-means没有内置的方法来计算椭圆形或椭圆形的簇。因此，举例而言，假设我们将相同的数据点作变换，这种聚类分配方式最终变得混乱：

高斯混合模型（GMM）试图找到一个多维高斯概率分布的混合，以模拟任何输入数据集。在最简单的情况下，GMM可用于以与k-means相同的方式聚类。

但因为GMM包含概率模型，因此可以找到聚类分配的概率方式 - 在Scikit-Learn中，通过调用predict_proba方法实现。它将返回一个大小为[n_samples, n_clusters]的矩阵，用于衡量每个点属于给定类别的概率：

我们可以可视化这种不确定性，比如每个点的大小与预测的确定性成比例；如下图，我们可以看到正是群集之间边界处的点反映了群集分配的不确定性：

本质上说，高斯混合模型与k-means非常相似：它使用期望-最大化的方式，定性地执行以下操作：

有了这个，我们可以看看四成分的GMM为我们的初始数据提供了什么：

同样，我们可以使用GMM方法来拟合我们的拉伸数据集；允许full的协方差，该模型甚至可以适应非常椭圆形，伸展的聚类模式：

这清楚地表明GMM解决了以前遇到的k-means的两个主要实际问题。

如果看了之前拟合的细节，你将看到covariance_type选项在每个中都设置不同。该超参数控制每个类簇的形状的自由度；对于任意给定的问题，必须仔细设置。默认值为covariance_type =“diag”，这意味着可以独立设置沿每个维度的类蔟大小，并将得到的椭圆约束为与轴对齐。一个稍微简单和快速的模型是covariance_type =“spherical”，它约束了类簇的形状，使得所有维度都相等。尽管它并不完全等效，其产生的聚类将具有与k均值相似的特征。更复杂且计算量更大的模型（特别是随着维数的增长）是使用covariance_type =“full”，这允许将每个簇建模为具有任意方向的椭圆。

对于一个类蔟，下图我们可以看到这三个选项的可视化表示：

尽管GMM通常被归类为聚类算法，但从根本上说它是一种密度估算算法。也就是说，GMM适合某些数据的结果在技术上不是聚类模型，而是描述数据分布的生成概率模型。

例如，考虑一下Scikit-Learn的make_moons函数生成的一些数据：

如果我们尝试用视为聚类模型的双成分的GMM模拟数据，则结果不是特别有用：

但是如果我们使用更多成分的GMM模型，并忽视聚类的类别，我们会发现更接近输入数据的拟合：

这里，16个高斯分布的混合不是为了找到分离的数据簇，而是为了对输入数据的整体分布进行建模。这是分布的一个生成模型，这意味着GMM为我们提供了生成与我们的输入类似分布的新随机数据的方法。例如，以下是从这个16分量GMM拟合到我们原始数据的400个新点：

GMM非常方便，可以灵活地建模任意多维数据分布。

GMM是一种生成模型这一事实为我们提供了一种确定给定数据集的最佳组件数的自然方法。生成模型本质上是数据集的概率分布，因此我们可以简单地评估模型下数据的可能性，使用交叉验证来避免过度拟合。校正过度拟合的另一种方法是使用一些分析标准来调整模型可能性，例如 Akaike information criterion (AIC) 或 Bayesian information criterion (BIC) 。Scikit-Learn的GMM估计器实际上包含计算这两者的内置方法，因此在这种方法上操作非常容易。

让我们看看在moon数据集中，使用AIC和BIC函数确定GMM组件数量：

最佳的聚类数目是使得AIC或BIC最小化的值，具体取决于我们希望使用的近似值。 AIC告诉我们，我们上面选择的16个组件可能太多了：大约8-12个组件可能是更好的选择。与此类问题一样，BIC建议使用更简单的模型。

注意重点：这个组件数量的选择衡量GMM作为密度估算器的效果，而不是它作为聚类算法的效果。我鼓励您将GMM主要视为密度估算器，并且只有在简单数据集中保证时才将其用于聚类。

我们刚刚看到了一个使用GMM作为数据生成模型的简单示例，以便根据输入数据定义的分布创建新样本。在这里，我们将运行这个想法，并从我们以前使用过的标准数字语料库中生成新的手写数字。

首先，让我们使用Scikit-Learn的数据工具加载数字数据：

接下来让我们绘制前100个，以准确回忆我们正在看的内容：

我们有64个维度的近1,800位数字，我们可以在这些位置上构建GMM以产生更多。 GMM可能难以在如此高维空间中收敛，因此我们将从数据上的可逆维数减少算法开始。在这里，我们将使用一个简单的PCA，要求它保留99％的预测数据方差：

结果是41个维度，减少了近1/3，几乎没有信息丢失。根据这些预测数据，让我们使用AIC来计算我们应该使用的GMM组件的数量：

似乎大约110个components最小化了AIC；我们将使用这个模型。我们迅速将其与数据拟合并确保它已收敛合：

现在我们可以使用GMM作为生成模型在这个41维投影空间内绘制100个新点的样本：

最后，我们可以使用PCA对象的逆变换来构造新的数字：

大部分结果看起来像数据集中合理的数字！

考虑一下我们在这里做了什么：给定一个手写数字的样本，我们已经模拟了数据的分布，这样我们就可以从数据中生成全新的数字样本：这些是“手写数字”，不是单独的出现在原始数据集中，而是捕获混合模型建模的输入数据的一般特征。这种数字生成模型可以证明作为贝叶斯生成分类器的一个组成部分非常有用，我们将在下一节中看到。

2021-02-08 Python OpenCV GaussianBlur()函数

borderType= None)函数

此函数利用高斯滤波器平滑一张图像。该函数将源图像与指定的高斯核进行卷积。

src:输入图像

ksize:(核的宽度,核的高度)，输入高斯核的尺寸，核的宽高都必须是正奇数。否则，将会从参数sigma中计算得到。

dst:输出图像，尺寸与输入图像一致。

sigmaX:高斯核在X方向上的标准差。

sigmaY:高斯核在Y方向上的标准差。默认为None，如果sigmaY=0，则它将被设置为与sigmaX相等的值。如果这两者都为0,则它们的值会从ksize中计算得到。计算公式为：

borderType:像素外推法，默认为None（参考官方文档 BorderTypes

)

在图像处理中，高斯滤波主要有两种方式：

1.窗口滑动卷积

2.傅里叶变换

在此主要利用窗口滑动卷积。其中二维高斯函数公式为：

根据上述公式，生成一个3x3的高斯核，其中最重要的参数就是标准差，标准差越大，核中心的值与周围的值差距越小，曲线越平滑。标准差越小，核中心的值与周围的值差距越大，曲线越陡峭。

从图像的角度来说，高斯核的标准差越大，平滑效果越不明显。高斯核的标准差越小，平滑效果越明显。

可见，标准差越大，图像平滑程度越大

参考博客1:关于GaussianBlur函数

参考博客2:关于高斯核运算

如何用python实现图像的一维高斯滤波器

现在把卷积模板中的值换一下，不是全1了，换成一组符合高斯分布的数值放在模板里面，比如这时中间的数值最大，往两边走越来越小，构造一个小的高斯包。实现的函数为cv2.GaussianBlur()。对于高斯模板，我们需要制定的是高斯核的高和宽（奇数），沿x与y方向的标准差(如果只给x，y=x，如果都给0，那么函数会自己计算)。高斯核可以有效的出去图像的高斯噪声。当然也可以自己构造高斯核，相关函数：cv2.GaussianKernel().

import cv2

import numpy as np

import matplotlib.pyplot as plt

img = cv2.imread(‘flower.jpg‘,0) #直接读为灰度图像

for i in range(2000): #添加点噪声

temp_x = np.random.randint(0,img.shape[0])

temp_y = np.random.randint(0,img.shape[1])

img[temp_x][temp_y] = 255

blur = cv2.GaussianBlur(img,(5,5),0)

plt.subplot(1,2,1),plt.imshow(img,‘gray‘)#默认彩色，另一种彩色bgr

plt.subplot(1,2,2),plt.imshow(blur,‘gray‘)

Python--math库

Python math 库提供许多对浮点数的数学运算函数，math模块不支持复数运算，若需计算复数，可使用cmath模块（本文不赘述）。

使用dir函数，查看math库中包含的所有内容：

1） math.pi # 圆周率π

2） math.e #自然对数底数

3） math.inf #正无穷大∞，-math.inf #负无穷大-∞

4） math.nan #非浮点数标记，NaN（not a number）

1） math.fabs(x) #表示X值的绝对值

2） math.fmod(x,y) #表示x/y的余数，结果为浮点数

3） math.fsum([x,y,z]) #对括号内每个元素求和，其值为浮点数

4） math.ceil(x) #向上取整，返回不小于x的最小整数

5）math.floor(x) #向下取整，返回不大于x的最大整数

6） math.factorial(x) #表示X的阶乘，其中X值必须为整型，否则报错

7） math.gcd(a,b) #表示a,b的最大公约数

8） math.frexp(x) #x = i *2^j，返回（i，j）

9） math.ldexp(x,i) #返回x*2^i的运算值，为math.frexp(x)函数的反运算

10） math.modf(x) #表示x的小数和整数部分

11） math.trunc(x) #表示x值的整数部分

12） math.copysign(x,y) #表示用数值y的正负号，替换x值的正负号

13） math.isclose(a,b,rel_tol =x,abs_tol = y) #表示a，b的相似性，真值返回True，否则False；rel_tol是相对公差：表示a，b之间允许的最大差值，abs_tol是最小绝对公差，对比较接近于0有用，abs_tol必须至少为0。

14） math.isfinite(x) #表示当x不为无穷大时，返回True，否则返回False

15） math.isinf(x) #当x为±∞时，返回True，否则返回False

16） math.isnan(x) #当x是NaN，返回True，否则返回False

1） math.pow(x,y) #表示x的y次幂

2） math.exp(x) #表示e的x次幂

3） math.expm1(x) #表示e的x次幂减1

4） math.sqrt(x) #表示x的平方根

5） math.log（x,base） #表示x的对数值，仅输入x值时，表示ln(x)函数

6） math.log1p(x) #表示1+x的自然对数值

7） math.log2(x) #表示以2为底的x对数值

8） math.log10(x) #表示以10为底的x的对数值

1） math.degrees(x) #表示弧度值转角度值

2） math.radians(x) #表示角度值转弧度值

3） math.hypot(x,y) #表示(x,y)坐标到原点(0,0)的距离

4） math.sin(x) #表示x的正弦函数值

5） math.cos(x) #表示x的余弦函数值

6） math.tan(x) #表示x的正切函数值

7）math.asin(x) #表示x的反正弦函数值

8） math.acos(x) #表示x的反余弦函数值

9） math.atan(x) #表示x的反正切函数值

10） math.atan2(y,x) #表示y/x的反正切函数值

11） math.sinh(x) #表示x的双曲正弦函数值

12） math.cosh(x) #表示x的双曲余弦函数值

13） math.tanh(x) #表示x的双曲正切函数值

14） math.asinh(x) #表示x的反双曲正弦函数值

15） math.acosh(x) #表示x的反双曲余弦函数值

16） math.atanh(x) #表示x的反双曲正切函数值

1）math.erf(x) #高斯误差函数

2） math.erfc(x) #余补高斯误差函数

3） math.gamma(x) #伽马函数（欧拉第二积分函数）

4） math.lgamma(x) #伽马函数的自然对数

怎么用python表示出二维高斯分布函数，mu表示均值，sigma表示协方差矩阵，x表示数据点

clear

close all

%%%%%%%%%%%%%%%%%%%%%%%%%生成实验数据集

rand('state',0)

sigma_matrix1=eye(2);

sigma_matrix2=50*eye(2);

u1=[0,0];

u2=[30,30];

m1=100;

m2=300;%样本数

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%sm1数据集

Y1=multivrandn(u1,m1,sigma_matrix1);

Y2=multivrandn(u2,m2,sigma_matrix2);

scatter(Y1(:,1),Y1(:,2),'bo')

hold on

scatter(Y2(:,1),Y2(:,2),'r*')

title('SM1数据集')

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%sm2数据集

u11=[0,0];

u22=[5,5];

u33=[10,10];

u44=[15,15];

m=600;

sigma_matrix3=2*eye(2);

Y11=multivrandn(u11,m,sigma_matrix3);

Y22=multivrandn(u22,m,sigma_matrix3);

Y33=multivrandn(u33,m,sigma_matrix3);

Y44=multivrandn(u44,m,sigma_matrix3);

figure(2)

scatter(Y11(:,1),Y11(:,2),'bo')

hold on

scatter(Y22(:,1),Y22(:,2),'r*')

scatter(Y33(:,1),Y33(:,2),'go')

scatter(Y44(:,1),Y44(:,2),'c*')

title('SM2数据集')

end

function Y = multivrandn(u,m,sigma_matrix)

%%生成指定均值和协方差矩阵的高斯数据

n=length(u);

c = chol(sigma_matrix);

X=randn(m,n);

Y=X*c+ones(m,1)*u;

end