有意思的概率——似然值似然函数及最大似然估计讲解

该系列博客旨在对概率论和统计学的相关概念和应用进行一个整体的梳理，既记录自己的学习过程，也可以为大家提供一个参考。

这篇博客主要讲解概率论和统计学中经常涉及到的，不是很好理解的一个概念——似然（Likelihood）及似然函数(Likelihood Function)，同时讲解了有关最大似然估计(Maximum Likelihood Estimation, MLE)的概念。

1、似然和概率的关系

通过前面的两篇博客：和，我们大概已经知道了概率学的基础概念，也知道了概率论主要研究的对象之一就是随机变量的概率分布。那既然已经有了概率这个非常直观易懂的概念，为什么还有一个叫做似然的概念呢？

其实在英语语境中，似然(Likelihood)和概率(Probability)是同义词，都是表示对机会(chance)或可能性的描述。但是在数学中，这两者虽然有千丝万缕的联系，但却描述不同的对象。为了理解这两者的不同，我们需要从随机变量的概率分布说起。

一般来说，一个随机变量的概率分布函数都依赖一个或多个参数，即不同参数取值就会得到不同的分布函数，例如伯努利分布也就是两点分布的参数就是一次试验成功的概率p，如果我们知道这个参数p，我们就能知道其概率分布函数是

(

)

(

−

)

−

∈

f(x)=p^x(1-p)^{1-x} \quad x\in{0,1}

$f (x) = p^{x} (1 - p)^{1 - x} x \in 0, 1$ ，而正态分布的参数就是均值

\mu

$μ$ 和方差

\sigma^2

$σ^{2}$ 。知道了这些参数，就相当于知道了具体的概率分布函数，也就能够完全确定一个随机变量在不同取值时的概率值。

但在实际操作中，我们并不一定能够事先获取一个随机变量概率分布函数中的具体参数值，这个时候我们可以通过大量试验收集样本数据，统计样本结果，来推测参数取值的可能性，此时这个可能性大小也就是似然值，其实这个推测参数取值最大可能性的过程也就是后面我们要讲解的最大似然估计。

讲到这里你可能有点晕，我举个简单的例子：我们知道独立重复抛硬币的过程，正面朝上的次数服从一个二项分布，假设分布参数的参数为p，即认为每次抛硬币正面朝上的概率是p，则抛了n次之后，正面朝上次数为x的概率是：

(

;

)

(

−

)

−

P(x;p)=C_{n}^{x}p^x(1-p)^{1-x}

$P (x; p) = C_{n}^{x} p^{x} (1 - p)^{1 - x}$
这就是在已经分布参数情况下对随机变量的概率值的求解，注意公式中x和p中间的分号表示的是p是该分布函数参数。
但如果我们事先并不知道这个二项分布的参数p的具体取值，我们连续抛了n次，其中正面朝上的次数为x，则我们假设在这样的试验结果下分布参数

p=\theta

$p = θ$ 的似然值为

(

∣

)

L(\theta|x)

$L (θ ∣ x)$ ，即似然描述分布函数取某个参数的可能性大小。

所以概率是随机变量的概率，似然是概率分布函数参数的似然。 请细细体会这句话。

2、似然函数

似然函数（likelihood function） 是数理统计学中非常重要的概念。它是一种关于统计模型中的参数的函数，表示模型参数中的似然性。似然函数在统计推断中有重大作用，“似然性”与“或然性”或“概率”意思相近，都是指某种事件发生的可能性，但是在统计中，“似然性”和“或然性”或“概率”又有明确的区分。

概率用于在已知一些参数的情况下，预测接下来的观测所得到的结果，而似然性则是用于在已知某些观测所得到的结果时，对有关事物的性质的参数进行估计。

从代数上，对于一次观测随机变量的取值来看，似然函数与随机变量的分布取值是相等的：

(

∣

)

(

∣

)

L(\theta|x)=f(x|\theta)

$L (θ ∣ x) = f (x ∣ θ)$
但表达的含义却不同，似然函数是参数

\theta

$θ$ 的函数，而不是随机变量的取值函数。

这个等式表示的是对于事件发生的两种角度的看法。其实等式两边都是表示的这个事件发生的概率或者说可能性。在给定一个样本x后，我们去想这个样本出现的可能性到底是多大。统计学的观点始终是认为样本的出现是基于一个分布的。那么我们去假设这个分布为f，里面有参数

\theta

$θ$ ，对于不同的

\theta

$θ$ ，样本的分布不一样。

(

∣

)

f(x|\theta)

$f (x ∣ θ)$ 表示的就是在给定参数theta的情况下，x出现的可能性多大。

(

∣

)

L(\theta|x)

$L (θ ∣ x)$ 表示的是在给定样本x的时候，哪个参数

\theta

$θ$ 使得x出现的可能性多大。所以其实这个等式要表示的核心意思都是在给一个

\theta

$θ$ 和一个样本x的时候，整个事件发生的可能性多大。

其实，上式中的右边其实更为准确的写法应该是：

(

∣

)

(

;

)

L(\theta|x)=f(x;\theta)

$L (θ ∣ x) = f (x; θ)$
因为在概率论中，竖线表示条件概率或者条件分布，而此处的theta只是分布的参数，应该用分号隔开，右边则表示在分布取得参数为theta时，随机变量取值为x的概率。

一般而言，我们会从总体中抽取样本来推导似然值，而不是一次观测。此时假设发生n次独立事件，从这n次发生的结果中我们可以得到似然函数为：

(

;

)

(

;

)

L(\theta;x)=f(x;\theta)

$L (θ; x) = f (x; θ)$

3、最大似然估计

MLE常用来做参数估计，所谓最大似然估计，也就是通过假设随机变量所服从的分布，根据试验结果，得到似然函数（是分布参数的函数），并求出似然函数取值最大时的参数取值，从而得到数据服从的分布的过程。
求最大似然估计的问题，其实就是求似然函数的极值问题。
具体的例子可以参考：
https://www.jianshu.com/p/f1d3906e4a3e
https://newonlinecourses.science.psu.edu/stat504/node/28/

文章由极客之音整理，本文链接：https://www.bmabk.com/index.php/post/121248.html