本文主要转载自:http://blog.csdn.net/u011467621/article/details/48197943
- 1
- 2
本文将首先简单介绍指数族分布,然后介绍一下广义线性模型(generalized linear model, GLM), 最后解释了为什么逻辑回归(logistic regression, LR) 是广义线性模型的一种。
指数族分布
指数族分布 (The exponential family distribution),区别于指数分布(exponential distribution)。在概率统计中,若某概率分布满足下式,我们就称之属于指数族分布。
p(y;η)=b(y)exp(ηTT(y)−a(η))
其中
η
是natural parameter,
T(y)
是充分统计量,
exp−a(η))
是起到归一化作用。 确定了
T,a,b
,我们就可以确定某个参数为
η
的指数族分布.
统计中很多熟悉的概率分布都是指数族分布的特定形式,如伯努利分布,高斯分布,多项分布(multionmal), 泊松分布等。下面介绍其中的伯努利分布和高斯分布。
- 伯努利分布
p(y;ϕ)=ϕy(1−ϕ)1−y=exp[ylogϕ+(1−y)log(1−ϕ)]=exp[ylogϕ1−ϕ+log(1−ϕ)]
把伯努利分布可以写成指数族分布的形式,且
T(y)=yη=logϕ1−ϕa(η)=−log(1−ϕ)=log(1+eη)b(y)=1
同时我们可以看到ϕ=11+e−η
, 居然是logistic sigmoid的形式,后面在讨论LR是广义线性模型时,也会用到。
高斯分布
高斯分布也可以写为指数族分布的形式如下:
p(y;μ)=12π−−√exp(−12(y−μ)2)=12π−−√exp(−12y2)exp(μy−12μ2)
我们假设方差为1,当然不为1的时候也是可以推导的。上述我们就把高斯分布写为了指数族分布的形式,对应的
η=μT(y)=ya(η)=μ2/2=η2/2b(y)=12π−−√exp(−12y2)
广义线性模型 (Generalized linear model, GLM)
本节将讲述广义线性模型的概念,以及LR,最小二乘为何也属于广义线性模型。
考虑一个分类或回归问题,我们就是想预测某个随机变量
y
,
y
是某些特征(feature)
x
的函数。为了推导广义线性模式,我们必须做出如下三个假设
-
p(y|x;θ)
服从指数族分布
- 给了
x
, 我们的目的是为了预测T(y)的在条件
x
下的期望。一般情况
T(y)=y
, 这就意味着我们希望预测
h(x)=E[y|x]
- 参数
η
和输入
x
是线性相关的:
η=θTx
在这三个假设(也可以理解为一种设计)的前提下,我们可以推导出一系列学习算法,称之为广义线性模型(GLM)。下面我们可以推导出一系列算法,称之为广义线性模型GLM. 下面举两个例子:
最小二乘法
假设
p(y|x;θ)∼N(μ,σ2)
,
u
可能依赖于
x
,那么
hθ(x)=E[y|x;θ]=μ=η=θTx
第一行因为假设2,第二行因为高斯分布的特点,第三行根据上面高斯分布为指数族分布的推导,第四行因为假设3
逻辑回归 LR
考虑LR二分类问题,
y∈0,1
, 因为是二分类问题,我们很自然的选择
p(y|x;θ)
~Bernoulli(
ϕ
),即服从伯努利分布。那么
hθ(x)=E[y|x;θ]=ϕ=11+e−η=11+e−θTx
第一行因为假设2,第二行因为伯努利分布的性质,第三行因为伯努利分布为指数族分布时的推导,第四行因为假设3.
所以我们终于知道逻辑回归LR的
P(y=1|x)=11+e−θTx
从何而来了。它即是在伯努利分布和广义线性模型的假设下推导而来,逻辑回归也自然是一种广义线性模型。
参考:
本文主要参加Andrew ng的机器学习讲义
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
文章由极客之音整理,本文链接:https://www.bmabk.com/index.php/post/162911.html