0 前言

本文以一个小小的案例展开，主要讲解了线性回归的步骤、常用的两种求最优解的方法（最小二乘法和sklearn回归算法及算法原理）及相关函数、公式的过程推导。

相关环境：
Windows 64位
Python3.9
scikit-learn==1.0.2
pandas==1.4.2
numpy==1.21.5
matplotlib==3.5.1

1 案例数据及数据关系

假设有一组数如下，问(10,27)是否合理？

x	y
1	5
2	6
3	9
4	11
5	13

要回答这个问题，可以分三步走：
1、确认x和y的关系；
2、拟合模型，并根据模型进行预测；
3、判断(10,27)是否合理。

要确定关系，可以将数据通过散点图绘制出来

import pandas as pd
import matplotlib.pyplot as plt
df = pd.DataFrame({'x':list(range(1,6)),'y':[5,6,9,11,13]})
plt.scatter(df.x,df.y)
plt.show()

由散点图可见，这是一个线性回归模型，故令线性模型函数为

(

)

f \left( {x}_i \right)=ax_i+b

$f (x_{i}) = a x_{i} + b$ ，使得

(

)

≈

f \left( x_i \right) \approx y_i

$f (x_{i}) \approx y_{i}$ 。
这时，一开始的问题就转化成了求系数a和截距b。

2 拟合模型，求最优解

什么时候a和b达到最优解，也就是拟合效果最好呢？
如果根据过往数学经验，就是画一条直线，尽可能多的过一些散点或靠近散点更多的地方，但是这条线是不是最优的，还不确定，需要通过计算每一条线的拟合结果来确定。判断拟合结果好坏，有一个常用的判断方法：最小二乘法（LS） 得到的值尽可能小。
最小二乘法用通俗的话讲，就是将每个点的实际值

y_i

$y_{i}$ 和直线的预测值

(

)

f \left( x_i \right)

$f (x_{i})$ 相减，然后平方，然后求和。
特殊情况下，当该结果值为0时，说明实际的点和直线的点完全重合，其实就是直线上取出来的点。
最小二乘法的公式如下：

∑

(

)

−

)

，其中

(

)

(2.1)

LS=\sum_{i=1}^m{ \left( f \left( x_i \right) – y_i \right) ^2 }，其中f \left( {x}_i \right)=ax_i+b \text{(2.1)}

$L S = \sum_{i = 1}^{m} (f (x_{i}) - y_{i})^{2} ，其中 f (x_{i}) = a x_{i} + b (2.1)$

均分误差（MSE，也称平方损失）的公式如下：

∑

(

)

−

)

，其中

(

)

(2.2)

MSE=\dfrac{1}{m}\sum_{i=1}^m{ \left( f \left( x_i \right) – y_i \right) ^2 }，其中f \left( {x}_i \right)=ax_i+b \text{(2.2)}

$MSE = \frac{1}{m} \sum_{i = 1}^{m} (f (x_{i}) - y_{i})^{2} ，其中 f (x_{i}) = a x_{i} + b (2.2)$
注：m 表示点的总数，i 表示每个点。

二者差别在于最小二乘法没有除以m，均方差除以m。在某些场景会有变形，比如加权最小二乘法和加权均方差，权重是对应值出现的概率。
在周志华的机器学习一书讲到的一个概念是“最小二乘法是基于均方误差最小化来进行模型求解的方法”，即：

⇒

模型

\boxed{ minimize MSE \xRightarrow{模型} LS}

$minimi ze MSE 模型 L S$
介绍完LS和MSE，再回到一开始的问题，什么时候a和b达到最优解，可以通过求导方式求解，即在均方差函数上分别对相关未知变量求导，再令导函数

′

f’ =0

$f^{'} = 0$ 进行求解；也可以通过算法进行定向的搜索求解，即先分别给a和b先赋一个初始值，然后通过梯度下降算法，不断更新a和b的值，最终收敛到极值，得到最优解。

2.1 均方差求导求解

如何在均方差

(

)

∑

(

)

−

)

E\left( a,b \right)=\dfrac{1}{m} \textstyle \sum_{i=1}^m{ \left( f \left( x_i \right) – y_i \right) ^2 }

$E (a, b) = \frac{1}{m} \sum_{i = 1}^{m} (f (x_{i}) - y_{i})^{2}$ 上，分别对a和b求导呢？
先把

(

)

f \left( {x}_i \right)=ax_i+b

$f (x_{i}) = a x_{i} + b$ 代入上式，得到

(

)

∑

(

−

)

(

2.3

)

∑

(

−

)

(

−

)

(

2.4

)

∑

(

−

)

(

−

)

(

2.5

)

\begin{aligned} E\left( a,b \right) &= \dfrac{1}{m} \displaystyle \sum_{i=1}^m{ \left( ax_i+b – y_i \right) ^2 } &{(2.3)} \\ &= \dfrac{1}{m} \displaystyle \sum_{i=1}^m{\left( x_i^2a^2 + 2 \left(b-y_i \right)x_ia + \left(b-y_i \right)^2 \right)} &{(2.4)} \\ &= \dfrac{1}{m} \displaystyle \sum_{i=1}^m{\left( b^2 + 2 \left(ax_i-y_i \right)b + \left(ax_i-y_i \right)^2 \right)} &{(2.5)} \end{aligned}

$E (a, b) = \frac{1}{m} i = 1 \sum m (a x_{i} + b - y_{i})^{2} = \frac{1}{m} i = 1 \sum m (x_{i}^{2} a^{2} + 2 (b - y_{i}) x_{i} a + (b - y_{i})^{2}) = \frac{1}{m} i = 1 \sum m (b^{2} + 2 (a x_{i} - y_{i}) b + (a x_{i} - y_{i})^{2}) (2.3) (2.4) (2.5)$

当对a求导时，可以改为(2.4)式的结构以便查看；当对b求导时，可以改为(2.5)式的结构以便查看。求导结果为：

∂

(

)

∑

(

−

)

(

2.6

)

∂

(

)

∑

(

−

)

(

2.7

)

\begin{aligned} \dfrac{\partial}{\partial a} E_{(a,b)} &=\dfrac{2}{m} \displaystyle \sum_{i=1}^m{ \left( ax_i+b-y_i \right)x_i } &{(2.6)} \\ \dfrac{\partial}{\partial b} E_{(a,b)} &=\dfrac{2}{m} \displaystyle \sum_{i=1}^m{\left( ax_i+b-y_i \right)} &{(2.7)} \end{aligned}

$\frac{\partial}{\partial a} E_{(a, b)} \frac{\partial}{\partial b} E_{(a, b)} = \frac{2}{m} i = 1 \sum m (a x_{i} + b - y_{i}) x_{i} = \frac{2}{m} i = 1 \sum m (a x_{i} + b - y_{i}) (2.6) (2.7)$

令(2.6)式和(2.7)式都为0，并结合新得到的两个等式，可得到解：

∑

(

−

‾

)

∑

(

−

‾

)

或

∑

(

−

‾

)

∑

(

−

‾

)

或

∑

(

−

‾

)

(

−

‾

)

∑

(

−

‾

)

或

∑

−

‾

∑

−

‾

(2.9)

a=\dfrac{ \displaystyle \sum_{i=i}^m{\left( y_1 – \overline{y} \right) x_i}}{\displaystyle \sum_{i=i}^m{\left( x_1 – \overline{x} \right) x_i}} 或 \dfrac{ \displaystyle \sum_{i=1}^m{\left( x_i-\overline{x} \right)y_i} }{\displaystyle \sum_{i=i}^m{\left( x_1 – \overline{x} \right) x_i}} 或 \dfrac{ \displaystyle \sum_{i=i}^m{\left( y_1 – \overline{y} \right) \left( x_i -\overline{x} \right)}}{\displaystyle \sum_{i=i}^m{\left( x_1 – \overline{x} \right)^2}} 或=\dfrac{ \displaystyle \sum_{i=i}^m{ x_iy_1 } -m\overline{x}\overline{y} }{ \displaystyle \sum_{i=i}^m{ x_i^2 } -m\overline{x}^2 } \text{(2.9)}

$a = \frac{i = i \sum m ( y _{1} - y ) x _{i}}{i = i \sum m ( x _{1} - x ) x _{i}} 或 \frac{i = 1 \sum m ( x _{i} - x ) y _{i}}{i = i \sum m ( x _{1} - x ) x _{i}} 或 \frac{i = i \sum m ( y _{1} - y ) ( x _{i} - x )}{i = i \sum m ( x _{1} - x ) ^{2}} 或 = \frac{i = i \sum m x _{i} y _{1} - m x y}{i = i \sum m x _{i}^{2} - m x ^{2}} (2.9)$

∑

(

−

)

‾

−

‾

(2.10)

b=\dfrac{1}{m} \displaystyle \sum_{i=1}^m{\left( y_i-ax_i \right)}=\overline{y}-a\overline{x} \text{(2.10)}

$b = \frac{1}{m} i = 1 \sum m (y_{i} - a x_{i}) = \overline{y} - a \overline{x} (2.10)$

注：a的4个分子得到一样的值，3个分母也是，可以有多种组合。以上公式具体推导过程可以看公式推导小节。

该组数据得到的解为a=2.1；b=2.5。

import pandas as pd
import matplotlib.pyplot as plt
df = pd.DataFrame({'x':list(range(1,6)),'y':[5,6,9,11,13]})
plt.figure(figsize=(8,6))
plt.scatter(df.x,df.y)
plt.plot(df.x,df.x*2.1+2.5)
plt.show()

print(2.1*10+2.5)           # 结果为23.5

拟合结果如下：

插播：导数的作用

导数的作用：导数描述了一个函数在某一点上的变化率，这个变化率的大小需要根据导数结果定义。
比如直线函数（如

y=x

$y = x$ ，其求导函数为

′

y’=1

$y^{'} = 1$ ）的导数是一个自然数（

数字

数字1

$数字 1$ ），那么整一条直线上的任意一个点的导数都是该值，变化率不变。
如果是曲线函数（如

y=x^2

$y = x^{2}$ ，其求导函数为

′

y’=2x

$y^{'} = 2 x$ ），其导数会根据点在不同的位置上得到一个变化率（

′

y’

$y^{'}$ ），也表示为该点上的切线斜率，切线斜率越小，表示越接近全局或局部的最值（最大或最小值），当切线斜率为0时，达到最值（可能是全局也可能是局部，结合函数判断，最高幂次方为2次则只有一个最值），如下图1。
导数的作用就是帮助我们通过切线斜率等于0时找到最值，一般该值就是原函数的最优解。当然了，如果一个函数有多个切线斜率等于0，可能会取到局部的最优解，而不是全局最优解。（如下图2）

2.2 算法拟合求解

接下来看看算法实现的方式，算法实现的过程是通过定向的搜索。
先来看一个图，如下图，这也是一种搜索的过程，直接在原散点上找拟合效果比较好的线。不过该方法难以判断什么时候能够达到最优解。

这时候需要更加科学的方式来解决以上问题，前辈们已经为我们创造了好多算法用于搜索最优解。这些算法中有一个表经典的就是梯度下降法。该算法和前面的导函数有些相同之处，在寻找极值的时候，通过对函数对应的梯度不断进行迭代和搜索，最终在极值点收敛。如下图：

这是二维的展示，如果是三维的，可以参考吴恩达机器学习课程的一张经典的图：
注：

(

)

J \left( \theta_0,\theta_1 \right)

$J (θ_{0}, θ_{1})$ 是代价函数，同本文的

(

)

J \left( a,b \right)

$J (a, b)$ ，

\theta_0

$θ_{0}$ 和

\theta_1

$θ_{1}$ 则类比a和b，是代价函数（下面讲）的最优解。

梯度下降的算法逻辑很简单，不过用公式和求解表示会有一点复杂。

讲该算法之前，先引入另外一个概念：损失函数（也叫代价函数）。随着算法不断的发展，损失函数也不断发展。本文建一个比较经典的，就是基于均方差演变而来的，即在均方差的计算结果除以2，看了好些资料，介绍这个2，主要是用于约掉均方差求导后的系数2，以便于计算，姑且这么理解吧。
本次引入的损失函数如下：

(

)

∑

(

)

−

)

(2.11)

J\left( a,b \right)=\dfrac{1}{2m}\sum_{i=1}^m{ \left( f \left( x_i \right) – y_i \right) ^2 } \text{(2.11)}

$J (a, b) = \frac{1}{2 m} \sum_{i = 1}^{m} (f (x_{i}) - y_{i})^{2} (2.11)$

注：损失函数和代价函数的差别在于损失函数定义在单个样本，是一个样本的误差，代价函数定义在整个训练集，是所有样本的平均误差。

梯度下降算法的公式如下：

−

∂

(

)

(

2.12

)

−

∂

(

)

(

2.13

)

\begin{aligned} a_{i+1} &= a_i – \alpha \dfrac{\partial}{\partial a_i} J_{(a,b)} &{(2.12)} \\ b_{i+1} &= b_i – \alpha \dfrac{\partial}{\partial b_i} J_{(a,b)} &{(2.13)} \end{aligned}

$a_{i + 1} b_{i + 1} = a_{i} - α \frac{\partial}{\partial a _{i}} J_{(a, b)} = b_{i} - α \frac{\partial}{\partial b _{i}} J_{(a, b)} (2.12) (2.13)$

这两个公式是迭代公式，就是下一次的a和b值由本次得到的a和b值减去后面一长串公式得到的结果。

\alpha

$α$ 是学习速率，或者叫步长，就是你给算法定义的值，每次期望移动多大值；

∂

(

)

\dfrac{\partial}{\partial a} J_{(a,b)}

$\frac{\partial}{\partial a} J_{(a, b)}$ 和

∂

(

)

\dfrac{\partial}{\partial b} J_{(a,b)}

$\frac{\partial}{\partial b} J_{(a, b)}$ 是求导公式，即在损失函数上，对a和b分别求导。
补充说明：可能有的小伙伴对于对a和b分别求导有点无厘头，特别是多个位置参数放在一起的时候，更容易混淆。无论如何复杂，认准一点，对谁求导，谁就是自变量，其他的全部视为常数，然后根据求导的规则获取导函数。比如：

(

)

f \left( x \right)=ax^2+bx+c

$f (x) = a x^{2} + b x + c$ 对a求导就是

′

(

)

f’ \left( a \right)=x^2

$f^{'} (a) = x^{2}$ ，对b求导就是

′

(

)

f’ \left( b \right)=x

$f^{'} (b) = x$ ，对c求导就是

′

(

)

f’ \left( c \right)=1

$f^{'} (c) = 1$ 。

如何在代价函数

(

)

∑

(

)

−

)

J\left( a,b \right)=\dfrac{1}{2m} \textstyle \sum_{i=1}^m{ \left( f \left( x_i \right) – y_i \right) ^2 }

$J (a, b) = \frac{1}{2 m} \sum_{i = 1}^{m} (f (x_{i}) - y_{i})^{2}$ 上，分别对a和b求导呢？这个和上文讲均方差求导时有介绍过类似内容，只不过前面是均方差，此处是代价函数，多除以2，其他基本一致。
先把

(

)

f \left( {x}_i \right)=ax_i+b

$f (x_{i}) = a x_{i} + b$ 代入上式，得到

(

)

∑

(

−

)

(

2.14

)

∑

(

−

)

(

−

)

(

2.15

)

∑

(

−

)

(

−

)

(

2.16

)

\begin{aligned} J\left( a,b \right) &= \dfrac{1}{2m} \displaystyle \sum_{i=1}^m{ \left( ax_i+b – y_i \right) ^2 } &{(2.14)} \\ &= \dfrac{1}{2m} \displaystyle \sum_{i=1}^m{\left( x_i^2a^2 + 2 \left(b-y_i \right)x_ia + \left(b-y_i \right)^2 \right)} &{(2.15)} \\ &= \dfrac{1}{2m} \displaystyle \sum_{i=1}^m{\left( b^2 + 2 \left(ax_i-y_i \right)b + \left(ax_i-y_i \right)^2 \right)} &{(2.16)} \end{aligned}

$J (a, b) = \frac{1}{2 m} i = 1 \sum m (a x_{i} + b - y_{i})^{2} = \frac{1}{2 m} i = 1 \sum m (x_{i}^{2} a^{2} + 2 (b - y_{i}) x_{i} a + (b - y_{i})^{2}) = \frac{1}{2 m} i = 1 \sum m (b^{2} + 2 (a x_{i} - y_{i}) b + (a x_{i} - y_{i})^{2}) (2.14) (2.15) (2.16)$

当对a求导时，可以改为(2.15)式的结构以便查看；当对b求导时，可以改为(2.16)式的结构以便查看。求导结果为：

∂

(

)

∑

(

−

)

(

2.17

)

∂

(

)

∑

(

−

)

(

2.18

)

\begin{aligned} \dfrac{\partial}{\partial a} J_{(a,b)} &=\dfrac{1}{m} \displaystyle \sum_{i=1}^m{ \left( ax_i+b-y_i \right)x_i } &{(2.17)} \\ \dfrac{\partial}{\partial b} J_{(a,b)} &=\dfrac{1}{m} \displaystyle \sum_{i=1}^m{\left( ax_i+b-y_i \right)} &{(2.18)} \end{aligned}

$\frac{\partial}{\partial a} J_{(a, b)} \frac{\partial}{\partial b} J_{(a, b)} = \frac{1}{m} i = 1 \sum m (a x_{i} + b - y_{i}) x_{i} = \frac{1}{m} i = 1 \sum m (a x_{i} + b - y_{i}) (2.17) (2.18)$

注：具体推导过程可以看公式推导小节。

将(2.17)代入(2.12)，将(2.18)代入(2.13)，便可以得到：

−

∑

(

−

)

(

2.19

)

−

∑

(

−

)

(

2.20

)

\begin{aligned} a_{i+1} &= a_i – \alpha \dfrac{1}{m} \displaystyle \sum_{i=1}^m{ \left( a_ix_i+b_i-y_i \right)x_i } &{(2.19)} \\ b_{i+1} &= b_i – \alpha \dfrac{1}{m} \displaystyle \sum_{i=1}^m{ \left( a_ix_i+b_i-y_i \right) } &{(2.20)} \end{aligned}

$a_{i + 1} b_{i + 1} = a_{i} - α \frac{1}{m} i = 1 \sum m (a_{i} x_{i} + b_{i} - y_{i}) x_{i} = b_{i} - α \frac{1}{m} i = 1 \sum m (a_{i} x_{i} + b_{i} - y_{i}) (2.19) (2.20)$

注：右边的a和b的结构都是本次的a和b，左边的a和b是下一次值，二者同步更新。用Python实现过程，或需要新建一个中间变量，以避免在计算完(2.19)式之后，变量a 变成了下一次的值，等到计算(2.20)式时，使用下一次的a 值更新下一次的b 值。

如果通过Python实现们可以直接调用scikit-learn（sklearn）的线性回归模型库实现，具体代码实现步骤如下：

# 读取数据
import pandas as pd
data = pd.DataFrame({'x':[1,2,3,4,5],'y':[5,6,9,11,13]})
# data.shape,type(data)
x = data.loc[:,'x']
y = data.loc[:,'y']

# 画图查看数据分布
from matplotlib import pyplot as plt
plt.figure(figsize=(8,6))
plt.scatter(x,y)
plt.show()

# 调用sklearn的线性模型
from sklearn.linear_model import LinearRegression
lr_model = LinearRegression()

# 转换维度，一维转为二维
X = x.values.reshape(-1, 1) 

# 训练模型
lr_model.fit(X,y)
# 预测x结果
y_predict = lr_model.predict(X)

# 画图查看y和y_predict
plt.figure(figsize=(8,6))
plt.scatter(x,y)
plt.plot(x,y_predict)
plt.show()

# 打印a、b值
a = lr_model.coef_
b = lr_model.intercept_
print(a,b)                  # 结果为：[2.1] 2.499999999999999

# 查看均方差
from sklearn.metrics import mean_squared_error,r2_score
MSE = mean_squared_error(y,y_predict)
R2 = r2_score(y,y_predict)
print(MSE,R2)               # 结果为：0.13999999999999996 0.984375

# 预测具体某个值的结果
y_p = lr_model.predict([[10]])
print(y_p)                  # 结果为：[23.5]

拟合的曲线为：

(

)

2.1

2.5

f \left( {x}_i \right)=2.1x_i+2.5

$f (x_{i}) = 2.1 x_{i} + 2.5$
拟合结果可视化如下：

3 判断结果

通过以上两种求解方法得到的结果均为23.5。(10,27)点在拟合直线的上方，27比23.5大3.5。
是否合理呢？可以通过

R^2

$R^{2}$ 来衡量，在算法计算中有计算过该值，为0.984375，也就是说，在该模型的拟合效果上，有98.4%的可信度相信当x=10时，得到23.5。所以27是不合理的。但是，需要注意的是，该可信度是基于已知的5个点训练得到的结果，由于数量较少，对x>5之外的值可能不适用，当然，如果是相同的场景下，或有一定的适用性，权当教学使用。
虽然27不合理，但是在涉及到决策时，需要再结合实际的情况做出是否接受的判断，比如说如果是某地的房价预测是23.5万/平，实际出价是27万/平，对于卖方有利，对于卖方无利。站在卖方角度，一般可接受，站在买方角度，一般不可接受。

4 公式推导

4.1 如何证明

∑

i

=

1

m

(

x

i

−

x

‾

)

x

i

=

∑

i

=

1

m

(

x

i

−

x

‾

)

2

=

∑

i

=

i

m

x

i

2

−

m

x

‾

2

\textstyle\sum_{i=1}^m{ \left( {x}_i-\overline{x} \right)x_i} =\textstyle\sum_{i=1}^m{ \left( {x}_i-\overline{x} \right)^2} =\textstyle \sum_{i=i}^m{ x_i^2 } -m\overline{x}^2

$\sum_{i = 1}^{m} (x_{i} - \overline{x}) x_{i} = \sum_{i = 1}^{m} (x_{i} - \overline{x})^{2} = \sum_{i = i}^{m} x_{i}^{2} - m \overline{x}^{2}$ 成立？

∑

⋅

‾

∑

‾

(4.1)

\displaystyle\sum_{i=1}^m{ {x}_i} = x_1+x_2+x_3+··· ···+x_m=m \overline{x} =\displaystyle\sum_{i=1}^m{\overline{x}} \text{(4.1)}

$i = 1 \sum m x_{i} = x_{1} + x_{2} + x_{3} + \cdot\cdot\cdot\cdot\cdot\cdot + x_{m} = m \overline{x} = i = 1 \sum m \overline{x} (4.1)$

(4.1)式，x的m个样本值加起来等于m倍均值，可表示为

∑

‾

\textstyle \sum_{i=1}^m{\overline{x}}

$\sum_{i = 1}^{m} \overline{x}$ ，即m个

‾

\overline{x}

$\overline{x}$ 相加。

∑

(

‾

)

‾

∑

(4.2)

\displaystyle\sum_{i=1}^m{ \left( \overline{x} x_i \right)}=\overline{x}\displaystyle\sum_{i=1}^m{x_i} \text{(4.2)}

$i = 1 \sum m (\overline{x} x_{i}) = \overline{x} i = 1 \sum m x_{i} (4.2)$

(4.2)式，

‾

\overline{x}

$\overline{x}$ 是一个常量，(4.2)式相当于是

‾

⋅

‾

(

⋅

)

\overline{x} x_1+\overline{x} x_2+···+\overline{x} x_m=\overline{x} (x_1+x_2+···+x_m)

$\overline{x} x_{1} + \overline{x} x_{2} + \cdot\cdot\cdot + \overline{x} x_{m} = \overline{x} (x_{1} + x_{2} + \cdot\cdot\cdot + x_{m})$

证明

∑

(

−

‾

)

∑

(

−

‾

)

\textstyle\sum_{i=1}^m{ \left( {x}_i-\overline{x} \right)x_i} =\textstyle\sum_{i=1}^m{ \left( {x}_i-\overline{x} \right)^2}

$\sum_{i = 1}^{m} (x_{i} - \overline{x}) x_{i} = \sum_{i = 1}^{m} (x_{i} - \overline{x})^{2}$

∑

(

−

‾

)

∑

(

−

‾

)

(

4.3

)

∑

(

−

‾

−

‾

)

(

4.4

)

∑

(

−

‾

)

(

4.5

)

∑

(

−

‾

)

∑

(

‾

)

(

4.6

)

∑

(

−

‾

)

‾

∑

(

)

(

4.7

)

∑

(

−

‾

)

‾

⋅

‾

(

4.8

)

∑

(

−

‾

)

‾

(

4.9

)

∑

(

−

‾

)

∑

‾

(

4.10

)

∑

(

−

‾

)

(

4.11

)

∑

(

−

‾

)

(

4.12

)

\begin{aligned} \displaystyle\sum_{i=1}^m{ \left( {x}_i-\overline{x} \right)x_i} &=\displaystyle\sum_{i=1}^m{ \left( {x}_i^2-\overline{x} x_i \right)} &{(4.3)} \\ &=\displaystyle\sum_{i=1}^m{ \left( {x}_i^2-\overline{x} x_i + \overline{x} x_i – \overline{x} x_i \right)} &{(4.4)} \\ &=\displaystyle\sum_{i=1}^m{ \left( {x}_i^2-2 \overline{x} x_i + \overline{x} x_i \right)} &{(4.5)} \\ &=\displaystyle\sum_{i=1}^m{ \left( {x}_i^2-2 \overline{x} x_i \right)} + \displaystyle\sum_{i=1}^m{ \left( \overline{x} x_i \right)} &{(4.6)} \\ &=\displaystyle\sum_{i=1}^m{ \left( {x}_i^2-2 \overline{x} x_i \right)} + \overline{x}\displaystyle\sum_{i=1}^m{ \left( x_i \right)} &{(4.7)} \\ &=\displaystyle\sum_{i=1}^m{ \left( {x}_i^2-2 \overline{x} x_i \right)} + \overline{x}·m\overline{x} &{(4.8)} \\ &=\displaystyle\sum_{i=1}^m{ \left( {x}_i^2-2 \overline{x} x_i \right)} + m\overline{x}^2 &{(4.9)} \\ &=\displaystyle\sum_{i=1}^m{ \left( {x}_i^2-2 \overline{x} x_i \right)} + \displaystyle\sum_{i=1}^m{ \overline{x}^2 } &{(4.10)} \\ &=\displaystyle\sum_{i=1}^m{ \left( {x}_i^2-2 \overline{x} x_i + \overline{x}^2 \right) } &{(4.11)} \\ &=\displaystyle\sum_{i=1}^m{ \left( {x}_i- \overline{x} \right)^2 } &{(4.12)} \end{aligned}

$i = 1 \sum m (x_{i} - \overline{x}) x_{i} = i = 1 \sum m (x_{i}^{2} - \overline{x} x_{i}) = i = 1 \sum m (x_{i}^{2} - \overline{x} x_{i} + \overline{x} x_{i} - \overline{x} x_{i}) = i = 1 \sum m (x_{i}^{2} - 2 \overline{x} x_{i} + \overline{x} x_{i}) = i = 1 \sum m (x_{i}^{2} - 2 \overline{x} x_{i}) + i = 1 \sum m (\overline{x} x_{i}) = i = 1 \sum m (x_{i}^{2} - 2 \overline{x} x_{i}) + \overline{x} i = 1 \sum m (x_{i}) = i = 1 \sum m (x_{i}^{2} - 2 \overline{x} x_{i}) + \overline{x} \cdot m \overline{x} = i = 1 \sum m (x_{i}^{2} - 2 \overline{x} x_{i}) + m \overline{x}^{2} = i = 1 \sum m (x_{i}^{2} - 2 \overline{x} x_{i}) + i = 1 \sum m \overline{x}^{2} = i = 1 \sum m (x_{i}^{2} - 2 \overline{x} x_{i} + \overline{x}^{2}) = i = 1 \sum m (x_{i} - \overline{x})^{2} (4.3) (4.4) (4.5) (4.6) (4.7) (4.8) (4.9) (4.10) (4.11) (4.12)$

证明

∑

(

−

‾

)

∑

−

‾

\textstyle\sum_{i=1}^m{ \left( {x}_i-\overline{x} \right)x_i} =\textstyle \sum_{i=i}^m{ x_i^2 } -m\overline{x}^2

$\sum_{i = 1}^{m} (x_{i} - \overline{x}) x_{i} = \sum_{i = i}^{m} x_{i}^{2} - m \overline{x}^{2}$ ：

∑

(

−

‾

)

∑

−

∑

‾

(

4.13

)

∑

−

‾

∑

(

4.14

)

∑

−

‾

⋅

‾

(

4.15

)

∑

−

‾

(

4.16

)

\begin{aligned} \displaystyle\sum_{i=1}^m{ \left( {x}_i-\overline{x} \right)x_i} &=\displaystyle\sum_{i=1}^m{ {x}_i^2 }-\displaystyle\sum_{i=1}^m{\overline{x} x_i } &{(4.13)} \\ &=\displaystyle\sum_{i=1}^m{ {x}_i^2 }-\overline{x}\displaystyle\sum_{i=1}^m{ x_i } &{(4.14)} \\ &=\displaystyle\sum_{i=1}^m{ {x}_i^2 }-\overline{x}·m\overline{x} &{(4.15)} \\ &=\displaystyle\sum_{i=1}^m{ {x}_i^2 }-m\overline{x}^2 &{(4.16)} \end{aligned}

$i = 1 \sum m (x_{i} - \overline{x}) x_{i} = i = 1 \sum m x_{i}^{2} - i = 1 \sum m \overline{x} x_{i} = i = 1 \sum m x_{i}^{2} - \overline{x} i = 1 \sum m x_{i} = i = 1 \sum m x_{i}^{2} - \overline{x} \cdot m \overline{x} = i = 1 \sum m x_{i}^{2} - m \overline{x}^{2} (4.13) (4.14) (4.15) (4.16)$
结合(4.1)式代入(4.14)可得到(4.15)式。

4.2 如何证明

∑

i

=

1

m

(

x

i

−

x

‾

)

y

i

=

∑

i

=

1

m

(

y

i

−

y

‾

)

x

i

=

∑

i

=

i

m

(

y

i

−

y

‾

)

(

x

i

−

x

‾

)

=

∑

i

=

i

m

x

i

y

i

−

m

x

‾

y

‾

\textstyle \sum_{i=1}^m{\left( x_i-\overline{x} \right)y_i}=\textstyle \sum_{i=1}^m{\left( y_i-\overline{y} \right)x_i} =\textstyle \sum_{i=i}^m{\left( y_i – \overline{y} \right) \left( x_i -\overline{x} \right)} = \textstyle \sum_{i=i}^m{ x_iy_i } -m\overline{x}\overline{y}

$\sum_{i = 1}^{m} (x_{i} - \overline{x}) y_{i} = \sum_{i = 1}^{m} (y_{i} - \overline{y}) x_{i} = \sum_{i = i}^{m} (y_{i} - \overline{y}) (x_{i} - \overline{x}) = \sum_{i = i}^{m} x_{i} y_{i} - m \overline{x} \overline{y}$ 成立？

‾

∑

(

4.17

)

‾

∑

(

4.18

)

\begin{aligned} \overline{x}= \dfrac{1}{m} \displaystyle \sum_{i=1}^m{x_i} &{(4.17)} \\ \overline{y}= \dfrac{1}{m} \displaystyle \sum_{i=1}^m{y_i} &{(4.18)} \end{aligned}

$\overline{x} = \frac{1}{m} i = 1 \sum m x_{i} \overline{y} = \frac{1}{m} i = 1 \sum m y_{i} (4.17) (4.18)$

证明

∑

(

−

‾

)

∑

(

−

‾

)

\textstyle \sum_{i=1}^m{\left( x_i-\overline{x} \right)y_i}=\textstyle \sum_{i=1}^m{\left( y_i-\overline{y} \right)x_i}

$\sum_{i = 1}^{m} (x_{i} - \overline{x}) y_{i} = \sum_{i = 1}^{m} (y_{i} - \overline{y}) x_{i}$ ：

∑

(

−

‾

)

∑

(

−

‾

)

(

4.19

)

∑

−

∑

‾

(

4.20

)

∑

−

‾

⋅

∑

(

4.21

)

∑

−

(

∑

)

⋅

(

‾

)

(

4.22

)

∑

−

‾

∑

(

4.23

)

∑

−

∑

‾

(

4.24

)

∑

(

−

‾

)

(

4.25

)

∑

(

−

‾

)

(

4.26

)

\begin{aligned} \displaystyle \sum_{i=1}^m{\left( x_i-\overline{x} \right)y_i} &=\displaystyle\sum_{i=1}^m{ \left( x_iy_i-\overline{x}y_i \right)} &{(4.19)} \\ &=\displaystyle\sum_{i=1}^m{ x_iy_i}-\displaystyle\sum_{i=1}^m{ \overline{x}y_i } &{(4.20)} \\ &=\displaystyle\sum_{i=1}^m{ x_iy_i}-\overline{x}·\displaystyle\sum_{i=1}^m{ y_i } &{(4.21)} \\ &=\displaystyle\sum_{i=1}^m{ x_iy_i}-\left( \dfrac{1}{m} \displaystyle \sum_{i=1}^m{x_i} \right) · \left( m \overline{y} \right) &{(4.22)} \\ &=\displaystyle\sum_{i=1}^m{ x_iy_i}-\overline{y}\displaystyle \sum_{i=1}^m{x_i} &{(4.23)} \\ &=\displaystyle\sum_{i=1}^m{ x_iy_i}-\displaystyle \sum_{i=1}^m{\overline{y}x_i} &{(4.24)} \\ &=\displaystyle\sum_{i=1}^m{ \left( x_iy_i- \overline{y}x_i \right)} &{(4.25)} \\ &=\displaystyle \sum_{i=1}^m{\left( y_i-\overline{y} \right)x_i} &{(4.26)} \end{aligned}

$i = 1 \sum m (x_{i} - \overline{x}) y_{i} = i = 1 \sum m (x_{i} y_{i} - \overline{x} y_{i}) = i = 1 \sum m x_{i} y_{i} - i = 1 \sum m \overline{x} y_{i} = i = 1 \sum m x_{i} y_{i} - \overline{x} \cdot i = 1 \sum m y_{i} = i = 1 \sum m x_{i} y_{i} - (\frac{1}{m} i = 1 \sum m x_{i}) \cdot (m \overline{y}) = i = 1 \sum m x_{i} y_{i} - \overline{y} i = 1 \sum m x_{i} = i = 1 \sum m x_{i} y_{i} - i = 1 \sum m \overline{y} x_{i} = i = 1 \sum m (x_{i} y_{i} - \overline{y} x_{i}) = i = 1 \sum m (y_{i} - \overline{y}) x_{i} (4.19) (4.20) (4.21) (4.22) (4.23) (4.24) (4.25) (4.26)$

将(4.17)和(4.18)代入(4.21)可得到(4.22)。
注意：

∑

\textstyle \sum_{i=1}^m{x_iy_i} \mathrlap{\,/}{=} x_i\textstyle \sum_{i=1}^m{y_i}

$\sum_{i = 1}^{m} x_{i} y_{i} / = x_{i} \sum_{i = 1}^{m} y_{i}$ 因为

x_i

$x_{i}$ 不是常量，

∑

\textstyle \sum_{i=1}^m{x_iy_i}

$\sum_{i = 1}^{m} x_{i} y_{i}$ 表示的是两个变量

x_i

$x_{i}$ 和

y_i

$y_{i}$ 乘积的和，计算顺序为先乘后加。而

∑

x_i\textstyle \sum_{i=1}^m{y_i}

$x_{i} \sum_{i = 1}^{m} y_{i}$ 是对变量

y_i

$y_{i}$ 求和之后乘以变量

x_i

$x_{i}$ 。如果

x_i

$x_{i}$ 为常量等式才成立。

证明

∑

(

−

‾

)

∑

(

−

‾

)

(

−

‾

)

\textstyle \sum_{i=1}^m{\left( x_i-\overline{x} \right)y_i} =\textstyle \sum_{i=i}^m{\left( y_i – \overline{y} \right) \left( x_i -\overline{x} \right)}

$\sum_{i = 1}^{m} (x_{i} - \overline{x}) y_{i} = \sum_{i = i}^{m} (y_{i} - \overline{y}) (x_{i} - \overline{x})$ ：

∑

(

−

‾

)

(

−

‾

)

∑

(

−

‾

−

‾

)

(

4.27

)

∑

(

−

‾

)

−

∑

(

‾

)

∑

(

‾

)

(

4.28

)

∑

(

−

‾

)

−

‾

∑

(

)

‾

∑

(

‾

)

(

4.29

)

∑

(

−

‾

)

−

‾

−

‾

(

4.30

)

∑

(

−

‾

)

(

4.31

)

\begin{aligned} \displaystyle \sum_{i=i}^m{\left( y_1 – \overline{y} \right) \left( x_i -\overline{x} \right)} &=\displaystyle \sum_{i=i}^m{\left( x_iy_i -\overline{x}y_i – x_i\overline{y} +\overline{xy} \right)} &{(4.27)} \\&=\displaystyle \sum_{i=i}^m{\left( x_i -\overline{x} \right)y_i} -\displaystyle \sum_{i=i}^m{\left( x_i\overline{y} \right) }+\displaystyle \sum_{i=i}^m{\left(\overline{xy} \right)} &{(4.28)} \\&=\displaystyle \sum_{i=i}^m{\left( x_i -\overline{x} \right)y_i} -\overline{y}\displaystyle \sum_{i=i}^m{\left( x_i \right) }+\overline{y}\displaystyle \sum_{i=i}^m{\left(\overline{x} \right)} &{(4.29)} \\&=\displaystyle \sum_{i=i}^m{\left( x_i -\overline{x} \right)y_i} -m\overline{xy}+-m\overline{xy} &{(4.30)} \\&=\displaystyle \sum_{i=i}^m{\left( x_i -\overline{x} \right)y_i} &{(4.31)} \end{aligned}

$i = i \sum m (y_{1} - \overline{y}) (x_{i} - \overline{x}) = i = i \sum m (x_{i} y_{i} - \overline{x} y_{i} - x_{i} \overline{y} + \overline{x y}) = i = i \sum m (x_{i} - \overline{x}) y_{i} - i = i \sum m (x_{i} \overline{y}) + i = i \sum m (\overline{x y}) = i = i \sum m (x_{i} - \overline{x}) y_{i} - \overline{y} i = i \sum m (x_{i}) + \overline{y} i = i \sum m (\overline{x}) = i = i \sum m (x_{i} - \overline{x}) y_{i} - m \overline{x y} + - m \overline{x y} = i = i \sum m (x_{i} - \overline{x}) y_{i} (4.27) (4.28) (4.29) (4.30) (4.31)$
将(4.1)式和(4.17)式代入(4.29)，可得到(4.30)。

证明

∑

(

−

‾

)

∑

−

‾

\textstyle \sum_{i=1}^m{\left( x_i-\overline{x} \right)y_i} = \textstyle \sum_{i=i}^m{ x_iy_i } -m\overline{x}\overline{y}

$\sum_{i = 1}^{m} (x_{i} - \overline{x}) y_{i} = \sum_{i = i}^{m} x_{i} y_{i} - m \overline{x} \overline{y}$ ：结合(4.18)式和(4.21)式，即可推导出该结果。

4.3 为什么

J

(

a

,

b

)

=

1

2

m

∑

i

=

1

m

(

a

x

i

+

b

−

y

i

)

2

J_{(a,b)} =\dfrac{1}{2m} \textstyle\sum_{i=1}^m{\left( ax_i+b-y_i \right)^2}

$J_{(a, b)} = \frac{1}{2 m} \sum_{i = 1}^{m} (a x_{i} + b - y_{i})^{2}$ 对a 求导之后是

1

m

∑

i

=

1

m

(

a

x

i

+

b

−

y

i

)

x

i

\dfrac{1}{m} \textstyle \sum_{i=1}^m{\left( ax_i+b-y_i\right) x_i}

$\frac{1}{m} \sum_{i = 1}^{m} (a x_{i} + b - y_{i}) x_{i}$ ，而对b 求导之后是

1

m

∑

i

=

1

m

(

a

x

i

+

b

−

y

i

)

\dfrac{1}{m} \textstyle \sum_{i=1}^m{\left( ax_i+b-y_i\right)}

$\frac{1}{m} \sum_{i = 1}^{m} (a x_{i} + b - y_{i})$ ？

在

(

)

E(a,b)

$E (a, b)$ 函数上对a和b求导的解法和该解法相类似，不赘述。

(

)

∑

(

−

)

(

4.32

)

∑

(

−

)

(

−

)

(

4.33

)

∑

(

−

)

(

−

)

(

4.34

)

\begin{aligned} J\left( a,b \right) &= \dfrac{1}{2m} \displaystyle \sum_{i=1}^m{ \left( ax_i+b – y_i \right) ^2 } &{(4.32)} \\ &= \dfrac{1}{2m} \displaystyle \sum_{i=1}^m{\left( x_i^2a^2 + 2 \left(b-y_i \right)x_ia + \left(b-y_i \right)^2 \right)} &{(4.33)} \\ &= \dfrac{1}{2m} \displaystyle \sum_{i=1}^m{\left( b^2 + 2 \left(ax_i-y_i \right)b + \left(ax_i-y_i \right)^2 \right)} &{(4.34)} \end{aligned}

使用(4.33)式，对a求导；使用(4.34)式对b求导。

∂

(

)

∂

∑

(

−

)

(

4.35

)

∑

(

−

)

(

4.36

)

∑

(

−

)

(

4.37

)

∑

(

−

)

(

4.38

)

∂

(

)

∂

∑

(

−

)

(

4.39

)

∑

(

−

)

(

4.40

)

∑

(

−

)

(

4.41

)

∑

(

−

)

(

4.42

)

\begin{aligned} \dfrac{\partial J_{(a,b)}}{\partial a} &=\dfrac{1}{2m} \displaystyle \sum_{i=1}^m{\left( 2x_i^2a + 2 \left(b-y_i \right)x_i + 0 \right)} &{(4.35)} \\&=\dfrac{1}{2m} \displaystyle \sum_{i=1}^m{ 2x_i \left( x_ia + \left(b-y_i \right) \right) } &{(4.36)} \\&=\dfrac{1}{m} \displaystyle \sum_{i=1}^m{ x_i \left( x_ia + b-y_i \right) } &{(4.37)} \\&=\dfrac{1}{m} \displaystyle \sum_{i=1}^m{\left( ax_i+b-y_i\right) x_i} &{(4.38)} \end{aligned} \\ \begin{aligned} \dfrac{\partial J_{(a,b)}}{\partial b} &= \dfrac{1}{2m} \displaystyle \sum_{i=1}^m{\left( 2b + 2 \left(ax_i-y_i \right) + 0 \right)} &{(4.39)} \\&=\dfrac{1}{2m} \displaystyle \sum_{i=1}^m{ 2x_i \left( x_ia + \left(b-y_i \right) \right) } &{(4.40)} \\&=\dfrac{1}{m} \displaystyle \sum_{i=1}^m{ x_i \left( x_ia + b-y_i \right) } &{(4.41)} \\&=\dfrac{1}{m} \displaystyle \sum_{i=1}^m{\left( ax_i+b-y_i\right) x_i} &{(4.42)} \end{aligned}

$\frac{\partial J _{(a, b)}}{\partial a} = \frac{1}{2 m} i = 1 \sum m (2 x_{i}^{2} a + 2 (b - y_{i}) x_{i} + 0) = \frac{1}{2 m} i = 1 \sum m 2 x_{i} (x_{i} a + (b - y_{i})) = \frac{1}{m} i = 1 \sum m x_{i} (x_{i} a + b - y_{i}) = \frac{1}{m} i = 1 \sum m (a x_{i} + b - y_{i}) x_{i} (4.35) (4.36) (4.37) (4.38) \frac{\partial J _{(a, b)}}{\partial b} = \frac{1}{2 m} i = 1 \sum m (2 b + 2 (a x_{i} - y_{i}) + 0) = \frac{1}{2 m} i = 1 \sum m 2 x_{i} (x_{i} a + (b - y_{i})) = \frac{1}{m} i = 1 \sum m x_{i} (x_{i} a + b - y_{i}) = \frac{1}{m} i = 1 \sum m (a x_{i} + b - y_{i}) x_{i} (4.39) (4.40) (4.41) (4.42)$

4.4 sklearn.metrics.r2_score的公式及变形推导

基础知识：
总体平方和（Total Sum of Squares）：

∑

(

−

‾

)

TSS= \textstyle \sum_{i=1}^m{ \left( y_i-\overline{y} \right)^2}

$TSS = \sum_{i = 1}^{m} (y_{i} - \overline{y})^{2}$ （实际值与均值的差值的平方和）
回归平方和（Explained Sum of Squares）：

∑

(

′

−

‾

)

ESS=\textstyle \sum_{i=1}^m{ \left( y’-\overline{y} \right)^2}

$ESS = \sum_{i = 1}^{m} (y^{'} - \overline{y})^{2}$ （预测值与均值的差值的平方和）
残差平方和（Residual Sum of Squares）：

∑

(

−

′

)

RSS=\textstyle \sum_{i=1}^m{ \left( y_i-y’ \right)^2}

$RSS = \sum_{i = 1}^{m} (y_{i} - y^{'})^{2}$ （实际值与预测值的差值的平方和）

TSS=ESS+RSS

$TSS = ESS + RSS$
均方差（Mean Square Error）：

∑

(

−

′

)

MSE=\dfrac{1}{m} \textstyle \sum_{i=1}^m{ \left( y_i-y’ \right)^2}=\dfrac{1}{m}RSS

$MSE = \frac{1}{m} \sum_{i = 1}^{m} (y_{i} - y^{'})^{2} = \frac{1}{m} RSS$
y的方差（Variance）：

∑

(

−

‾

)

var_y=\dfrac{1}{m} \textstyle \sum_{i=1}^m{ \left( y_i-\overline{y} \right)^2}=\dfrac{1}{m}TSS

$v a r_{y} = \frac{1}{m} \sum_{i = 1}^{m} (y_{i} - \overline{y})^{2} = \frac{1}{m} TSS$
x的方差（Variance）：

∑

(

−

‾

)

var_x=\dfrac{1}{m} \textstyle \sum_{i=1}^m{ \left( x_i-\overline{x} \right)^2}

$v a r_{x} = \frac{1}{m} \sum_{i = 1}^{m} (x_{i} - \overline{x})^{2}$
标准差（Standard Deviation）：

std=\sqrt{var}

$s t d = v a r$

−

(

残差平方和与总体平方和的比值

)

−

(

均方差和

的方差的比值

)

(

)

(

)

(

直线系数

乘以

和

的标准差的比值

)

\begin{aligned} R^2 &=1-\dfrac{RSS}{TSS}(残差平方和与总体平方和的比值) \\&=1-\dfrac{MSE}{var_y}(均方差和y_i的方差的比值) \\&=a\dfrac{std(x_i)}{std(y_i)}(直线系数a乘以x_i和y_i的标准差的比值) \end{aligned}

$R^{2} = 1 - \frac{RSS}{TSS} (残差平方和与总体平方和的比值) = 1 - \frac{MSE}{v a r _{y}} (均方差和 y_{i} 的方差的比值) = a \frac{s t d ( x _{i} )}{s t d ( y _{i} )} (直线系数 a 乘以 x_{i} 和 y_{i} 的标准差的比值)$

对

R^2

$R^{2}$ 从上到下推导：
(4.43)~(4.45)证明：

−

\begin{aligned} R^2=1-\dfrac{RSS}{TSS}=1-\dfrac{MSE}{var_y} \end{aligned}

$R^{2} = 1 - \frac{RSS}{TSS} = 1 - \frac{MSE}{v a r _{y}}$
(4.46)~(4.54)证明：

−

(

)

(

)

\begin{aligned} R^2=1-\dfrac{RSS}{TSS} =a\dfrac{std(x_i)}{std(y_i)} \end{aligned}

$R^{2} = 1 - \frac{RSS}{TSS} = a \frac{s t d ( x _{i} )}{s t d ( y _{i} )}$
注：

′

y’=ax_i+b

$y^{'} = a x_{i} + b$ 代入(4.48)，

‾

−

‾

b=\overline{y}-a\overline{x}

$b = \overline{y} - a \overline{x}$ 代入(4.49)

−

(

4.43

)

−

(

4.44

)

−

(

4.45

)

−

(

4.46

)

(

4.47

)

∑

(

′

−

‾

)

∑

(

−

‾

)

(

4.48

)

∑

(

−

‾

)

∑

(

−

‾

)

(

4.49

)

∑

(

‾

−

‾

)

−

‾

)

∑

(

−

‾

)

(

4.50

)

∑

(

−

‾

)

∑

(

−

‾

)

(

4.51

)

∑

(

−

‾

)

∑

(

−

‾

)

(

4.52

)

∑

(

−

‾

)

∑

(

−

‾

)

(

4.53

)

(

)

(

)

(

4.54

)

\begin{aligned} R^2 &=1-\dfrac{RSS}{TSS} &{(4.43)} \\&=1-\dfrac{\dfrac{1}{m}RSS}{\dfrac{1}{m}TSS} &{(4.44)} \\&=1-\dfrac{MSE}{var_y} &{(4.45)} \\&=\dfrac{TSS-RSS}{TSS} &{(4.46)} \\&=\dfrac{ESS}{TSS} &{(4.47)} \\&=\dfrac{\displaystyle \sum_{i=1}^m{ \left( y’-\overline{y} \right)^2}}{\displaystyle \sum_{i=1}^m{ \left( y_i-\overline{y} \right)^2}} &{(4.48)} \\&=\dfrac{\displaystyle \sum_{i=1}^m{ \left( ax_i+b-\overline{y} \right)^2}}{\displaystyle \sum_{i=1}^m{ \left( y_i-\overline{y} \right)^2}} &{(4.49)} \\&=\dfrac{\displaystyle \sum_{i=1}^m{ \left( ax_i+\left( \overline{y}-a\overline{x}\right)-\overline{y} \right)^2}}{\displaystyle \sum_{i=1}^m{ \left( y_i-\overline{y} \right)^2}} &{(4.50)} \\&=\dfrac{\displaystyle \sum_{i=1}^m{ \left( ax_i-a\overline{x} \right)^2}}{\displaystyle \sum_{i=1}^m{ \left( y_i-\overline{y} \right)^2}} &{(4.51)} \\&=\dfrac{a^2\displaystyle \sum_{i=1}^m{ \left( x_i-\overline{x} \right)^2}}{\displaystyle \sum_{i=1}^m{ \left( y_i-\overline{y} \right)^2}} &{(4.52)} \\&=a^2\dfrac{ \dfrac{1}{m} \displaystyle \sum_{i=1}^m{ \left( x_i-\overline{x} \right)^2}}{\dfrac{1}{m}\displaystyle \sum_{i=1}^m{ \left( y_i-\overline{y} \right)^2}} &{(4.53)} \\&=a^2\dfrac{var(x_i)}{var(y_i)} &{(4.54)} \end{aligned}

$R^{2} = 1 - \frac{RSS}{TSS} = 1 - \frac{\frac{1}{m} RSS}{\frac{1}{m} TSS} = 1 - \frac{MSE}{v a r _{y}} = \frac{TSS - RSS}{TSS} = \frac{ESS}{TSS} = \frac{i = 1 \sum m ( y ^{'} - y ) ^{2}}{i = 1 \sum m ( y _{i} - y ) ^{2}} = \frac{i = 1 \sum m ( a x _{i} + b - y ) ^{2}}{i = 1 \sum m ( y _{i} - y ) ^{2}} = \frac{i = 1 \sum m ( a x _{i} + ( y - a x ) - y ) ^{2}}{i = 1 \sum m ( y _{i} - y ) ^{2}} = \frac{i = 1 \sum m ( a x _{i} - a x ) ^{2}}{i = 1 \sum m ( y _{i} - y ) ^{2}} = \frac{a ^{2} i = 1 \sum m ( x _{i} - x ) ^{2}}{i = 1 \sum m ( y _{i} - y ) ^{2}} = a^{2} \frac{\frac{1}{m} i = 1 \sum m ( x _{i} - x ) ^{2}}{\frac{1}{m} i = 1 \sum m ( y _{i} - y ) ^{2}} = a^{2} \frac{v a r ( x _{i} )}{v a r ( y _{i} )} (4.43) (4.44) (4.45) (4.46) (4.47) (4.48) (4.49) (4.50) (4.51) (4.52) (4.53) (4.54)$