用户:Chen-Pan Liao/沙盒
统计学系列条目 |
回归分析 |
---|
模型 |
估计 |
背景 |
在统计学中,简单线性回归是指仅具有单一的自变数的线性回归[1][2][3][4][5],其中“简单”系单一自变数之意。此回归可用于估计有限的截距与斜率以推论应变数在特定自变数为条件下的均值。
最小平方法是常见用于寻求简单线性回归式的方法,目的是得到能使残差平方和最小的回归式。其它方法,诸如最小绝对偏差(使残差绝对值的总和最小)、泰尔-森估算(所有样本点两两配对的斜率中位数做为整体斜率)等,亦可应用于简单线性回归的命题。戴明回归(考虑自变数与应变数同时为误差来源)的功能虽然与上述方法相似但不属于简单线性回归的范畴,因其不区分自变数与应变数且可能得到多个回归式。
以最小平方法处理简单线性回归,则求得的斜率β等于自变数x与应变数y的皮尔森积动差相关系数与二者的标准偏差比值的乘积,
而再考虑截距α则保证使回归线通过自变数与应变数的均值 (x, y)。
计算回归式
编辑以下皆以最小平方法求解简单线性回归式。考虑以下的数学模型函数
- ,
是一条斜率为β且y轴截距为α的直线。通常实际上自变数与应变数并非如此完美的关系而存在未知的误差εi,即
- ,
以表示第 对资料中自变数与应变数的关系。此模型称为简单线性模型。
计算回归式的目标是根据资料计算估计值 与 以“最佳地”估计参数α与β。由于采用最小平方法进行计算,“最佳”系指能使残差平方和 最小的参数估计值为目标。换句话说,我们寻求能使Q函数值最小的解,
- 。
此解为 与 [6],
其中
- 与 分别为xi与yi的计数平均数,
- rxy为x与y的皮尔森积动差相关系数,
- sx与sy分别为x与y的样本标准偏差,
- 与 分别为x的样本变异数及x与y间的样本共变异数。
将 与 带入
可得
- 。
此式呈现了rxy为预先将自变数与应变数预先标准化后的回归斜率。由于rxy界于-1与1之间,左式的绝对值势必不大于右式,体现了趋中回归的现象。
以 表示对应的x与y的乘积和,
- ,
可使rxy简化成
- 。
简单线性回归的判定系数即为二变数间皮尔森积动差相关系数的平方:
- 。
回归系数的直观意义
编辑将 的估计式分子乘以 ,可改写为
。
可以看出,回归式的斜率为 以 为权数的加权平均。因此, 越大的资料对斜率 的影响力越大。
截距的直观意义
编辑可经由下列式子估算: 。 由于 ,其中 即为与横轴正值的夹角,可以得到 。
相关性的直观意义 =
编辑上述数学式中,我们假设每个 皆为常数而每个 皆为随机变数,其中 由回归式及 随机变数而决定。这项假设使得计算斜率的标准误差为不偏unbiased。
In this framing, when is not actually a random variable, what type of parameter does the empirical correlation estimate? The issue is that for each value i we'll have: and . A possible interpretation of is to imagine that defines a random variable drawn from the empirical distribution of the x values in our sample. For example, if x had 10 values from the natural numbers: [1,2,3...,10], then we can imagine x to be a Discrete uniform distribution. Under this interpretation all have the same expectation and some positive variance. With this interpretation we can think of as the estimator of the Pearson's correlation between the random variable y and the random variable x (as we just defined it).
参考文献
编辑- ^ Seltman, Howard J. Experimental Design and Analysis (PDF). 2008-09-08: 227.
- ^ Statistical Sampling and Regression: Simple Linear Regression. Columbia University. [2016-10-17].
When one independent variable is used in a regression, it is called a simple regression;(...)
- ^ Lane, David M. Introduction to Statistics (PDF). : 462.
- ^ Zou KH; Tuncali K; Silverman SG. Correlation and simple linear regression.. Radiology. 2003, 227 (3): 617–22. ISSN 0033-8419. OCLC 110941167. PMID 12773666. doi:10.1148/radiol.2273011499 (English).
- ^ Altman, Naomi; Krzywinski, Martin. Simple linear regression. Nature Methods. 2015, 12 (11): 999–1000. ISSN 1548-7091. OCLC 5912005539. PMID 26824102. doi:10.1038/nmeth.3627 (English).
- ^ Kenney, J. F. and Keeping, E. S. (1962) "Linear Regression and Correlation." Ch. 15 in Mathematics of Statistics, Pt. 1, 3rd ed. Princeton, NJ: Van Nostrand, pp. 252–285
|