文章福利:Python学习精选书籍10本

什么是回归?如何从根源上去理解它呢?

今生:

存在都是合理的,任何被人们认可的东西都是经过先辈经验累积和时间沉淀所创造出来产物,本话题中的 '回归' 也不例外。

起初人们为了研究数据之间的某种关系,研究出了许多方法和技术,经过时间沉淀,针对特定情况过滤出来了一部分非常好的技术方法。

回归分析就算其中一种,他的一个很明显的用武之地就是:通过对符合条件的数据进行回归分析后,用回归结论去做预测...

然而上面只是告诉你回归是一种在研究数据关系里的众多手段中的一种,并且是有用武之地的,因为没用的话早都被淘汰出局了。

前世(回归本源):

回归(分析)的基本思想最早是由F.高尔顿(F.Galton 1822-1911)提出来的,他是一位英国统计学家,由于一直痴迷于他的大表哥(达尔文)的进化论,并且希望将进化论应用到实证中去,来证明不同人为什么会具有不同的特性。

为了实践,高尔顿把人的各种特征研究到了极致(开玩笑),从指纹到身高,再到颜值等等一系列特征进行打分。

努力了不一定有100%的概率成功,但一定会100%降低不成功的概率,高尔顿和他的学生(K.皮尔逊)在研究父母身高和其子女身高的遗传问题时,发现了一种现象:

子辈的平均身高是其父辈平均身高以及他们所处族群平均身高的加权平均和。

高尔顿和学生皮尔逊考考察了1078对夫妇,将每对夫妇的平均身高作为 x, 其子女身高作为 y,并将这些样本点展现在平面直角坐标系上,发现趋势近似一条直线:

这种趋势表明:父母平均身高x每增加一个单位,其子女身高y平均增加0.516个单位,反之则为减少相应单位。

随着辈分的增多,相比于同龄人的身高增量逐渐趋于稳定。这里有点收敛的意思在里面

有趣的是,通过观察,高尔顿还注意到,尽管这是一种拟合较好的线形关系,但仍然存在例外现象:矮个父母所 生的儿子比其父要高,身材较高的父母所生子女的身高却回降到多数人的平均身高。

正是子代人有回到同龄人平均身高的这种趋势,才没有出现父辈个子高其子女更高,父辈个子矮其子女个子更矮的两极分化现象

抑制高个更高,抑制矮个更矮,回归到相对于同龄人高度的稳定值,没有出现两级分化。

高尔顿的解释是:大自然具有一种约束力,使得人类身高的分布在一定时期内相对稳定而不产生两极分化,这就是所谓的”回归“效应。

通过这一例子,高尔顿引入了'回归'(regression)一词。神奇的大自然。

--- END ---

更多精彩内容请关注 公众号:数据与编程之美

首发地址:今生-前世 什么是回归?