|
|
|
|
移动端

1.3 统计模型

《精通数据科学:从线性回归到深度学习》第1章数据科学概述,本书从数学统计学,讲到机器学习、深度学习中用到的算法及模型,借鉴经济学视角给出模型的相关解释,深入探讨模型的可用性,并结合大量的实际案例和代码帮助读者学以致用,将具体的应用场景和现有的模型相结合,从而更好地发现模型的潜在应用场景。本节为大家介绍统计模型。

作者:唐亘来源:人民邮电出版社|2018-05-24 09:06

技术沙龙 | 6月30日与多位专家探讨技术高速发展下如何应对运维新挑战!


1.3 统计模型

从上面的例子中可以看到,机器学习非常依赖所用的训练数据。但是数据就百分之百可靠吗?下面就来看两个数据“说谎”的例子。

如图1-6所示,我们将某APP每月的用户注册数表示在图中。图1-6a给人的直观印象是每月的安装数是大致差不多的,没有明显的增长。而图1-6b给人不同的印象,从3月份开始,用户注册数大幅度增长。但其实两幅图的数据是一模一样的,给人不同的感觉是因为图1-6a中纵轴的起点是0,而且使用了对数尺度;而图1-6b的纵轴是从17 000开始的,而且使用的是线性尺度。

读者可能会觉得上面这个例子太过简单了,只需要使用一些简单的统计指标,比如平均值或每个月的增长率,就可以避免错误的结论。那么下面来看一个复杂一点的例子。

当得到如图1-7所示的两组数据时,我们应该如何用模型去描述数据的变化规律呢?

对于图1-7a,数据的图形有点像抛物线,因此选择二次多项式拟合是一个比较合理的选择。于是假设模型的形式为y~=\left( x-a \right)\left( x-b \right)。然后使用数据去估计模型中的未知参数a,b。得到的结果还不错,模型的预测值与真实值的差异并不大。

对于图1-7b,数据之间有明显的线性关系,所以使用线性回归对其建模,即y=ax+b。与上面类似,得到的模型结果也不错。

根据上面的分析结果,可以得出如下的结论,图1-7a中的x与y之间是二次函数关系,而图1-7b的x与y之间是线性关系。但其实两幅图中的变量y都是与x无关的随机变量,只是因为观察窗口较小,收集的数据样本太少,让我们误以为它们之间存在某种关系。如果增大观察窗口,收集更多的数据,则可以得到完全不同的结论。如图1-8所示,如果将收集的样本数从20增加到200,会发现图1-8a中的数据图形更像是一个向下开口的抛物线,这与图1-7a中的结论完全相反。而图1-8b中也不再是向下的直线,而与开口向上的抛物线更加相似。

上面的例子就是所谓的模型幻觉:表面上找到了数据变动的规律,但其实只是由随机扰动引起的数字巧合。因此在对搭建模型时,必须时刻保持警惕,不然很容易掉进数据的“陷阱”里,被数据给骗了,而这正是统计学的研究重点。这门学科会“小心翼翼”地处理它的各种模型,以确保模型能摆脱数据中随机因素的干扰,得到稳定且正确的结论,正好弥补机器学习在这方面的不足。


喜欢的朋友可以添加我们的微信账号:

51CTO读书频道二维码


51CTO读书频道活动讨论群:365934973

【责任编辑:book TEL:(010)68476606】

回书目   上一节   下一节
点赞 0
分享:
大家都在看
猜你喜欢

读 书 +更多

Linux标准教程

本书以Linux Redhat 9.0中文版为基础编写,从易用性和实用性角度出发主要介绍Linux Redhat 9.0中文版的应用知识,通过本书的学习,相信初中...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊