线性回归(一元)

前言

线性回归是利用数理统计中回归分析,来确定两种或两种以上变量之间相互依赖的一种统计分析方法。根据以往的历史数据训练一个模型,并用此模型进行预测的这么一个算法。

回归算法概述

  • 因变量y和自变量x的关系
    • y与x相关:y=f(x,w) 其中w为参数(w也就是在回归算法中需要计算的值),即如果输入一个x,那么马上就能知道y的值
    • y还受到噪声的影响:y=f(x,w) + e
  • 应用
    • 发现y和x的关系
    • 发现规律,已预测新情况下y的值(如点击率预估,销售量预估等)

解释一:线性方程

  • 如下图假设 y = wx + e成为一条直线

    假设下图当中的第一个点为(1,1),那么根据以上公式可以得出w=1,e=0,从而只要输出一个x,即马上可以得到y。

  • 当然,线性回归肯定没有这么简单。它以往的历史数据向量可能不在一条直线上,那么我们将如何计算出w,e然后最终得到我们想要的y呢?

mark

解释二:回归线性方程

如下图图中标记了3条线性数据,按照以下提提供的样本数据,模型公式,以及如下图。咱们需要从这三条险种找出最合适的一条线作为线性模型公式,得出模型参数w,e,从而输入一个x,即能预测y的走向。

  • 输入一个一元自变量x,一元因变量y

    根据这些样本在坐标轴上进行打点分布如下图。

  • 回归模型

    最终把回归模型输出为一个计算公式,根据这个模型,咱们需要计算出w,e的值,也就是上面提到的找出最合适的一条线作为线性回归模型的计算公式,从而得出w,e。

  • 如何学习参数?

    对每一个样本的误差:如何理解这个误差呢?下图中假设是有3条线,那么这个误差就是针对每一个点到对应的一条垂直线的距离,这个距离咱们称之为误差,所以即每一个点就对产生3个误差距离。

    最小误差平方和:这个又改如何理解呢?就是把每一个点到单独的一条线的距离误差求平方和,3条线就会得到3个误差平方和。然后使用误差平方和最小的那么一条线作为一个回归模型作为计算得出w,e,从而预测输入一个x,即得到y值。

总结

通过以上方式,简单了解到一个线性回归(一元)算法的模型大体的一个思路,可以根据以往历史数据的分布,通过线性回归的计算方式做预测y=wx + e的值(如点击率预估,销售量预估等)。

分享到 评论