大数据下的逻辑回归训练模型方法论 2

byulan · 发表于 2014-3-3 13:55:10

续以上一个帖子。

在机器学习中，总结起来共有三类方法用来设计相关的经验风险函数：
当设计的模型很简单，并且数据量也很大的时候，给定一组参数以后，可以使用最大似然评估方法(Maximum Likelihood Estimation, MLE)训练得到相关的模型参数；
当设计的模型很复杂，存在着隐含变量。这样的情况可以使用EM算法评估模型的参数。一般分为两个步骤，首先给定参数，对于隐含变量做期望，算出包括隐变量的似然函数；第二步，使用MLE方法，评估参数值，更新对应的参数值；
当模型并不是很复杂，但是数据非常少的时候，并且具有一定的先验知识的时候，可以使用贝叶斯统计方法评估模型的参数，也就是所谓的最大后验概率(Maximum A Posteriori，MAP)。首先基于先验知识，给定待估参数一个先验统计分布，然后根据贝叶斯公式，推算出参数的后验分布(posterior probability)，最后最大化这个后验概率，获得对应的参数值。
由于本篇文章针对的是“高维、海量”的训练数据，并且使用了相对简单的LR模型作为预测模型，因此我们在训练模型的过程中使用了MLE方法，设计相关的经验风险参数;其次由于本身的训练数据充足，因此在经验函数中并没有添加对应的基于模型复杂的惩罚项(正则化)，在我们模型中其具体的风险函数如下所示：

下面的问题就转变为一个无约束的最优化的问题。在基于海量数据训练模型的时候，需要考虑的是如何高效的训练模型。在实际的开发过程中，个人认为可以从两个方面提高训练模型的效率。首先是对于数据在内存的存储结构进行优化，尤其是针对“高维、稀疏”矩阵的时候，在本次实验中我们应用了R中的Matrix包中的稀疏矩阵格式，大幅度提高了算法计算效率。其次需要选择相关的迭代算法，加快经验风险函数的收敛速度。在这里介绍几种常用的迭代算法:
牛顿迭代算法中的牛顿-拉斐森迭代算法，该算法需要计算海森矩阵，因此算法需要花费大量的时间，迭代时间较长。
拟牛顿迭代算法，使用近似算法，计算海森矩阵，从而降低算法每次迭代的时间，提高算法运行的效率。在拟牛顿算法中较为经典的算法有两种：BFGS算法和L-BFGS算法。BFGS算法是利用原有的所有历史计算结果，近似计算海森矩阵，虽然提高了整个算法的效率，但是由于需要保存大量历史结果，因此该算法受到内存的大小的局限，限制了算法的应用范围；而L-BFGS则是正是针对BFGS消耗内存较大的特点，只保存有限的计算结果，大大降低了算法对于内存的依赖。
在实际应用中选择何种迭代算法，需要根据实际需求以及数据本身的特点进行选择，在本次试验我们选取了牛顿-拉斐森迭代算法以及L-BFGS算法作为LR模型的迭代算法。
属性选择
当学习算法迭代完成之后，我们可以获对应各个属性的权重

。接下来的任务我们需要对现有属性与响应变量之间的显著性进行检验，针对已有的训练模型对应的属性集进行验证，删除显著性不符合阈值的特征。由于在构建风险函数的时候，使用了MLE方法，因此可以使用Wald Test对于计算得到的参数，进行显著性验证。在使用Wald Test之前，要确保期望值与评估值之间的差值符合正态分布。Wald统计变量的一般形式：

其中

表示评估值，

表示期望值，

表示评估值方差。在本次试验中我们将原假

设设定为

，即表示现有的属性与响应变量无相关性，因此本实验的Wald统计值可以表示为：

其中

是实际估计的参数值，

是

的标准方差。由于Wald统计值对应卡方分布，因此可以利用卡方分布计算P值，如果P值大于指定的阈值，那么可以认为原假设成立，即该属性与响应变量是显著不相关，删除该变量，否则保存该变量。在实际的训练过程中，每次验证属性显著性的时候，只挑选P值最大与人为设定的阈值进行比较；如果选择的P值不大于阈值，那么模型训练完毕；否则删除选择的P值对应的属性，更新预测模型。重新学习更新后的预测模型，推测对应的权重值，然后再次对各个属性进行Wald Test验证。重复上面的过程，直到没有任何变量的Wald Test对应的P值都不大于人为设定的阈值为止。到此整个模型的训练过程结束。

作者百分点付宇
原文来源 http://blog.baifendian.com/?p=6527

收藏本站

快速投稿

联系我们

广告服务

基石导航

峰会活动

基石数据

社区

大数据下的逻辑回归训练模型方法论 2