机器学习之逻辑回归:模型训练

逻辑回归的损失函数

线性回归的损失函数是平方损失。逻辑回归的损失函数是对数损失函数,定义如下:

\displaystyle LogLoss = \sum_{(x,y)\in D} - ylog(y') - (1-y)log(1-y')

其中:
1.(x,y)\in D 是包含很多有标签样本 ( x, y ) 的数据集
2.“y”是有标签样本中的标签。由于这是逻辑回归,因此“y”的每个值必须是 0 或 1。
3.“y”是对于特征集“X”的预测值(介于 0 和 1 之间)。
对数损失函数的方程式与 Shannon 信息论中的熵测量密切相关。它也是似然函数的负对数(假设“y”属于伯努利分布)。实际上,最大限度地降低损失函数的值会生成最大的似然估计值。

逻辑回归中的正则化

正则化在逻辑回归建模中极其重要。如果没有正则化,逻辑回归的渐近性会不断促使损失在高维度空间内达到 0。因此,大多数逻辑回归模型会使用以下两个策略之一来降低模型的复杂性:
1.L_2 正则化。
2.早停法,即,限制训练步数或学习速率。
(我们在之后的单元会讨论第三个策略,即L_1正则化。)
假设您向每个样本分配一个唯一 ID ,且将每个 ID 映射到其自己的特征。如果您未指定正则化函数,模型会变得完全过拟合。这是因为模型会尝试促使所有样本的损失达到 0 但始终达不到,从而使每个指示器特征的权重接近正无穷或负无穷。当有大量罕见的特征组合且每个样本中仅一个时,包含特征组合的高维度数据会出现这种情况。
幸运的是,使用L_2或早停法可以防止出现此类问题。
总结:

  • 逻辑回归模型会生成概率。
  • 对数损失函数是逻辑回归的损失函数。
  • 逻辑回归被很多从业者广泛使用。
本作品采用《CC 协议》,转载必须注明作者和本文链接
Hacking
讨论数量: 0
(= ̄ω ̄=)··· 暂无内容!

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容,与人为善,比聪明更重要!