机器学习主要术语

主要术语

标签:标签是我们要预测的事物,即简单线性回归中的 y 变量
特征:特征是输入变量,即简单线性回归中的 x 变量。简单的机器学习项目可能会使用单个特征,而比较复杂的机器学习项目可能会使用数百个特征,按如下方式指定:
x1, x2, …xN
在垃圾邮件检测器示例中,特征可能包括:
1.电子邮件文本中的字词
2.发件人的地址
3.发件电子邮件的时段
4.电子邮件中包含“一种奇怪的把戏”这样的短语
样本:样本是指数据的特定实例:X ( 我们采用粗体 X 表示它是一个矢量 )我们将样本分为以下两类:
有标签样本
无标签样本
有标签样本同时包括特征和标签。即:

labeled examples: { features, label } : ( x,y )

我们使用有标签样本来训练模型。在我们的垃圾邮件检测器示例中,有标签样本是用户明确标记为“垃圾邮件”或“非垃圾邮件”的各个电子邮件。
无标签样本包含特征,但不包含标签。即:

unlabeled examples: { features, ? }: (x, ?)

模型(ML)
模型定义了特征和标签之间的关系。例如,垃圾邮件检测模型可能会将某些特征与“垃圾邮件”紧密联系起来。我们先来介绍一下模型生命周期的两个阶段:
1.训练是指创建或学习模型。也就是说,向模型展示有标签样本,让模型逐渐学习特征和标签之间的关系。
2.推断是指将训练之后的模型应用于无标签样本。也就是说,使用经过训练的模型做出有用的预测(y’)
回归与分类
回归模型可以预测连续值。例如,回归模型做出的预测可回答如下问题:
加利福尼亚州一栋房产的价值是多少?
用户点击此广告的概率是多少?
分类模型可预测离散值。例如,分类模型作出的预测可回答如下问题:
某个指定电子邮件是垃圾邮件还是非垃圾邮件?
这是一张狗、猫还是仓鼠图片?

本作品采用《CC 协议》,转载必须注明作者和本文链接
Hacking
讨论数量: 0
(= ̄ω ̄=)··· 暂无内容!

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容,与人为善,比聪明更重要!