谷歌机器学习官方词汇(中英文)完整版-18S
SavedModel
保存和恢复 TensorFlow 模型时建议使用的格式。SavedModel 是一种独立于语言且可恢复的序列化格式,使较高级别的系统和工具可以创建、使用和转换 TensorFlow 模型。
如需完整的详细信息,请参阅《TensorFlow 编程人员指南》中的保存和恢复[34]。
Saver
一种 TensorFlow 对象,负责保存模型检查点。
缩放 (scaling)
特征工程中的一种常用做法,是指对某个特征的值区间进行调整,使之与数据集中其他特征的值区间一致。例如,假设您希望数据集中所有浮点特征的值都位于 0 到 1 区间内,如果某个特征的值位于 0 到 500 区间内,您就可以通过将每个值除以 500 来缩放该特征。
另请参阅标准化。
scikit-learn
一个热门的开放源代码机器学习平台。请访问www.scikit-learn.org[35]。
半监督式学习 (semi-supervised learning)
训练模型时采用的数据中,某些训练样本有标签,而其他样本则没有标签。半监督式学习采用的一种技术是推断无标签样本的标签,然后使用推断出的标签进行训练,以创建新模型。如果获得有标签样本需要高昂的成本,而无标签样本则有很多,那么半监督式学习将非常有用。
序列模型 (sequence model)
一种模型,其输入具有序列依赖性。例如,根据之前观看过的一系列视频对观看的下一个视频进行预测。
会话 (tf.session)
封装了 TensorFlow 运行时状态的对象,用于运行全部或部分图。在使用底层 TensorFlow API 时,您可以直接创建并管理一个或多个 tf.session
对象。在使用 Estimator API 时,Estimator 会为您创建会话对象。
S 型函数 (sigmoid function)
一种函数,可将逻辑回归输出或多项回归输出(对数几率)映射到概率,以返回介于 0 到 1 之间的值。S 型函数的公式如下:
在逻辑回归问题中, 非常简单:
换句话说,S 型函数可将 转换为介于 0 到 1 之间的概率。
在某些神经网络中,S 型函数可作为激活函数使用。
大小不变性 (size invariance)
在图像分类问题中,即使图像的大小发生变化,算法也能成功地对图像进行分类。例如,无论一只猫以 200 万像素还是 20 万像素呈现,该算法仍然可以识别它。请注意,即使是最好的图像分类算法,在大小不变性方面仍然会存在切实的限制。例如,对于仅以 20 像素呈现的猫图像,算法(或人)不可能正确对其进行分类。
另请参阅平移不变性和旋转不变性。
softmax
一种函数,可提供多类别分类模型中每个可能类别的概率。这些概率的总和正好为 1.0。例如,softmax 可能会得出某个图像是狗、猫和马的概率分别是 0.9、0.08 和 0.02。(也称为完整 softmax。)
与候选采样相对。
稀疏特征 (sparse feature)
一种特征向量,其中的大多数值都为 0 或为空。例如,某个向量包含一个为 1 的值和一百万个为 0 的值,则该向量就属于稀疏向量。再举一个例子,搜索查询中的单词也可能属于稀疏特征
-
在某种指定语言中有很多可能的单词,但在某个指定的查询中仅包含其中几个。
与密集特征相对。
稀疏表示法 (sparse representation)
一种张量表示法,仅存储非零元素。
例如,英语中包含约一百万个单词。表示一个英语句子中所用单词的数量,考虑以下两种方式:
-
要采用 密集表示法来表示此句子,则必须为所有一百万个单元格设置一个整数,然后在大部分单元格中放入 0,在少数单元格中放入一个非常小的整数。 -
要采用稀疏表示法来表示此句子,则仅存储象征句子中实际存在的单词的单元格。因此,如果句子只包含 20 个独一无二的单词,那么该句子的稀疏表示法将仅在 20 个单元格中存储一个整数。
例如,假设以两种方式来表示句子"Dogs wag tails."。如下表所示,密集表示法将使用约一百万个单元格;稀疏表示法则只使用 3 个单元格:
稀疏性 (sparsity)
向量或矩阵中设置为 0(或空)的元素数除以该向量或矩阵中的条目总数。以一个 10x10 矩阵(其中 98 个单元格都包含 0)为例。稀疏性的计算方法如下:
特征稀疏性是指特征向量的稀疏性;模型稀疏性是指模型权重的稀疏性。
空间池化 (spatial pooling)
请参阅池化。
平方合页损失函数 (squared hinge loss)
合页损失函数的平方。与常规合页损失函数相比,平方合页损失函数对离群值的惩罚更严厉。
平方损失函数 (squared loss)
在线性回归中使用的损失函数(也称为 损失函数)。该函数可计算模型为有标签样本预测的值和标签的实际值之差的平方。由于取平方值,因此该损失函数会放大不佳预测的影响。也就是说,与 损失函数相比,平方损失函数对离群值的反应更强烈。
静态模型 (static model)
离线训练的一种模型。
平稳性 (stationarity)
数据集中数据的一种属性,表示数据分布在一个或多个维度保持不变。这种维度最常见的是时间,即表明平稳性的数据不随时间而变化。例如,从 9 月到 12 月,表明平稳性的数据没有发生变化。
步 (step)
对一个批次的向前和向后评估。
步长 (step size)
与学习速率的含义相同。
随机梯度下降法 (SGD, stochastic gradient descent)
批次大小为 1 的一种梯度下降法。换句话说,SGD 依赖于从数据集中随机均匀选择的单个样本来计算每步的梯度估算值。
结构风险最小化 (SRM, structural risk minimization)
一种算法,用于平衡以下两个目标:
-
期望构建最具预测性的模型 (例如损失最低)。 -
期望使模型尽可能简单 (例如强大的正则化)。
例如,旨在将基于训练集的损失和正则化降至最低的函数就是一种结构风险最小化算法。
如需更多信息,请参阅 http://www.svms.org/srm/。
与经验风险最小化相对。
步长 (stride)
在卷积运算或池化中,下一个系列的输入切片的每个维度中的增量。例如,下面的动画演示了卷积运算过程中的一个 (1,1) 步长。因此,下一个输入切片是从上一个输入切片向右移动一个步长的位置开始。当运算到达右侧边缘时,下一个切片将回到最左边,但是下移一个位置。
前面的示例演示了一个二维步长。如果输入矩阵为三维,那么步长也将是三维。
下采样 (subsampling)
请参阅池化。
总结 (summary)
在 TensorFlow 中的某一步计算出的一个值或一组值,通常用于在训练期间跟踪模型指标。
监督式机器学习 (supervised machine learning)
根据输入数据及其对应的标签来训练模型。监督式机器学习类似于学生通过研究一系列问题及其对应的答案来学习某个主题。在掌握了问题和答案之间的对应关系后,学生便可以回答关于同一主题的新问题(以前从未见过的问题)。请与非监督式机器学习进行比较。
合成特征 (synthetic feature)
一种特征,不在输入特征之列,而是从一个或多个输入特征衍生而来。合成特征包括以下类型:
-
对连续特征进行 分桶,以分为多个区间分箱。 -
将一个特征值与其他特征值或其本身相乘 (或相除)。 -
创建一个 特征组合。
仅通过标准化或缩放创建的特征不属于合成特征。