看了绪论,第一感觉就是“机器学习其实就是挑西瓜”/惊讶/惊讶
机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。在计算机系统中,“经验”通常以“数据”形式存在,因此,机器学习所研究的主要内容,是关于在计算机上从数据中产生“模型”(model)的算法,即“学习算法”(learning algorithm)。有了学习算法,我们把经验数据提供给它,它就能基于这些数据产生模型;在面对新情况时,模型就会给我们提供相应的判断。机器学习就是研究学习算法的学问。
模型:泛指从数据中学得的结果。部分文献中,模型指全局性结果(例如一棵决策树),而模式指局部性结果(例如一条规则)
2017.04.20更
一、基本术语
数据集(data set):记录的集合
示例(instance)/样本(sample):每条记录是关于一个事件或对象的描述,由于属性可以张成一个空间,每个对象可以在空间中找到自己的坐标位置,空间中每一个点又对应一个坐标向量,所以每一个示例也称为特征向量(feature vector)
属性(attribute)/特征(feature):反应事件或对象在某方面的表现或性质的事项
属性值(attribute value):属性上的取值
属性空间(attribute space)/样本空间(sample space)/输入空间:属性张成的空间
样例(example):又有了标记信息的示例,这里的标记即label,也就是我们常说的标签。所有标记的集合,也称为“标记空间”(label space)或“输出空间”
分类(classification):预测的是离散值
回归(regression):预测的是连续值
学习(learning)/训练(training):从数据中学得模型的过程。训练过程总使用的数据称为“训练数据”(training data)
,其中每一个样本称为“训练样本”(training sample),训练样本组成的集合称为“训练集”(training set)
测试(testing):学得模型后,使用其进行预测的过程,被预测的样本称为“测试样本”(testing sample)
泛化(generalization)能力:学得的模型适用于新样本的能力
二、假设空间
归纳(induction)与演绎(deduction)是科学推理的两大基本手段。
1、归纳(induction)
从特殊到一般的“泛化”过程。即从具体的事实归结出一般性规律
从样例中学习 显然是一个归纳的过程,所以也称为“归纳学习”(inductive learning)
2、演绎(deduction)
从一般到特殊的“特化”(specialization)过程。即从基础原理推演出具体的情况