社区微信群开通啦,扫一扫抢先加入社区官方微信群
社区微信群
第二章分析并证明学习问题中需要考虑的因素。以木瓜为例,要学会判断木瓜是否好吃,需要观察木瓜的颜色和软硬程度以及亲口尝试来确定是否好吃。
首先是描述一个能够刻画类似学习任务的形式化模型。
领域集:X,例如所有木瓜的集合。
标签集:Y,目前仅讨论二元集合,如{0,1}或者{−1,+1},表示木瓜好吃和不好吃。
训练数据:形如S = ((x 1 ,y 1 )…(x m ,y m ))的有限序列,其中的元素以X ×Y形式成对出现,S称为训练集。
学习器输出预测规则h:X→Y,该函数也称为预测器、假设或分类器,例如预测某农贸市场的木瓜是否好吃。A(S)表示学习算法A在给定的训练序列S的情况下得出的假设。
训练数据如何产生?首先假设实例(木瓜)根据某些概率分布D(岛上环境)采样获得。此时学习器并不知道此概率分布的任何信息。假设存在(学习器并不知道)正确的标记函数f:X→Y,使对任意i,yi=f(xi),学习器的任务仅需要指出样本的正确标签(木瓜是否好吃)。综上,训练集S的产生过程是:首先根据概率分布D采集样本点xi,然后利用正确的标记函数f为其赋予标签。(h是预测结果,f是已知关系函数)
分类器(预测)误差:即h的误差,也就是h(x)!=f(x)的概率,其中x是根据分布D采集的随机样本。
形式上,给定一个领域子集A ⊂ X,概率分布D,D(A)决定了取到x∈A的概率,A更像一个表达式π:X→{0,1},即A= {x∈X:π(x) = 1},判断A是否在X中,此时D(A)可用P x∼D [π(x)]表示。
预测准则h:X→Y的错误率定义为:
L D,f (h)=Px∼D [h(x)!=f(x)]= D({x:h(x)!=f(x)})
其中x是X的一个随机样本,L D,f (h)也称为泛化误差、损失或h的真实误差。L(loss)代表误差。
分布D和标记函数f对学习器都是未知的,学习者需要观察训练集。
由于学习器不知道D和f,所以无法直接获知真实误差,只能计算出训练误差:
修正ERM通常的解决方案是在一个受限的搜索空间中使用ERM,学习器应该在接触到数据之前提前选择预测器的集合(假设类H),ERMH学习器根据在S上的最小化概率误差,利用ERM规则选择选择一个h∈H:
误导集:
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!