MACHINE LEARNING

监督学习(Supervises Learning)

A computer program is said to learn from experience E with respect to some task T and some performance measure p, if its performance on T,as measured by P, improves with experience E

  • 监督学习:每个问题都有一个给定的正确的答案
  1. 回归问题

    • 回归:预测一个具体数值的输出

    价格预测:

    价格预测
  2. 分类问题

    • 用于预测离散值的输出
    乳腺癌肿瘤分析

无监督学习 (Unsupervised Learning)

  1. 聚类算法
同条新闻合并
  1. 鸡尾酒晚会算法

鸡尾酒晚会算法:实现声音分离

[W,s,v] = svd((repmat(sum(x.*x,1),size(x,1),1).*x)*x');

  • 建模工具:
  1. Octave

第二章术语

  1. 奥卡姆剃刀原则

  2. 过拟合、欠拟合

    1. 评估方法

      测试集、训练集

    2. 评估方法

      1. 留出法

        以二分类任务为例,假定D包含1000个样本,将其划分为S包含700个样本,T包含300个样本,用S进行训练后,如果模型在T上有90个样本分类错误,那么其错误率为(90/300)×100%=30%,相应的,精度为1-30%=70%

      2. 交叉验证法

      3. 自助法bootstrapping

方法 = 模型 + 策略 + 算法

模型

​ 统计学习首要考虑的问题是学习什么样的模型。在 监督学习 过程中,模型就是所要学习的 条件概率分布或决策函数。模型的假设空间( hypothesis space)一般分为两类,一个是所有可能的条件概率分布,另一个是决策函数

​ 例如,假设决策函数是输入变量的线性函数,那么模型的假设空间就是所有这些线性函数构成的函数集合。假设空间中的模型一般有无穷多个。

条件概率:

什么是决策函数?什么是条件概率分布?

1.3.2 策略

  1. 损失函数

    损失函数度量模型一次预测的好坏

  2. 风险函数

    风险函数度量平均一一下模型预测的好坏