null 台大机器学习基石(1) - K码农

台大机器学习基石(1)

机器学习对于适用场景有一定的前提条件:

  1. 可以找到某种模式
  2. 不容易编程实现,不能对目标下一个简单的定义
  3. 能找到训练的数据,数据量越大越好

使用机器学习的一个小例子——银行信用卡批准
例如银行会收到申请客户的个人资料,然后根据个人信息进行分析,选择是否发放信用卡,以达到银行最大收益。

机器学习所扮演的角色就是训练出某种发卡策略。

数学描述:

  1. X:用户个人资料
  2. Y:是否要发卡
  3. 目标函数F:X->Y(F为目标函数,通过用户资料,得出是否发卡的策略)
  4. 训练数据D={(X1,Y1),(X2,Y2)...}
  5. 假设Hypothesis:G:X->Y的表现很好

如下图能够形象的表现出机器学习的数学过程。

这里面有个隐含的过程,也就是D数据集实际上是由某种理想化(不可知)的公式F演算得到的.

而机器学习的过程也只是在不断逼近,试图得到F,但是只能得到它的近似函数G,G约等于F。

那么在这个例子里,G会是怎么样的一种形式呢?接下来,就具体的讲一讲。

个人资料包含:年龄、性别、年收入、居住时间、工龄、负债。

G属于假设集合H{h1,h2,h3...}

h1:年收入>20万

h2:负债>8万

h3:工龄<=2年

......

机器学习过程就是为G挑集合H中选择最好的一个。

机器学习的模型就是指:演算法A与假设集合H。

因此总结:机器学习,根据数据D,计算出假设G,约等于目标函数F。

概念区分

机器学习与数据挖掘的关系

  1. 首先从两者的目标角度来讲,机器学习是通过数据找到某种Pattern,找到近似函数G;而数据挖掘则是通过数据找到当中有趣的元素。但是某些情况下,它们并不区分,因为有趣的元素可以是这个Pattern,这时它们的目标相同。
  2. 然后从它们的训练过程来讲,都是需要喂数据的。
  3. 接着,是由于数据挖掘的特点:数据挖掘是在大数据方面切入的,所以更加注重大数据的高效计算。
  4. 最后,它们之间是互相促进的,有时候发现了G,那也能帮助找到有趣重要的元素,反之也是。

机器学习与人工智能的关系

1.机器学习是实现人工智能的一种方式。

机器学习与统计学的关系

  1. 统计是实现机器学习的一种方法。
  2. 传统的统计学是从数学出发,更加注重假设与证明;机器学习从电脑出发,更注重怎么计算处理,而不只是数学上的证明等。