机器学习

机器学习是人工智能的一个分支。人工智能的研究历史有着一条从以“推理”为重点，到以“知识”为重点，再到以“学习”为重点的自然、清晰的脉络。显然，机器学习是实现人工智能的一个途径之一，即以机器学习为手段，解决人工智能中的部分问题。机器学习在近30多年已发展为一门多领域科际整合，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。

机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律，并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法（要防止错误累积）。很多推论问题属于非程序化决策，所以部分的机器学习研究是开发容易处理的近似算法。

机器学习已广泛应用于数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈（英语：Credit card fraud）、证券市场分析、DNA序列测序、语音和手写识别、游戏和机器人等领域。

定义

机器学习有下面几种定义：

机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能。
机器学习是对能通过经验自动改进的计算机算法的研究。
机器学习是用数据或以往的经验，以此优化计算机程序的性能标准。

另外，电脑科学家汤姆·米切尔（英语：Tom M. Mitchell）在其著作的Machine Learning一书中定义的机器学习为^[1]：

A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.
——Tom Mitchell，Machine Learning

分类

机器学习可以分成下面几种类别：

监督学习从给定的训练数据集中学习出一个函数，当新的数据到来时，可以根据这个函数预测结果。监督学习的训练集要求是包括输入和输出，也可以说是特征和目标。训练集中的目标是由人标注的。常见的监督学习算法包括回归分析和统计分类。

监督学习和非监督学习的差别就是训练集目标是否有人为标注。他们都有训练集且都有输入和输出

无监督学习与监督学习相比，训练集没有人为标注的结果。常见的无监督学习算法有生成对抗网络（GAN）、聚类。
半监督学习介于监督学习与无监督学习之间。
增强学习机器为了达成目标，随着环境的变动，而逐步调整其行为，并评估每一个行动之后所到的回馈是正向的或负向的。^[2]

算法

具体的机器学习算法有：

构造间隔理论分布：聚类分析和模式识别
构造条件概率：回归分析和统计分类
通过再生模型构造概率密度函数：
- 最大期望算法
- 概率图模型：包括贝氏网路和Markov随机场
- Generative Topographic Mapping
近似推断技术：
最优化：大多数以上方法，直接或者间接使用最优化算法。
量子机器学习

软件

包含各种机器学习演算法的软体套装包括：

免费开源软件

Python软件库及框架

参考文献

引用

^ Tom M. Mitchell. Machine Learning. McGraw-Hill. 1997年3月: 第2页. ISBN 0070428077 （英语）.
^ 林东清. 资讯管理：e化企业的核心竞争能力七版. 台北市: 智胜文化. 2018年8月: 第118页. ISBN 9789864570478 （中文）.

来源

书籍

Bishop, C. M. (1995). 《模式识别神经网络》，牛津大学出版社. ISBN 0-19-853864-2.
Bishop, C. M. (2006). 《模式识别与机器学习》，Springer. ISBN 978-0-387-31073-2.
Richard O. Duda, Peter E. Hart, David G. Stork (2001). 《模式分类》（第2版）, New York: Wiley. ISBN 0-471-05669-3.
MacKay, D. J. C. (2003). 《信息理论、推理和学习算法》（页面存档备份，存于互联网档案馆），剑桥大学出版社. ISBN 0-521-64298-1
Mitchel.l, T. (1997). 《机器学习》, McGraw Hill. ISBN 0-07-042807-7
Sholom Weiss, Casimir Kulikowski (1991). Computer Systems That Learn, Morgan Kaufmann. ISBN 1-55860-065-5.

外部链接

UCI description （页面存档备份，存于互联网档案馆）
机器学习软件Weka （页面存档备份，存于互联网档案馆）
Pablo Castro主页（页面存档备份，存于互联网档案馆）
机器学习网邮件列表（页面存档备份，存于互联网档案馆）
机器学习和自然语言处理-弗莱堡大学（页面存档备份，存于互联网档案馆）
机器学习和数据挖掘，生物信息学小组，慕尼黑工业大学
机器学习和生物计算-Bristol大学（页面存档备份，存于互联网档案馆）
机器学习和应用统计学@微软研究
机器学习研究月刊（页面存档备份，存于互联网档案馆）
机器学习期刊（页面存档备份，存于互联网档案馆）
机器学习-Kmining，数据挖掘和KDD科学参考（页面存档备份，存于互联网档案馆）
Book "智能系统社区" by Walter Fritz
开放目录项目（页面存档备份，存于互联网档案馆）
机器学习论文-CiteSeer （页面存档备份，存于互联网档案馆）
Orange，使用Python脚本语言的机器学习组件和可视化编程接口（页面存档备份，存于互联网档案馆）

参见

[1] Tom M. Mitchell. Machine Learning. McGraw-Hill. 1997年3月: 第2页. ISBN 0070428077 （英语）.

[2] 林东清. 资讯管理：e化企业的核心竞争能力七版. 台北市: 智胜文化. 2018年8月: 第118页. ISBN 9789864570478 （中文）.

[1]

[2]