dl-1 • ZeroHour's Site

机器学习中的关键组件#

用来学习的数据（data）
转换数据的模型（model）
量化模型有效性的目标函数（objective function）/ 损失函数（loss function）
搜索出最佳参数，最小化损失函数的优化算法，大多使用梯度下降（gradient decent）

机器学习问题#

1. 监督学习（supervised learning）#

回归（regression）
分类（classification）
标记 / 多标签分类（multi-label classification）
搜索（search）
推荐系统（recommender system）
序列学习（sequence learning）

2. 无监督学习（unsupervised learning）#

聚类（clustering）
主成分分析（PCA - principal component analysis）
因果关系（causality）和概率图模型（probabilistic graphical model）
生成对抗性网络（GAN - generative adversarial network）

3. 与环境互动#

4. 强化学习（reinforcement learning）#

强化学习是机器学习的一个子领域，其中模型通过与环境交互来学习如何做出决策。

alt text

强化学习的目标是产生一个好的策略（policy）

当环境可被完全观察到时，强化学习问题被称为马尔可夫决策过程（markov decision process）。当状态不依赖于之前的操作时，我们称该问题为上下文赌博机（contextual bandit problem）。当没有状态，只有一组最初未知回报的可用动作时，这个问题就是经典的多臂赌博机（multi-armed bandit problem）。