[PML 6] C2S1 回归与特征工程

2022-02-26 本文已影响0人数科每日

这一章介绍机器学习的一些基础知识，这些知识将成为本书后续内容的building blocks:

特征提取与特征转换，包括连续值，离散值和时序信号。
模型输出与概率的关系
梯度模型，以及TensorFlow 实现
如何处理 outlier，不平衡数据集，以及模型评估。

虽然我们在本章中只简单地涉及个性化，但例子用到的数据和后面相同，都是面向用户的数据。特别是，我们将专注于涵盖诸如推荐、情绪和涉及（例如）人口统计特征的预测任务等主题的数据集。

因此，我们将在本章中对“个性化”采取的观点将包括从用户数据中提取特征，以便使用传统的机器学习框架进行预测。稍后，我们将区分2种方法：提取用户的特征 和 每个用户建模。这将引出对上下文个性化与基于模型的个性化的讨论（正如我们在第 1.7 节中介绍的那样），我们将在第 4 章和第 5 章更准确地讨论这种区别。然而，正如我们将在本章中看到的（以及在各种本书中的示例），即使是传统的机器学习技术，只要与适当的特征提取策略相结合，也可以产生出有效的个性化预测模型。

有监督学习

本章介绍的所有技术——以及在本书中探讨的大多数个性化技术——都是有监督学习的形式。有监督学习技术假设数据集可以分为两个部分

label ( 记为 $y$ ) ：我们需要预测的内容。
feature ( 记为 $X$ ) ：用来预测 label 的数据。

例如，对于情感分析任务， feature 是用户的评论(Amazon or Yelp) label 是与评论相关的 rate。

有监督学习，其范式可以写成:

$f_{\theta}(x) \rightarrow y$

在本章中 $y$ 就是 label 向量， $X$ 代表Feature 矩阵。本文讨论2中有监督机器学习：

回归(Regression): $y$ 是数值型的
分类(Classification): $y$ 是离散的Categorical 变量

Linear Regression

先跳过吧，网上讲这个太多了。

[PML 6] C2S1 回归与特征工程

有监督学习

Linear Regression

猜你喜欢

热点阅读