[PML 6] C2S1 回归与特征工程

2022-02-26  本文已影响0人  数科每日

这一章介绍机器学习的一些基础知识, 这些知识将成为本书后续内容的building blocks:

虽然我们在本章中只简单地涉及个性化,但例子用到的数据和后面相同, 都是面向用户的数据。特别是,我们将专注于涵盖诸如推荐、情绪和涉及(例如)人口统计特征的预测任务等主题的数据集。

因此,我们将在本章中对“个性化”采取的观点将包括从用户数据中提取特征,以便使用传统的机器学习框架进行预测。稍后,我们将区分2种方法:提取用户的特征每个用户建模。这将引出对上下文个性化与基于模型的个性化的讨论(正如我们在第 1.7 节中介绍的那样),我们将在第 4 章和第 5 章更准确地讨论这种区别。然而,正如我们将在本章中看到的(以及在各种本书中的示例),即使是传统的机器学习技术,只要与适当的特征提取策略相结合,也可以产生出有效的个性化预测模型。

有监督学习

本章介绍的所有技术——以及在本书中探讨的大多数个性化技术——都是有监督学习的形式。有监督学习技术假设数据集可以分为两个部分

例如, 对于情感分析任务, feature 是用户的评论(Amazon or Yelp) label 是与评论相关的 rate。

有监督学习,其范式可以写成:

f_{\theta}(x) \rightarrow y

在本章中 y 就是 label 向量, X 代表Feature 矩阵。 本文讨论2中有监督机器学习:

Linear Regression

先跳过吧, 网上讲这个太多了。

上一篇下一篇

猜你喜欢

热点阅读