[PML 6] C2S1 回归与特征工程
2022-02-26 本文已影响0人
数科每日
这一章介绍机器学习的一些基础知识, 这些知识将成为本书后续内容的building blocks:
- 特征提取与特征转换, 包括连续值,离散值和时序信号。
- 模型输出与概率的关系
- 梯度模型,以及TensorFlow 实现
- 如何处理 outlier,不平衡数据集,以及模型评估。
虽然我们在本章中只简单地涉及个性化,但例子用到的数据和后面相同, 都是面向用户的数据。特别是,我们将专注于涵盖诸如推荐、情绪和涉及(例如)人口统计特征的预测任务等主题的数据集。
因此,我们将在本章中对“个性化”采取的观点将包括从用户数据中提取特征,以便使用传统的机器学习框架进行预测。稍后,我们将区分2种方法:提取用户的特征 和 每个用户建模。这将引出对上下文个性化与基于模型的个性化的讨论(正如我们在第 1.7 节中介绍的那样),我们将在第 4 章和第 5 章更准确地讨论这种区别。然而,正如我们将在本章中看到的(以及在各种本书中的示例),即使是传统的机器学习技术,只要与适当的特征提取策略相结合,也可以产生出有效的个性化预测模型。
有监督学习
本章介绍的所有技术——以及在本书中探讨的大多数个性化技术——都是有监督学习的形式。有监督学习技术假设数据集可以分为两个部分
- label ( 记为 ) : 我们需要预测的内容。
- feature ( 记为 ) : 用来预测 label 的数据。
例如, 对于情感分析任务, feature 是用户的评论(Amazon or Yelp) label 是与评论相关的 rate。
有监督学习,其范式可以写成:
在本章中 就是 label 向量, 代表Feature 矩阵。 本文讨论2中有监督机器学习:
- 回归(Regression): 是数值型的
- 分类(Classification): 是离散的Categorical 变量
Linear Regression
先跳过吧, 网上讲这个太多了。