结构化数据挖掘

2020-05-25  本文已影响0人  AntiGravity

经典的结构化数据挖掘

什么是结构化数据

结构化数据即表格数据(tabular data),绝大多数数据都是表格数据。虽然现在有很多非结构化数据,但大多数是结构化数据,也会从非结构化中提取非机构化数据。
每列为一个字段(变量),变量可以分为离散型、连续型。

传统建模流程

主要建立在业务理解上,90%时间用在DC(数据清洗)和EDA上。

存在的问题

业务理解是一个悖论——科学的业务理解需要来自对数据宏观的分析,而分析又来自对业务的理解。
一些实际的问题:


现在的结构化数据挖掘

数据挖掘竞赛简介

主办方提供训练集,测试集(评分用),挑战:
无业务理解,对提交次数限制,测试集和训练集有出入,时间有限制需充分利用,最终根据精度来评价。
与实际业务的区别:给定了变量。

新的流程

说明

上一篇 下一篇

猜你喜欢

热点阅读