Python数据挖掘006-数据集成
2019-12-06 本文已影响0人
科技老丁哥
数据集成就是间来源于多个不同数据源的数据合并存放在一个一致的数据存储(比如数据仓库)中的过程。
不同数据源的数据之间可能会有不匹配或属性重复,所以要考虑实体识别问题和属性冗余问题。
1. 实体识别问题
是指从不同数据源识别出现实世界的实体,它的任务是统一不同源数据的矛盾之处。
常见形式有:同名异义,异名同义,单位不统一等。
实体识别问题就是检测和解决这些冲突。
2. 冗余属性识别
数据冗余,比如:同一属性出现多次,同一属性命名不一致导致重复等。
冗余属性要先检测,再删除掉。冗余属性用相关性分析也能判断出来。
参考资料:
《Python数据分析和挖掘实战》张良均等