特征工程
2022-12-12 本文已影响0人
just_writer
工业场景的操作:ID特征新出现哪个1,给它分配一个列向量就好了,也就是embedding look-up table的操作,并不存在一个真正的one-hot特征,更不存在从one-hot特征乘以W再映射到向量的过程
对特征本身做hash,将得到的数字作为它的ID。只要每台机器用的hash算法一样,出来的值就是一样的,一种做法是,给一种特征分配一个编号:Slot ID,每一个特征的取值,hash后得到一个ID,称为FID(feature ID),在一个n位的二进制数字中,前k位用slot ID的二进制表示填充,后面n-k位用FID填充,组成一个整体数字,作为这个feature的最终表示