Deep Interest Network解读

2018-08-20 本文已影响133人只为此心无垠

1、亚马孙数据格式

reviews_Electronics数据
reviewerID	评论者id，例如[A2SUAM1J3GNN3B]
asin	产品的id，例如[0000013714]
reviewerName	评论者昵称
helpful	评论的有用性评级，例如2/3
reviewText	评论文本
overall	产品的评级
summary	评论摘要
unixReviewTime	审核时间（unix时间）
reviewTime	审核时间（原始）

meta_Electronics 数据
asin	产品的ID
title	产品名称
imUrl	产品图片地址
categories	产品所属的类别列表
description	产品描述

亚马逊数据集包含产品评论和产品原始数据，用作基准数据集。我们对名为Electronics的子集进行实验，其中包含192,403个用户，63,001个商品，801个类别和1,689,188个样本。此数据集中的用户行为很丰富，每个用户和商品都有超过5条评论。特征包括goods_id，cate_id，用户评论goods_id_list和cate_id_list。用户的所有行为都是（b1，b2，...，bk，... ，bn），任务是通过利用前k个评论商品来预测第（k + 1）个评论的商品。训练数据集是用每个用户的k = 1,2，...，n-2生成的。在测试集中，我们预测最后一个给出第一个n - 1评论商品。

2、代码解读

一、数据格式转换

1_convert_pd.py文件的作用：json格式转化为pandas的dataframe格式，并保存为pickle二进制文件格式。解释一下为什么要保存pickle文件格式，因为pickle文件是二进制形式，读取速度快。
2_remap_id.py文件：讲asin，categories，reviewerID三个字段进行位置编码。位置编码主要通过build_map。
特别解读一下build_map函数的作用，就是讲id排序，并转换成对应的位置索引，举个例子[d,a,c,b] → [4,1,3,2]。

meta_df格式
asin categories
 d          dd
 a          aa
 c          cc
 b          cc
####################
asin_map, asin_key = build_map(meta_df, 'asin')
cate_map, cate_key = build_map(meta_df, 'categories')
####################
meta_df格式
asin categories
 4          3
 1          1
 3          2
 2          2
####################
asin_map = [a, b, c, d]

meta_df = meta_df.sort_values('asin')
meta_df = meta_df.reset_index(drop=True) #meta_df的长度也是63001
cate_list = [meta_df['categories'][i] for i in range(len(asin_map))]
cate_list = np.array(cate_list, dtype=np.int32) #cate_list长度 63001，和item_count一样长
cate_list = [3, 1, 2, 2]

build_dataset.py生成训练集和测试集：
根据用户看过的产品数组生成训练集和测试集

用户id	用户评论过的产品	pos_list	neg_list
3	[2, 8, 9, 3]	[2, 8, 9, 3]	[5, 7] (随机产生，只要2，8，9，3都不存在即可)

根据上述的一条记录可以生成2条正样本和2条负样本的训练集，1条测试集

训练集和测试集

二、model网络搭建

        # -- 嵌入层 start ---
        ic = tf.gather(cate_list, self.i)  # [B]
        i_emb = tf.concat(values=[
            tf.nn.embedding_lookup(item_emb_w, self.i),  # [B ，hidden_units // 2]
            tf.nn.embedding_lookup(cate_emb_w, ic),  # [B ，hidden_units // 2] = [B, H // 2]
        ], axis=1)  #   [B ，H]
        i_b = tf.gather(item_b, self.i)

        hc = tf.gather(cate_list, self.hist_i)  # [B , T]
        h_emb = tf.concat([   #   在shape【0，1，2】某一个维度上连接
            tf.nn.embedding_lookup(item_emb_w, self.hist_i),  # [B, T, hidden_units // 2]
            tf.nn.embedding_lookup(cate_emb_w, hc),  # [B, T, hidden_units // 2]
        ], axis=2)    # [B, T, H]
        # -- 嵌入层 end ---

        # -- attention start ---
        hist = attention(i_emb, h_emb, self.sl)# [B, 1, H]
        # -- attention end ---

        hist = tf.layers.batch_normalization(inputs=hist)
        hist = tf.reshape(hist, [-1, hidden_units]) # [B, hidden_units]
        hist = tf.layers.dense(hist, hidden_units)# [B, hidden_units]

        u_emb = hist

        # -- fcn begin -------
        # -- 训练集全连接层 开始 -------
        din_i = tf.concat([u_emb, i_emb], axis=-1)
        din_i = tf.layers.batch_normalization(inputs=din_i, name='b1')
        d_layer_1_i = tf.layers.dense(din_i, 80, activation=tf.nn.sigmoid, name='f1')  # 全连接层  [B, 80]
        # if u want try dice change sigmoid to None and add dice layer like following two lines. You can also find model_dice.py in this folder.
        # d_layer_1_i = tf.layers.dense(din_i, 80, activation=None, name='f1')
        # d_layer_1_i = dice(d_layer_1_i, name='dice_1_i')
        d_layer_2_i = tf.layers.dense(d_layer_1_i, 40, activation=tf.nn.sigmoid, name='f2')
        # d_layer_2_i = dice(d_layer_2_i, name='dice_2_i')
        d_layer_3_i = tf.layers.dense(d_layer_2_i, 1, activation=None, name='f3')

        d_layer_3_i = tf.reshape(d_layer_3_i, [-1])  # 展开成行向量

        self.logits = i_b + d_layer_3_i

参考文章：
1、Deep Interest Network for Click-Through Rate Prediction
2、一文搞懂阿里Deep Interest Network
3、代码注释

Deep Interest Network解读

1、亚马孙数据格式

2、代码解读

一、数据格式转换

二、model网络搭建

猜你喜欢

热点阅读