机器学习深度学习

Deep Interest Network解读

2018-08-20  本文已影响133人  只为此心无垠

1、亚马孙数据格式

reviews_Electronics数据
reviewerID 评论者id,例如[A2SUAM1J3GNN3B]
asin 产品的id,例如[0000013714]
reviewerName 评论者昵称
helpful 评论的有用性评级,例如2/3
reviewText 评论文本
overall 产品的评级
summary 评论摘要
unixReviewTime 审核时间(unix时间)
reviewTime 审核时间(原始)
meta_Electronics 数据
asin 产品的ID
title 产品名称
imUrl 产品图片地址
categories 产品所属的类别列表
description 产品描述

亚马逊数据集包含产品评论和产品原始数据,用作基准数据集。 我们对名为Electronics的子集进行实验,其中包含192,403个用户,63,001个商品,801个类别和1,689,188个样本。 此数据集中的用户行为很丰富,每个用户和商品都有超过5条评论。 特征包括goods_id,cate_id,用户评论goods_id_list和cate_id_list。用户的所有行为都是(b1,b2,...,bk,... ,bn),任务是通过利用前k个评论商品来预测第(k + 1)个评论的商品。 训练数据集是用每个用户的k = 1,2,...,n-2生成的。 在测试集中,我们预测最后一个给出第一个n - 1评论商品。

2、代码解读

一、数据格式转换

1_convert_pd.py文件的作用:json格式转化为pandas的dataframe格式,并保存为pickle二进制文件格式。解释一下为什么要保存pickle文件格式,因为pickle文件是二进制形式,读取速度快。
2_remap_id.py文件:讲asin,categories,reviewerID三个字段进行位置编码。位置编码主要通过build_map。
特别解读一下build_map函数的作用,就是讲id排序,并转换成对应的位置索引,举个例子[d,a,c,b] → [4,1,3,2]。

meta_df格式
asin categories
 d          dd
 a          aa
 c          cc
 b          cc
####################
asin_map, asin_key = build_map(meta_df, 'asin')
cate_map, cate_key = build_map(meta_df, 'categories')
####################
meta_df格式
asin categories
 4          3
 1          1
 3          2
 2          2
####################
asin_map = [a, b, c, d]
meta_df = meta_df.sort_values('asin')
meta_df = meta_df.reset_index(drop=True) #meta_df的长度也是63001
cate_list = [meta_df['categories'][i] for i in range(len(asin_map))]
cate_list = np.array(cate_list, dtype=np.int32) #cate_list长度 63001,和item_count一样长
cate_list = [3, 1, 2, 2]

build_dataset.py生成训练集和测试集:
根据用户看过的产品数组生成训练集和测试集

用户id 用户评论过的产品 pos_list neg_list
3 [2, 8, 9, 3] [2, 8, 9, 3] [5, 7] (随机产生,只要2,8,9,3都不存在即可)

根据上述的一条记录可以生成2条正样本和2条负样本的训练集,1条测试集


训练集和测试集

二、model网络搭建

        # -- 嵌入层 start ---
        ic = tf.gather(cate_list, self.i)  # [B]
        i_emb = tf.concat(values=[
            tf.nn.embedding_lookup(item_emb_w, self.i),  # [B ,hidden_units // 2]
            tf.nn.embedding_lookup(cate_emb_w, ic),  # [B ,hidden_units // 2] = [B, H // 2]
        ], axis=1)  #   [B ,H]
        i_b = tf.gather(item_b, self.i)

        hc = tf.gather(cate_list, self.hist_i)  # [B , T]
        h_emb = tf.concat([   #   在shape【0,1,2】某一个维度上连接
            tf.nn.embedding_lookup(item_emb_w, self.hist_i),  # [B, T, hidden_units // 2]
            tf.nn.embedding_lookup(cate_emb_w, hc),  # [B, T, hidden_units // 2]
        ], axis=2)    # [B, T, H]
        # -- 嵌入层 end ---

        # -- attention start ---
        hist = attention(i_emb, h_emb, self.sl)# [B, 1, H]
        # -- attention end ---

        hist = tf.layers.batch_normalization(inputs=hist)
        hist = tf.reshape(hist, [-1, hidden_units]) # [B, hidden_units]
        hist = tf.layers.dense(hist, hidden_units)# [B, hidden_units]

        u_emb = hist

        # -- fcn begin -------
        # -- 训练集全连接层 开始 -------
        din_i = tf.concat([u_emb, i_emb], axis=-1)
        din_i = tf.layers.batch_normalization(inputs=din_i, name='b1')
        d_layer_1_i = tf.layers.dense(din_i, 80, activation=tf.nn.sigmoid, name='f1')  # 全连接层  [B, 80]
        # if u want try dice change sigmoid to None and add dice layer like following two lines. You can also find model_dice.py in this folder.
        # d_layer_1_i = tf.layers.dense(din_i, 80, activation=None, name='f1')
        # d_layer_1_i = dice(d_layer_1_i, name='dice_1_i')
        d_layer_2_i = tf.layers.dense(d_layer_1_i, 40, activation=tf.nn.sigmoid, name='f2')
        # d_layer_2_i = dice(d_layer_2_i, name='dice_2_i')
        d_layer_3_i = tf.layers.dense(d_layer_2_i, 1, activation=None, name='f3')

        d_layer_3_i = tf.reshape(d_layer_3_i, [-1])  # 展开成行向量

        self.logits = i_b + d_layer_3_i
1
2
3
4
5

参考文章:
1、Deep Interest Network for Click-Through Rate Prediction
2、一文搞懂阿里Deep Interest Network
3、代码注释

上一篇下一篇

猜你喜欢

热点阅读