tensorflow笔记（损失函数）-mooc（北京大学）

2019-05-22 本文已影响0人 Jasmine晴天和我

1.神经网络NN复杂度：多用NN层数和NN参数的个数表示
2.层数 = 隐藏层的层数+1个输出层
3.总参数 = 总W+总b
NN优化目标：loss最小（loss可以是MSE，可以是自定义函数，可以是ce（Cross Entropy））

import tensorflow as tf 
import numpy as np 
BATCH_SIZE = 8  #一次喂入神经网络多少组数据，不能一次喂很多
seed = 23455
rdm = np.random.RandomState(seed)
#随机数返回32行2列的矩阵，表示32组，体积和重量作为输入数据集
X = rdm.rand(32,2)
Y_ = [[x1+x2+(rdm.rand()/10.0-0.05)] for (x1,x2) in X] #rdm.rand()生成[0,1)前闭后开的0到1的随机数,除以10，变成[0,0.1)之间的随机数，减0.05变成[-0.05,0.05]
#定义损失函数及反向传播方法
#定义损失函数为MSE，反向传播方法为梯度下降
loss_mse = tf.reduce_mean(tf.square(y_-y))
train_step = tf.train.GradientDescentOptimizer(0.001).minimize(loss_mse) #梯度下降，学习率0.001
#生成会话，训练steps轮
with tf.Session() as sess:
    init_op = tf.global_variables_initializer()
    sess.run(init_op)
    #训练模型
    steps = 20000
    for i in range(steps):
        start = (i * BATCH_SIZE) % 32
        end = start + BATCH_SIZE
        sess.run(train_step, feed_dict = {x:X[start:end], y_:Y_[start:end]})
        if i % 500 == 0: #每500轮打印一次
            print("After %d training steps, w1 is :"% (i))
            print(sess.run(w1),":\n") 
    print("Final w1 is :\n",sess.run(w1))

权重都接近于1.

自定义损失函数
如预测商品销量，预测多了，损失成本；预测少了，损失利润。
若利润 $\neq$ 成本，则mse产生的loss无法使得利益最大化。
自定义损失函数： $loss(y_1-y) = \sum_{n}{f(y_1-y)}$ ( $y_1$ 是标准答案，y是预测答案

图片.png

#利润为9，成本为1，希望预测多了
BATCH_SIZE = 8  #一次喂入神经网络多少组数据，不能一次喂很多
seed = 23455
cost = 1
rdm = np.random.RandomState(seed)
#随机数返回32行2列的矩阵，表示32组，体积和重量作为输入数据集
X = rdm.rand(32,2)
Y_ = [[x1+x2+(rdm.rand()/10.0-0.05)] for (x1,x2) in X] #rdm.rand()生成[0,1)前闭后开的0到1的随机数,除以10，变成[0,0.1)之间的随机数，减0.05变成[-0.05,0.05]
#定义神经网络的输入、参数和输出，定义前向传播过程
x = tf.placeholder(tf.float32, shape=(None,2)) 
y_ = tf.placeholder(tf.float32, shape=(None,1)) #正确答案
w1 = tf.Variable(tf.random_normal([2,1], stddev=1, seed=1)) #隐藏层是3个神经元
y = tf.matmul(x,w1)
loss = tf.reduce_sum(tf.where(tf.greater(y,y_),(y-y_)*cost,(y_-y)*profit))
train_step = tf.train.GradientDescentOptimizer(0.001).minimize(loss) #梯度下降，学习率0.001
with tf.Session() as sess:
    init_op = tf.global_variables_initializer()
    sess.run(init_op)
    #训练模型
    steps = 20000
    for i in range(steps):
        start = (i * BATCH_SIZE) % 32
        end = start + BATCH_SIZE
        sess.run(train_step, feed_dict = {x:X[start:end], y_:Y_[start:end]})
        if i % 500 == 0: #每500轮打印一次
            print("After %d training steps, w1 is :"% (i))
            print(sess.run(w1),":\n") 
    print("Final w1 is :\n",sess.run(w1))

此时的权重都大于1，因为利润为9，成本为1，预测多了更好。
如果将利润改成1，成本改成9，那么预测少了好，此时的权重都会小于1.

交叉熵ce（cross entropy）：表征两个概率分布之间的距离，越大，两个概率分布越远
$H(y_1,y) = -\sum{y_1*logy}$ ， $y_1$ 表示正确答案，y表示预测答案
ce = -tf.reduce_mean(y_*tf.log(tf.clip_by_value(y,1e-12,1.0))) #y<1e-12为1e-12防止0的出现，y>1.0为1.0，使得输出的数在0,1之间都是概率值
当n分类的n个输出（y1，y2，...yn）通过softmax（）函数，便满足了概率分布要求：
$\forall P(X=x)\in[0,1]且\sum_{x}{P(X=x)=1}$
$softmax(y_i) = \frac{e^(y_i)}{\sum^{n}_{j=1}{e^(y_i)}}$
ce=tf.nn.sparse_softmax_cross_entropy_with_logits(logits=y,labels=tf.argmax(y_,1))
cem = tf.reduce_mean(ce)

tensorflow笔记（损失函数）-mooc（北京大学）

权重都接近于1.

猜你喜欢

热点阅读