tensorflow

tensorflow笔记(损失函数)-mooc(北京大学)

2019-05-22  本文已影响0人  Jasmine晴天和我

1.神经网络NN复杂度:多用NN层数和NN参数的个数表示
2.层数 = 隐藏层的层数+1个输出层
3.总参数 = 总W+总b
NN优化目标:loss最小(loss可以是MSE,可以是自定义函数,可以是ce(Cross Entropy))

import tensorflow as tf 
import numpy as np 
BATCH_SIZE = 8  #一次喂入神经网络多少组数据,不能一次喂很多
seed = 23455
rdm = np.random.RandomState(seed)
#随机数返回32行2列的矩阵,表示32组,体积和重量作为输入数据集
X = rdm.rand(32,2)
Y_ = [[x1+x2+(rdm.rand()/10.0-0.05)] for (x1,x2) in X] #rdm.rand()生成[0,1)前闭后开的0到1的随机数,除以10,变成[0,0.1)之间的随机数,减0.05变成[-0.05,0.05]
#定义损失函数及反向传播方法
#定义损失函数为MSE,反向传播方法为梯度下降
loss_mse = tf.reduce_mean(tf.square(y_-y))
train_step = tf.train.GradientDescentOptimizer(0.001).minimize(loss_mse) #梯度下降,学习率0.001
#生成会话,训练steps轮
with tf.Session() as sess:
    init_op = tf.global_variables_initializer()
    sess.run(init_op)
    #训练模型
    steps = 20000
    for i in range(steps):
        start = (i * BATCH_SIZE) % 32
        end = start + BATCH_SIZE
        sess.run(train_step, feed_dict = {x:X[start:end], y_:Y_[start:end]})
        if i % 500 == 0: #每500轮打印一次
            print("After %d training steps, w1 is :"% (i))
            print(sess.run(w1),":\n") 
    print("Final w1 is :\n",sess.run(w1))

权重都接近于1.

自定义损失函数
如预测商品销量,预测多了,损失成本;预测少了,损失利润。
若利润\neq成本,则mse产生的loss无法使得利益最大化。
自定义损失函数:loss(y_1-y) = \sum_{n}{f(y_1-y)} (y_1是标准答案,y是预测答案

图片.png
#利润为9,成本为1,希望预测多了
BATCH_SIZE = 8  #一次喂入神经网络多少组数据,不能一次喂很多
seed = 23455
cost = 1
rdm = np.random.RandomState(seed)
#随机数返回32行2列的矩阵,表示32组,体积和重量作为输入数据集
X = rdm.rand(32,2)
Y_ = [[x1+x2+(rdm.rand()/10.0-0.05)] for (x1,x2) in X] #rdm.rand()生成[0,1)前闭后开的0到1的随机数,除以10,变成[0,0.1)之间的随机数,减0.05变成[-0.05,0.05]
#定义神经网络的输入、参数和输出,定义前向传播过程
x = tf.placeholder(tf.float32, shape=(None,2)) 
y_ = tf.placeholder(tf.float32, shape=(None,1)) #正确答案
w1 = tf.Variable(tf.random_normal([2,1], stddev=1, seed=1)) #隐藏层是3个神经元
y = tf.matmul(x,w1)
loss = tf.reduce_sum(tf.where(tf.greater(y,y_),(y-y_)*cost,(y_-y)*profit))
train_step = tf.train.GradientDescentOptimizer(0.001).minimize(loss) #梯度下降,学习率0.001
with tf.Session() as sess:
    init_op = tf.global_variables_initializer()
    sess.run(init_op)
    #训练模型
    steps = 20000
    for i in range(steps):
        start = (i * BATCH_SIZE) % 32
        end = start + BATCH_SIZE
        sess.run(train_step, feed_dict = {x:X[start:end], y_:Y_[start:end]})
        if i % 500 == 0: #每500轮打印一次
            print("After %d training steps, w1 is :"% (i))
            print(sess.run(w1),":\n") 
    print("Final w1 is :\n",sess.run(w1))

此时的权重都大于1,因为利润为9,成本为1,预测多了更好。
如果将利润改成1,成本改成9,那么预测少了好,此时的权重都会小于1.

交叉熵ce(cross entropy):表征两个概率分布之间的距离,越大,两个概率分布越远
H(y_1,y) = -\sum{y_1*logy}y_1表示正确答案,y表示预测答案
ce = -tf.reduce_mean(y_*tf.log(tf.clip_by_value(y,1e-12,1.0))) #y<1e-12为1e-12防止0的出现,y>1.0为1.0,使得输出的数在0,1之间都是概率值
当n分类的n个输出(y1,y2,...yn)通过softmax()函数,便满足了概率分布要求:
\forall P(X=x)\in[0,1]且\sum_{x}{P(X=x)=1}
softmax(y_i) = \frac{e^(y_i)}{\sum^{n}_{j=1}{e^(y_i)}}
ce=tf.nn.sparse_softmax_cross_entropy_with_logits(logits=y,labels=tf.argmax(y_,1))
cem = tf.reduce_mean(ce)

上一篇下一篇

猜你喜欢

热点阅读