2018-05-05第五周 优化3:网格搜索调参+数据集更新

2018-06-14  本文已影响0人  土豆土豆我是potato

一、网格搜索调参

我选择'gamma': [1e-3, 1e-4,1e-5](0.001,0.0001,0.00001), 'C': [1, 10, 100, 1000]

这样一共有12种情况

源代码如下:

最后结果 c:10 ,gamma:0.001是最好的,结果是0.89

但是还是不是很满意,而且参数选择训练的速度特别特别慢,大概用了四个小时才结束,再加上训练是svm,一共大概要用七个小时左右。。。所以性能还要有提升才好。

二、突发情况!!!数据集变动了!!!

由于数据集中本来就存在绝大多数的中(现实生活中人们对于金融营销活动的评价感情色彩多为不好也不坏,所以导致数据集好中差分布不均匀。)但是我们先前也没有考虑到这个情况,因此我们对训练数据undersampling,即对多数类数据进行抽样,或者将少数类翻倍,使得两类数量相同。

而且考虑到文本为中文,但我们之前用的方法(word2vec)比较适合于英文,所以表达不够准确,导致队员的模型训练效果都不太好。我们换用了搜狗词向量库和维基百科词向量库重新进行分布式表达。

更换数据集后,所有成员的效果都有了比较大的提升, 重新通过网格搜索选定 c:1 gamma:0.001 结果为0.92

但是跟同组rnn的成员正确率相比还是有一定的差距

更新:值得一提的是,我又进行了很多次的参数尝试,最后选定了最高的c=100,gama=0.0005,最后得到的结果是0.959,虽然与rnn还是有一定的差距,但是已经不是特别逊色了。

上一篇下一篇

猜你喜欢

热点阅读