机器学习中的Train/Dev/Test集合数量设定
Train/Dev/Test集合设定
现在,我们就来聊聊在机器学习中训练/开发/测试集合大小的设定。
Train/Dev/TestTrainDevTest
在机器学习的早期,由于数据量较少:
我们将Train/Dev/Test的比例设定为60/20/20
或者 Train/Test-->70/30
现如今,我们可以获得大量的数据集, 数据量会超过百万(1,000,000)。因此,我们也就只需要选取少量的Test集合,即可校验算法的可靠性。
因此,我们经常将训练集设定为:Train/Dev/Test的--->98/1/1
当前,机器学习主要用到Train/Test训练集。
机器学习的应用领域
现如今ML(Machine Learing)机器学习已经在很多方面有了显著地突破,尤其再Deep Learning领域,突破更是一日千里。
例如:NLP(自然语言处理),Computer Vision(机器视觉),语言翻译(Translation),结构化数据处理(Structure Data)。
结构化数据处理(Structure Data):Ads(互联网广告),Search(搜索引擎),Computer Security(计算机安全),Logistical(物流)等领域有着很好的应用。
我们有理由相信在不久的将来,机器学习将会应用到更为广阔的领域。
想法-编码-验证阶段
各位童鞋在学习ML(Machine Learning)时,都会经历这几个步骤:
Idea: 创意和想法;对一个项目(事情)的想法和解决该方法的思路。
Code: 编码;通过ML,进行编码。
Experiment: 实验;通过实验时验证你的想法和思路。
Idea-Code-ExperimentIdea,Code,Experiment是一个循环的过程。开始于Idea,然后通过Code实现,在通过Experiment进行验证。之后再次优化你的想法,优化代码,再实验验证,一次一次的迭代,最终实现对问题的解决。
名词解释:
Dataset: 数据集。就是我们需要给算法提供的训练数据,常见的数据集包括:Training Dataset(训练集),Testing Dataset(测试集),Dev Dataset(开发集)。
algorithm:算法。很简单,就是我们常说的机器学习中的算法。常见的有CNN,RNN,DNN等。