中文bert wwm 预训练参考笔记
2021-07-07 本文已影响0人
锦绣拾年
pytorch使用bert预训练基本步骤,
构造参数,加载bertmasklm模型,然后构建数据集,使用trainer进行训练
但是当我们想用https://github.com/ymcui/Chinese-BERT-wwm中的模型继续训练时,构建wwm数据集会比较麻烦,Google到 transformers 4.7.0+里封装了可以帮助实现中文wwm数据构造的方法。
首先需要用run_chinese_ref.py 构建中文切词参考文件,即把bert每一个训练语句中,切割成词的开头位置标记出来。
然后将中文切词参考文件这部分数据加入原有训练数据中,并且设置:
training_args.remove_unused_columns = False
有时候不想用行进行分割数据集,希望按照block切割数据集,即510个字符为一段训练数据,这时可以先自行切割存成csv文件,然后构建中文切词参考文件和 load_dataset时对csv文件进行操作即可。