中文bert wwm 预训练参考笔记

2021-07-07  本文已影响0人  锦绣拾年

https://github.com/huggingface/transformers/tree/1c06240e1b3477728129bb58e7b6c7734bb5074e/examples/research_projects/mlm_wwm

pytorch使用bert预训练基本步骤,
构造参数,加载bertmasklm模型,然后构建数据集,使用trainer进行训练

但是当我们想用https://github.com/ymcui/Chinese-BERT-wwm中的模型继续训练时,构建wwm数据集会比较麻烦,Google到 transformers 4.7.0+里封装了可以帮助实现中文wwm数据构造的方法。
首先需要用run_chinese_ref.py 构建中文切词参考文件,即把bert每一个训练语句中,切割成词的开头位置标记出来。
然后将中文切词参考文件这部分数据加入原有训练数据中,并且设置:
training_args.remove_unused_columns = False

https://github.com/huggingface/transformers/blob/1c06240e1b3477728129bb58e7b6c7734bb5074e/examples/research_projects/mlm_wwm/run_mlm_wwm.py

有时候不想用行进行分割数据集,希望按照block切割数据集,即510个字符为一段训练数据,这时可以先自行切割存成csv文件,然后构建中文切词参考文件和 load_dataset时对csv文件进行操作即可。

上一篇 下一篇

猜你喜欢

热点阅读