pytorch训练经验

2022-11-22  本文已影响0人  nowherespyfly
  1. 用fp16训练的时候,得单独把transformer layer改成fp32,不然可能loss不降
  2. checkpoint+ddp的时候,可能会报这个错:



    把find_unused_parameters改成False就可以了。

model = build_ddp(
    model,
    cfg.device,
    device_ids=[int(os.environ['LOCAL_RANK'])],
    broadcast_buffers=False,
    find_unused_parameters=False)
上一篇 下一篇

猜你喜欢

热点阅读