房山广州网站建设,小程序直播开发,全栈网站开发流行框架,常见的cms网站程序有哪些最近想把之前的一个模型的改成多卡训练的。我并不懂DDP#xff0c;DP。一开始打算使用Transformers的Trainer#xff0c;但是配置的过程踩了很多坑也没有弄成功。【我是自己写的评测方法#xff0c;但是我找不到能让触发Trainer去用我的方法评测的路劲】#xff0c;后来偶然…最近想把之前的一个模型的改成多卡训练的。我并不懂DDPDP。一开始打算使用Transformers的Trainer但是配置的过程踩了很多坑也没有弄成功。【我是自己写的评测方法但是我找不到能让触发Trainer去用我的方法评测的路劲】后来偶然的机会知道了accelerate库这个库没有Trainer那么高级抽象正适合我。
按照官方的教程随便更改就可以了。但是因为我这个项目的特殊性我决定不多卡评测也没必要因为之前单卡评测就两分钟就出结果了。于是我决定使用多卡训练单卡评测。
但是单卡评测的时候又踩坑了就是评测结束后就卡住了卡住了……不往下接着训练了。
于是我开始写print 观察这几个进程在哪里停住了删掉评测部分看能不能正常运行结果正常运行了后来最终定位出了原因只要在评测部分使用模型例如 model(**input)就会在评测结束后卡住评测的过程倒很正常。
网上查找到了解决办法在评测过程中一直使用
model.module(**inputs)
就解决了。
其他的一些注意事项
因为是单卡评测所以不用将dev_dataloader交给 accelerate。