人手一个ChatGPT的梦想,就要实现了?
刚刚,微软开源了一个可以在模型训练中加入完整RLHF流程的系统框架——DeepSpeed Chat。
也就是说,各种规模的高质量类ChatGPT模型,现在都唾手可得了!





一杯咖啡,训完13亿参数版ChatGPT
如果你只有大约1-2小时的咖啡或午餐休息时间,也可以尝试使用DeepSpeed-Chat训练一个「小玩具」。团队特地准备了一个针对1.3B模型的训练示例,可在消费级GPU上进行测试。最棒的是,当你从午休回来时,一切都已准备就绪。python train.py –actor-model facebook/opt-1.3b –reward-model facebook/opt-350m –num-gpus 1配备48GB显存的消费级NVIDIA A6000 GPU:
一个GPU Node,半天搞定130亿参数
如果你只有半天的时间,以及一台服务器节点,则可以通过预训练的OPT-13B作为actor模型,OPT-350M作为reward模型,来生成一个130亿参数的类ChatGPT模型:python train.py –actor-model facebook/opt-13b –reward-model facebook/opt-350m –num-gpus 8单DGX节点,搭载了8个NVIDIA A100-40G GPU:
超省钱云方案,训练660亿参数模型
如果你可以使用多节点集群或云资源,并希望训练一个更大、更高质量的模型。那么只需基于下面这行代码,输入你想要的模型大小(如66B)和GPU数量(如64):python train.py –actor-model facebook/opt-66b –reward-model facebook/opt-350m –num-gpus 648个DGX节点,每个节点配备8个NVIDIA A100-80G GPU:


高效且经济:
DeepSpeed-HE比现有系统快15倍以上,使RLHF训练快速且经济实惠。例如,DeepSpeed-HE在Azure云上只需9小时即可训练一个OPT-13B模型,只需18小时即可训练一个OPT-30B模型。这两种训练分别花费不到300美元和600美元。
卓越的扩展性:
DeepSpeed-HE能够支持训练拥有数千亿参数的模型,并在多节点多GPU系统上展现出卓越的扩展性。因此,即使是一个拥有130亿参数的模型,也只需1.25小时就能完成训练。而对于拥有1750 亿参数的模型,使用DeepSpeed-HE进行训练也只需不到一天的时间。
实现RLHF训练的普及化:
仅凭单个GPU,DeepSpeed-HE就能支持训练超过130亿参数的模型。这使得那些无法使用多GPU系统的数据科学家和研究者不仅能够轻松创建轻量级的RLHF模型,还能创建大型且功能强大的模型,以应对不同的使用场景。


