Skywork-Reward-V2 通过人机协同扩展偏好数据管理

授权协议:None操作系统:None 开发语言:None
Skywork-Reward-V2是由八个奖励模型组成的系列,旨在实现广泛任务的多功能性,并基于 2600 万个精心挑选的偏好对进行训练。Skywork-Reward-V2 系列虽然仍然基于 B...