SWE-RL 基于强化学习增强 LLM 推理能力

授权协议:None操作系统:None 开发语言:None
SWE-RL:通过开源软件演进数据和基于规则的奖励机制,增强 LLM 推理能力的强化学习项目。 特性 首个针对真实世界软件工程的强化学习方法 提供奖励函数和提示模板,助力开发者快速上手 支持Ag...