PaperBench AI Agent 评测基准

授权协议:None操作系统:None 开发语言:None
PaperBench 是 OpenAI 开源的 AI Agent 评测基准,主要考核智能体的搜索、整合、执行等能力,需要对 2024 年国际机器学习大会上顶尖论文的复现,包括对论文内容的理解、代...