VitaBench 大模型智能体评测基准

授权协议:None操作系统:None 开发语言:None
VitaBench(Versatile Interactive Tasks Benchmark)是一个具有挑战性的基准测试,用于评估智能体在基于真实世界场景的多样化交互式任务中的表现。VitaB...