Meeseeks Benchmark 指令遵循基准测试

授权协议:None操作系统:None 开发语言:None
Meeseeks是一个指令遵循基准测试,旨在评估模型在多轮场景下执行用户指令的准确程度。Meeseeks 的一个关键特性是其自我修正循环,模型会接收结构化反馈,并相应地改进其响应。 该基准对模型...