vLLM LLM 推理和服务库

授权协议:None操作系统:None 开发语言:None
vLLM 是一个快速且易于使用的 LLM 推理和服务库。 vLLM 的速度很快: 最先进的服务吞吐量 使用 PagedAttention 高效管理 attention key 和 value m...