onnx-llm 基于 ONNX 的轻量语言模型推理部署

授权协议:None操作系统:None 开发语言:None
onnx-llm是基于ONNX的轻量语言模型推理部署项目。 特性 支持多种ONNX模型推理,灵活适配不同语言模型 高效的推理速度,预填充速度可达112.66 tok/s 简单易用的CLI示例,快...