CPM.cu 轻量级 CUDA 推理框架

授权协议:None操作系统:None 开发语言:None
CPM.cu 是一个轻量级且高效的开源 CUDA 推理框架,专为端侧大型语言模型(LLMs)的部署而设计,核心支持稀疏架构、投机采样和低位宽量化等前沿技术创新。 CPM.cu 亮点包括: 集成了...