-
05-30 02:10...推测解码(SpeculativeDecoding)技术通过预测与并行解码有效降低了大模型解码延迟。然而现有推测解码方法需要引入额外模型或修改模型结构来预测未来词元,使其在工程部署和多批次推理场景存在局限。针对上述难题,本项目提出了一种基于n-gram缓存与候选选择机制的高效推测解码方案。首先,提出了多级n-gram缓存... 0
-
-
-
本页Url:
-
2026-05-30-04:18 GMT . 添加到桌面浏览更方便.
-
本页Url: