标签: AI

5 篇文章

Speculative Decoding及其原理(一)
背景 自回归的大语言模型在各种自然语言处理任务上表现优秀,但是,他们需要大量的计算资源消耗。 大规模的自回归模型在解码时,如果要解码K个token,就需要串行K次,因为自回归模型是由前面的分布决定后面的分布的。除了这些大规模的自回归模型之外,还有更高效的、小型的模型(比如同系列的参数比较多的模型,和参数比较少的模型),这些模型可以更快地完成解码 L…