标签

# LLM

如何加快语言模型的生成速度？

从 Flash Attention 到 KV Cache，每一项技术都在回答同一个问题：如何在有限的硬件资源下，让语言模型跑得更快、服务更多人。