Posts

扩散模型中的缓存机制

如何更快地生成高质量图像/视频，一直是生成模型社区的核心追求。早期的探索主要集中在数值分析视角：研究者希望构建更高效的 ODE Solver，例如 DDIM1、DPM-Solver2 和 iPNDM3，从数学上用更少的采样步数逼近目标分布。与此同时，蒸馏（Distillation）也是一种立竿见影的加速手段，只是通常需要额外训练，资源开销也更大。到了 FLUX、Wan 这类大模型时代，缓存（Cache）机制凭借免训练（Training-Free）和即插即用（Plug-and-Play）的特点，逐渐成为学术界关注的一条加速路线。但是值得强调的是，这里的 Cache 与 LLM 中的 KV Cache 几乎没有任何联系。当然，量化、剪枝等路线也在发展。归根结底，大家追求的目标仍然是同一个：在效率和质量之间找到更好的平衡。本文聚焦缓存机制，结合自己的研究经历，讨论两个问题：缓存方法应该如何评估，以及这条技术路线大致是如何演进的。打开一篇缓存相关论文，最先看到的通常是两类指标：质量（Visual Quality）和效率（Efficiency）。质量方面，常见指标包括 CLIP Score、ImageReward、VBench 等；对于 Cache 研究，还经常会额外关注重建指标，例如 PSNR、SSIM 和 LPIPS。相比之下，“效率”这个概念在很多论文里反而有些隐性模糊。最常见的效率指标是延迟（Latency）和加速比（Speedup）。延迟很直观，指生成一张图片或一段视频所需的时间，本身是合理指标。但它强依赖具体硬件和运行负载。同一个算法在不同 GPU、不同并发环境下的延迟可能差异明显。因此，如果只用延迟作为主要卖点，而不充分说明实验环境和基线设置，就不够严谨。相比之下，加速比这个相对概念的问题可能更大，因为它非常容易受到基线设置的影响。这里的基线通常是原始推理步数（num inference steps）下的 full-compute 结果，也就是用于计算重建指标的参考结果。来看一个简单的算术题。假设我们的目标是生成一张质量达标的图： Case A：原始 inference steps 为 50 步。使用 Cache 后，实际只完整计算 10 步，跳过 40 步。此时 Speedup = 50 / 10 = 5.0×。 Case B：原始 inference steps 为 30 步。对于 FLUX 这类模型来说，30 步通常已经足够。使用 Cache 后，同样只完整计算 10 步，跳过 20 步。此时 Speedup = 30 / 10 = 3.0×。乍一看，Case A 的 5.0× 似乎比 Case B 的 3.0× 强很多，甚至像是一个更大的突破。但剥离掉基线步数的影响后会发现：两者都只完整运行了 10 次网络，实际推理延迟非常接近。 ...

科研工程化 101：服务器与环境配置

从 SSH、Conda、模型下载到 Slurm 任务提交与调试，梳理一套可复现、低摩擦的科研服务器工作流。

2025 年度回顾

2025年度回顾