高效生成 | 缓存机制

像奥林匹克精神一样,如何更快地生成高质量图像/视频,一直是生成模型社区的核心追求。早期的探索主要集中在数值分析视角:研究者希望构建更高效的 ODE Solver,例如 DDIM1、DPM-Solver2 和 iPNDM3,从数学上用更少的采样步数逼近目标分布。与此同时,蒸馏(Distillation)也是一种立竿见影的加速手段,只是通常需要额外训练,资源开销也更大。 到了 FLUX、Wan 这类大模型时代,或许也受到 LLM 推理加速思路的启发,缓存(Cache)机制凭借免训练(Training-Free)和即插即用(Plug-and-Play)的特点,在学术界迅速火了起来。当然,量化、分布式推理等路线也在同步发展。但归根结底,大家追求的目标仍然是同一个:在效率和质量之间找到更好的平衡。 本文聚焦缓存机制,结合自己的研究经历,讨论两个问题:缓存方法应该如何评估,以及这条技术路线大致是如何演进的。 打开一篇缓存相关论文,最先看到的通常是两类指标:质量(Visual Quality)和效率(Efficiency)。质量方面,常见指标包括 CLIP Score、ImageReward、VBench 等;对于 Cache 研究,还经常会额外关注重建指标,例如 PSNR 和 LPIPS。相比之下,“效率”这个概念在很多论文里反而有些隐性模糊。 最常见的效率指标是延迟(Latency)和加速比(Speedup)。延迟很直观,本身也是一个合理指标;只是它强依赖硬件,同一个算法在不同 GPU、不同负载、不同显存状态下,结果都可能差很多。加速比看起来也直观,但水分更大,因为它本质上是一个相对指标,非常容易受到基线设置的影响。这里的基线通常就是原始推理步数(num inference steps),也就是我们常说的“Ground Truth”配置。 来看一个简单的算术题。假设我们的目标是生成一张质量达标的图: Case A:原始 inference steps 为 50 步。使用 Cache 后,实际只完整计算 10 步,跳过 40 步。此时 Speedup = 50 / 10 = 5.0×。 Case B:原始 inference steps 为 30 步。对于 FLUX 这类模型来说,30 步通常已经足够。使用 Cache 后,同样只完整计算 10 步,跳过 20 步。此时 Speedup = 30 / 10 = 3.0×。 乍一看,Case A 的 5.0× 似乎比 Case B 的 3.0× 强很多,甚至像是一个更大的突破。但剥离掉基线步数的影响后会发现:两者都只完整运行了 10 次网络,实际推理延迟很可能非常接近。 ...

2026年2月6日 · 7 分钟 · 雷明坤

科研工程化 101:服务器与环境配置

从 SSH、Conda、模型下载到 Slurm 任务提交与调试,梳理一套可复现、低摩擦的科研服务器工作流。

2026年2月4日 · 12 分钟 · 雷明坤

2025 年度回顾

2025年度回顾

2026年2月2日 · 5 分钟 · 雷明坤