1️⃣ Prefix caching 2️⃣ chunk prefix scheduler 3️⃣ 投机采样 4️⃣ multi-lora 5️⃣ 张量并行 6️⃣ 流水线并行 7️⃣ MOE激活专家模型 8️⃣ Attention融合 9️⃣ 模型量化 🔟 通信优化 #aiinfra #大模型优化 #大模型前沿 #