头像

万花筒捅娄子

帅气的我简直无法用语言描述!

干货分享|LLM推理优化总结和预测

2025年已过一半,GPT5迟迟未发布。而在LLM推理领域,也明显感觉到上半场结束了,LLM推理优化进入深水区。 从2023年vllm爆发开始,LLM推理优化可以分为三大类: 框架层优化 KVCach...
头像1天前
1900