干货分享｜LLM推理优化总结和预测

3个月前发布万花筒捅娄子

0 19 0

2025年已过一半，GPT5迟迟未发布。而在LLM推理领域，也明显感觉到上半场结束了，LLM推理优化进入深水区。

从2023年vllm爆发开始，LLM推理优化可以分为三大类：

框架层优化

KVCache资源管理：vllm赖以起家的PagedAttention、SGLang的RadixAttentiom。
并

主要是开源太卷了开源的项目进度慢一半，推理的岗位起码能翻倍

文章版权归作者所有，未经允许请勿转载。

没有相关内容!

19 条评论

精致嘟猪猪女孩投稿者

目前的推理优化就是把各个开源的项目，好用的集成在一起，做一个推理引擎，给老板汇报异构推理平台。

3个月前无记录

回复
何物冬生投稿者

[g=weixiao][g=weixiao] 点名vllm

3个月前无记录

回复
顺辉瓷砖读者

attention出现好用的sparse结构

3个月前无记录

回复
欣智慧郭导读者

是的呢

3个月前无记录

回复
一锅读者

diffusion llm还能水一波，你说的这些除了kv cache已经实现了，剩下的都还没有实现

3个月前无记录

回复
安宇淑文读者

的确啊，把这个漏了 [g=ku][g=ku]

3个月前无记录

回复
環球孤星投稿者

同感，作者你好，你们目前在做什么方向的优化呢 [g=aoman][g=aoman]

3个月前无记录

回复
认真的铁拳读者

算子优化，或者ai编译器之类的

3个月前无记录

回复
慢潜读者

迈向分布式推理服务生态了从dynamo就可以看出来了

3个月前无记录

回复
郑郑爱美式读者

分布式推理服务的确是一个新方向，但比较偏工程化，对推理性能很难有超级大的突破

3个月前无记录

回复
排队雪读者

开源卷爆了

3个月前无记录

回复
永远是沉默的语言读者

有希望！

3个月前无记录

回复
地球外人-- 投稿者

框架层模型层都有，长序列是其中一个方向

3个月前无记录

回复
度珊读者

训推一体优化。列如强化可能也是个方向

3个月前无记录

回复
-Kk01- 投稿者

感觉没什么好做的了

3个月前无记录

回复
红酒周女王读者

请问想混个llm方向的水博毕业，有没有不吃算力的方向推荐

3个月前无记录

回复
悦纳归真读者

vllm大部分已经实现了

3个月前无记录

回复
相声演员金霏投稿者

灵魂发问：干得过开源吗？

3个月前无记录

回复
深情的艾老师投稿者

好好好，看来是行内人

3个月前无记录

回复

干货分享｜LLM推理优化总结和预测

没有更多了...

没有更多了...

相关文章

19 条评论

热门网站

小苹果网页助手

Pakutaso

ISO Republic

百度手机助手

蝉妈妈

亚马逊跨境电商培训

热门文章

简历造假的悬崖：这三条红线，千万不能踩

PC端软件推荐——下载神器，无广告弹窗，速度起飞，你值得拥有

干货分享｜LLM推理优化总结和预测

没有更多了...

没有更多了...

相关文章

19 条评论

热门网站

小苹果网页助手

Pakutaso

ISO Republic

百度手机助手

蝉妈妈

亚马逊跨境电商培训

热门文章

简历造假的悬崖：这三条红线，千万不能踩

PC端软件推荐——下载神器，无广告弹窗，速度起飞，你值得拥有

标签云