干货分享｜LLM推理优化总结和预测

9个月前发布万花筒捅娄子

25 19 0

2025年已过一半，GPT5迟迟未发布。而在LLM推理领域，也明显感觉到上半场结束了，LLM推理优化进入深水区。

从2023年vllm爆发开始，LLM推理优化可以分为三大类：

框架层优化

KVCache资源管理：vllm赖以起家的PagedAttention、SGLang的RadixAttentiom。
并

主要是开源太卷了开源的项目进度慢一半，推理的岗位起码能翻倍

文章版权归作者所有，未经允许请勿转载。

没有相关内容!

19 条评论

精致嘟猪猪女孩投稿者

目前的推理优化就是把各个开源的项目，好用的集成在一起，做一个推理引擎，给老板汇报异构推理平台。

9个月前无记录

回复
何物冬生投稿者

[g=weixiao][g=weixiao] 点名vllm

9个月前无记录

回复
顺辉瓷砖读者

attention出现好用的sparse结构

9个月前无记录

回复
欣智慧郭导读者

是的呢

9个月前无记录

回复
一锅读者

diffusion llm还能水一波，你说的这些除了kv cache已经实现了，剩下的都还没有实现

9个月前无记录

回复
安宇淑文读者

的确啊，把这个漏了 [g=ku][g=ku]

9个月前无记录

回复
環球孤星投稿者

同感，作者你好，你们目前在做什么方向的优化呢 [g=aoman][g=aoman]

9个月前无记录

回复
认真的铁拳读者

算子优化，或者ai编译器之类的

9个月前无记录

回复
慢潜读者

迈向分布式推理服务生态了从dynamo就可以看出来了

9个月前无记录

回复
郑郑爱美式读者

分布式推理服务的确是一个新方向，但比较偏工程化，对推理性能很难有超级大的突破

9个月前无记录

回复
排队雪读者

开源卷爆了

9个月前无记录

回复
永远是沉默的语言读者

有希望！

9个月前无记录

回复
地球外人-- 投稿者

框架层模型层都有，长序列是其中一个方向

9个月前无记录

回复
度珊读者

训推一体优化。列如强化可能也是个方向

9个月前无记录

回复
-Kk01- 投稿者

感觉没什么好做的了

9个月前无记录

回复
红酒周女王读者

请问想混个llm方向的水博毕业，有没有不吃算力的方向推荐

9个月前无记录

回复
悦纳归真读者

vllm大部分已经实现了

9个月前无记录

回复
相声演员金霏投稿者

灵魂发问：干得过开源吗？

9个月前无记录

回复
深情的艾老师投稿者

好好好，看来是行内人

9个月前无记录

回复

干货分享｜LLM推理优化总结和预测

没有更多了...

没有更多了...

相关文章

19 条评论

热门网站

小苹果网页助手

3699小游戏

国家高等教育智慧教育平台

免费字体

国家税务总局电子税务局

中国版首页

热门文章

华为强制恢复出厂设置后如何恢复数据？数据重生的2个方法介绍

2025 台湾省热剧《垂涎》全集免费大放送_双男主BL《垂涎》高清完整版在线畅览 – 清风影院_双男主《垂涎》无广告纯净在线看 – 逸云影视-风流S级Alpha竟被当众咬腺体？

新咸鱼之王开发/挂机类游戏开发/放置类游戏开发/咸鱼之王游戏源码

火速收藏！AI应用架构师的企业算力资源调度干货

软件测试覆盖率与质量保障专业经验分享报告

用CloudCompare实现两帧点云数据的精准对齐

干货分享｜LLM推理优化总结和预测

没有更多了...

没有更多了...

相关文章

19 条评论

热门网站

小苹果网页助手

3699小游戏

国家高等教育智慧教育平台

免费字体

国家税务总局电子税务局

中国版首页

热门文章

华为强制恢复出厂设置后如何恢复数据？数据重生的2个方法介绍

2025 台湾省热剧《垂涎》全集免费大放送_双男主BL《垂涎》高清完整版在线畅览 – 清风影院_双男主《垂涎》无广告纯净在线看 – 逸云影视-风流S级Alpha竟被当众咬腺体？

新咸鱼之王开发/挂机类游戏开发/放置类游戏开发/咸鱼之王游戏源码

火速收藏！AI应用架构师的企业算力资源调度干货

软件测试覆盖率与质量保障专业经验分享报告

用CloudCompare实现两帧点云数据的精准对齐

标签云