干货分享|LLM推理优化总结和预测

6小时前发布 万花筒捅娄子
0 19 0
干货分享|LLM推理优化总结和预测2025年已过一半,GPT5迟迟未发布。而在LLM推理领域,也明显感觉到上半场结束了,LLM推理优化进入深水区。

从2023年vllm爆发开始,LLM推理优化可以分为三大类:

框架层优化

KVCache资源管理:vllm赖以起家的PagedAttention、SGLang的RadixAttentiom。

主要是开源太卷了 开源的项目进度慢一半,推理的岗位起码能翻倍

© 版权声明

相关文章

没有相关内容!

19 条评论

  • 头像
    深情的艾老师 投稿者

    好好好,看来是行内人

    无记录
    回复
  • 头像
    认真的铁拳 读者

    算子优化,或者ai编译器之类的

    无记录
    回复
  • 头像
    慢潜 读者

    迈向分布式推理服务生态了 从dynamo就可以看出来了

    无记录
    回复
  • 头像
    郑郑爱美式 读者

    分布式推理服务的确 是一个新方向,但比较偏工程化,对推理性能很难有超级大的突破

    无记录
    回复
  • 头像
    排队雪 读者

    开源卷爆了

    无记录
    回复
  • 头像
    永远是沉默的语言 读者

    有希望!

    无记录
    回复
  • 头像
    地球外人-- 投稿者

    框架层模型层都有,长序列是其中一个方向

    无记录
    回复
  • 头像
    度珊 读者

    训推一体优化。列如强化可能也是个方向

    无记录
    回复
  • 头像
    -Kk01- 投稿者

    感觉没什么好做的了

    无记录
    回复
  • 头像
    红酒周女王 读者

    请问想混个llm方向的水博毕业,有没有不吃算力的方向推荐

    无记录
    回复
  • 头像
    悦纳归真 读者

    vllm大部分已经实现了

    无记录
    回复
  • 头像
    相声演员金霏 投稿者

    灵魂发问:干得过开源吗?

    无记录
    回复
  • 头像
    何物冬生 投稿者

    [g=weixiao][g=weixiao] 点名vllm

    无记录
    回复
  • 头像
    顺辉瓷砖 读者

    attention出现好用的sparse结构

    无记录
    回复
  • 头像
    欣智慧郭导 读者

    是的呢

    无记录
    回复
  • 头像
    一锅 读者

    diffusion llm还能水一波,你说的这些除了kv cache已经实现了,剩下的都还没有实现

    无记录
    回复
  • 头像
    安宇淑文 读者

    的确 啊,把这个漏了 [g=ku][g=ku]

    无记录
    回复
  • 头像
    環球孤星 投稿者

    同感,作者你好,你们目前在做什么方向的优化呢 [g=aoman][g=aoman]

    无记录
    回复
  • 头像
    精致嘟猪猪女孩 投稿者

    目前的推理优化就是把各个开源的项目,好用的集成在一起,做一个推理引擎,给老板汇报异构推理平台。

    无记录
    回复