从2023年vllm爆发开始,LLM推理优化可以分为三大类:
框架层优化
KVCache资源管理:vllm赖以起家的PagedAttention、SGLang的RadixAttentiom。 并
主要是开源太卷了 开源的项目进度慢一半,推理的岗位起码能翻倍
好好好,看来是行内人
算子优化,或者ai编译器之类的
迈向分布式推理服务生态了 从dynamo就可以看出来了
分布式推理服务的确 是一个新方向,但比较偏工程化,对推理性能很难有超级大的突破
开源卷爆了
有希望!
框架层模型层都有,长序列是其中一个方向
训推一体优化。列如强化可能也是个方向
感觉没什么好做的了
请问想混个llm方向的水博毕业,有没有不吃算力的方向推荐
vllm大部分已经实现了
灵魂发问:干得过开源吗?
[g=weixiao][g=weixiao] 点名vllm
attention出现好用的sparse结构
是的呢
diffusion llm还能水一波,你说的这些除了kv cache已经实现了,剩下的都还没有实现
的确 啊,把这个漏了 [g=ku][g=ku]
同感,作者你好,你们目前在做什么方向的优化呢 [g=aoman][g=aoman]
目前的推理优化就是把各个开源的项目,好用的集成在一起,做一个推理引擎,给老板汇报异构推理平台。
好好好,看来是行内人
算子优化,或者ai编译器之类的
迈向分布式推理服务生态了 从dynamo就可以看出来了
分布式推理服务的确 是一个新方向,但比较偏工程化,对推理性能很难有超级大的突破
开源卷爆了
有希望!
框架层模型层都有,长序列是其中一个方向
训推一体优化。列如强化可能也是个方向
感觉没什么好做的了
请问想混个llm方向的水博毕业,有没有不吃算力的方向推荐
vllm大部分已经实现了
灵魂发问:干得过开源吗?
[g=weixiao][g=weixiao] 点名vllm
attention出现好用的sparse结构
是的呢
diffusion llm还能水一波,你说的这些除了kv cache已经实现了,剩下的都还没有实现
的确 啊,把这个漏了 [g=ku][g=ku]
同感,作者你好,你们目前在做什么方向的优化呢 [g=aoman][g=aoman]
目前的推理优化就是把各个开源的项目,好用的集成在一起,做一个推理引擎,给老板汇报异构推理平台。