在小红书刷到面壁MiniCPM 4.0和Qwen3长文本极限测试的视频,速度快得有点夸张(可以去@面壁小钢炮 看看)。顺手翻了下论文,有很多亮眼的点。
两个主要版本: MiniCPM4-8B:8B,在8Ttoken上训练。 MiniCPM4-0.5B:0.5B,在1Ttoken上训练。 另外还有不少衍生版本。 (端
8b的也是dense,不是moe
强👍
8b的也是MOE的吧?可以看一下官号…莫非后来又变了?
强👍
8b的也是MOE的吧?可以看一下官号…莫非后来又变了?