与 Qwen 相比,仅使用 1 10 的预训练 token:仅用 4.2 万亿 token(仅占 Qwen3 的 36 万亿 token 的 11.7%)进行训练,就在多个推理基准测试中达到或超过 Qwen3 的准确率。