
新MMBench
MMBench
AI模型评测–
评测榜单旨在为大语言模型和多模态模型提供全面、客观且中立的得分与排名,同时提供多能力维度的评分参考,以便用户能够更全面地了解大模型的能力水平。
网站提供了一个面向人工智能模型评测与排行的平台,涵盖大模型、AI安全、行业应用及计算系统等多个领域。
主要功能与内容列表(按重大程度排序):
CompassHub、CompassRank、CompassKit、Compass Arena 等工具与资源
Industry Verticals(行业应用与解决方案)
Safety(AI安全评测与指南)
Embodied Intelligence(具身智能相关内容)
AI Computing System(AI计算系统信息)
Large Model(大模型展示与排行)
类别 | 内容名称 | 描述 / 功能 |
---|---|---|
大模型 | ERNIE-X1-Turbo-32K | 高性能大模型 |
大模型 | MiniMax-Text-01 | 文本生成大模型 |
工具与平台 | Rules | 评测规则与标准 |
工具与平台 | AI4S Program | AI安全与评测项目 |
大模型 | o3-high-2025-04-16 | 高性能大模型 |
大模型 | GPT-4.1-20250414 | 大模型 |
大模型 | Grok-4 | 通用大模型 |
大模型 | Hunyuan-A13B-Instruct | 指令型大模型 |
大模型 | Bailing-Lite-20250220 | 轻量级大模型 |
工具与平台 | Docs | 文档与指南 |
大模型 | iFlytek-Spark-V4.0Ultra-0720 | 高性能大模型 |
大模型 | Qwen3-235B-A22B-Thinking-2507 | 具思考能力的大模型 |
大模型 | GLM-4.5 | 通用语言大模型 |
大模型 | iFlytek-Spark-X1-0720 | 大模型 |
工具与平台 | CompassHub | 模型管理与协作平台 |
大模型 | GPT-5-2025-08-07 | 最新大模型展示 |
工具与平台 | Compass Arena | 模型对战与实验平台 |
大模型 | GLM-4.5-Air | 轻量化大模型 |
大模型 | Qwen3-235B-A22B-Instruct-2507 | 指令型大模型 |
大模型 | Doubao-Seed-1.6-thinking-250715 | 具思考能力的大模型 |
大模型 | Kimi-K2-Instruct | 指令型大模型 |
大模型 | Gemma-3-27B-it | 大模型 |
大模型 | DeepSeek-V3-0324 | 检索优化大模型 |
大模型 | Finix-P1-32B (Thinking) | 思考型大模型 |
大模型 | Llama4-Maverick-17B-128E-Instruct | 指令型大模型 |
工具与平台 | CompassKit | 评测工具包 |
大模型 | DeepSeek-R1-0528 | 高效检索大模型 |
大模型 | Bailing-Pro-20250225 | 专业级大模型 |
大模型 | o4-mini-high-2025-04-16 | 小型高性能大模型 |
大模型 | Claude Sonnet 4 (Thinking) | 思考型大模型 |
大模型 | Hunyuan-T1-20250711 | 大模型 |
工具与平台 | CompassRank | 模型排行系统 |
大模型 | ERNIE-4.5-Turbo-128K | 超大模型 |
大模型 | Gemini-2.5-Pro | 专业级大模型 |
工具与平台 | Contribute Benchmark | 贡献评测基准 |
大模型 | MiniMax-M1-80k | 大模型 |
盾灵安全导航
本站盾灵导航提供的OpenCompass数据都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由盾灵导航实际控制,在2025年9月11日 上午4:20收录时,该网页上的内容,都属于合法合规,后期网页的内容如出现违规,请联系本站网站管理员进行举报,我们将进行删除,盾灵导航不承担任何责任。