
C-Eval 是一个全面的中文基础模型评估套件,专为评估大语言模型在中文语境下的高级知识和推理能力而设计。该套件包含 13,948 道多项选择题,涵盖 52 个不同学科和四个难度级别,旨在为中文基础模型提供多层次、多学科的评估基准。
主要功能列表
-
模型评估:用户可上传模型预测结果,获取准确率评分,并下载详细的评估报告。
-
排行榜:展示模型在不同科目和整体的测试结果,支持 zero-shot 或 few-shot 测试。
-
联系我们:提供联系邮箱和 GitHub 链接,方便用户提出问题或寻求合作。
-
数据探索:用户可浏览不同学科和难度级别的题目示例,了解数据集内容。
-
数据集下载:提供 Huggingface 数据集下载,用户可直接获取用于评估的题目数据。
-
论文引用:提供论文引用格式,方便学术研究者引用。
网站主要内容
| 功能模块 | 描述 | 链接或邮箱 |
|---|---|---|
| 联系我们 | 提供联系邮箱和 GitHub 链接,方便用户提出问题或寻求合作 | ceval.benchmark@gmail.com |
| 排行榜 | 展示模型在不同科目和整体的测试结果,支持 zero-shot 或 few-shot 测试 | https://cevalbenchmark.com/static/leaderboard_zh.html |
| Github | 提供 GitHub 仓库,包含数据集和代码 | https://github.com/THU-KEG/C-Eval |
| 探索 | 用户可浏览不同学科和难度级别的题目示例,了解数据集内容 | https://cevalbenchmark.com/static/explore_zh.html |
| 论文 | 提供论文引用格式,方便学术研究者引用 | https://arxiv.org/abs/2305.08322 |
| 结果提交 | 用户可上传模型预测结果,获取准确率评分,并下载详细的评估报告 | https://cevalbenchmark.com/static/user_interface_zh.html |
| 数据 | 提供 Huggingface 数据集下载,用户可直接获取用于评估的题目数据 | https://huggingface.co/datasets/C-Eval |
| 主页 | 提供 C-Eval 的概述和功能介绍 | https://cevalbenchmark.com |
盾灵安全导航
C-Eval is a comprehensive Chinese evaluation suite for foundation models. It consists of 13948 multi-choice
questions spanning 52 diverse disciplines and four difficulty levels, as shown below. You may explore our
dataset examples at Explore, or check our paper for more details.
数据统计
数据评估
关于C-Eval特别声明
本站盾灵导航提供的C-Eval数据都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由盾灵导航实际控制,在2025年9月11日 上午4:25收录时,该网页上的内容,都属于合法合规,后期网页的内容如出现违规,请联系本站网站管理员进行举报,我们将进行删除,盾灵导航不承担任何责任。
相关导航

腾讯混元大模型是由腾讯研发的大语言模型,具备跨领域知识和自然语言理解能力,实现基于人机自然语言对话的方式,理解用户指令并执行任务,帮助用户实现人获取信息,知识和灵感。

书生大模型
书生

MMBench
MMBench

DeepFloyd IF
Squarespace - Website Expired

OpenCompass
评测榜单旨在为大语言模型和多模态模型提供全面、客观且中立的得分与排名,同时提供多能力维度的评分参考,以便用户能够更全面地了解大模型的能力水平。

魔搭社区
ModelScope——汇聚各领域先进的机器学习模型,提供模型探索体验、推理、训练、部署和应用的一站式服务。在这里,共建模型开源社区,发现、学习、定制和分享心仪的模型。

SuperCLUE
CLUE中文语言理解基准测评

文心大模型
百度文心,产业级知识增强大模型,包含基础通用大模型及面向重点领域和重点任务的大模型,同时有丰富的工具与平台支撑高效便捷的应用开发,学习效率高,可解释性好,大幅降低AI开发与应用门槛.
暂无评论...