C-Eval

6小时前发布 0 0 0

C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models

所在地:
香港
语言:
zh
收录时间:
2025-09-11

AI模型评测

C-Eval 是一个全面的中文基础模型评估套件,专为评估大语言模型在中文语境下的高级知识和推理能力而设计。该套件包含 13,948 道多项选择题,涵盖 52 个不同学科和四个难度级别,旨在为中文基础模型提供多层次、多学科的评估基准。


主要功能列表

  1. 模型评估:用户可上传模型预测结果,获取准确率评分,并下载详细的评估报告。

  2. 排行榜:展示模型在不同科目和整体的测试结果,支持 zero-shot 或 few-shot 测试。

  3. 联系我们:提供联系邮箱和 GitHub 链接,方便用户提出问题或寻求合作。

  4. 数据探索:用户可浏览不同学科和难度级别的题目示例,了解数据集内容。

  5. 数据集下载:提供 Huggingface 数据集下载,用户可直接获取用于评估的题目数据。

  6. 论文引用:提供论文引用格式,方便学术研究者引用。


网站主要内容

功能模块 描述 链接或邮箱
联系我们 提供联系邮箱和 GitHub 链接,方便用户提出问题或寻求合作 ceval.benchmark@gmail.com
排行榜 展示模型在不同科目和整体的测试结果,支持 zero-shot 或 few-shot 测试 https://cevalbenchmark.com/static/leaderboard_zh.html
Github 提供 GitHub 仓库,包含数据集和代码 https://github.com/THU-KEG/C-Eval
探索 用户可浏览不同学科和难度级别的题目示例,了解数据集内容 https://cevalbenchmark.com/static/explore_zh.html
论文 提供论文引用格式,方便学术研究者引用 https://arxiv.org/abs/2305.08322
结果提交 用户可上传模型预测结果,获取准确率评分,并下载详细的评估报告 https://cevalbenchmark.com/static/user_interface_zh.html
数据 提供 Huggingface 数据集下载,用户可直接获取用于评估的题目数据 https://huggingface.co/datasets/C-Eval
主页 提供 C-Eval 的概述和功能介绍 https://cevalbenchmark.com

盾灵安全导航C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models

数据统计

数据评估

C-Eval浏览人数已经达到0,以上数据仅供参考,建议大家以官方数据为准! 更多C-Eval数据如:访问速度、搜索引擎收录以及索引量、用户体验、品牌价值观等;请联系C-Eval的官方提供。本站数据仅供参考!

关于C-Eval特别声明

本站盾灵导航提供的C-Eval数据都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由盾灵导航实际控制,在2025年9月11日 上午4:25收录时,该网页上的内容,都属于合法合规,后期网页的内容如出现违规,请联系本站网站管理员进行举报,我们将进行删除,盾灵导航不承担任何责任。

相关导航

无阶未来

无阶未来

无阶未来是一个致力于为广大热爱ai应用开发、寻求AI工具、炼丹的小伙伴儿们提供便利的AI应用与弹性算网平台,专注于为普通用户、AI开发者提供全面的开源应用与弹性算网服务。无阶未来平台提供平台提供了丰富的镜像资源及云端部署环境,用户可以根据自己的需求选择合适的资源或直接使用内置镜像模型作为起点开启训练,同时平台内置各类型打开即用的AI应用,应用涵盖AI绘画、AI视频、AI语音、语言大模型到机器学习,让每个用户一键使用;且针对每个应用,平台均提供包含全栈设计的产品服务,让每个开发者都一站式部署。

暂无评论

none
暂无评论...