C-Eval

4个月前更新 8 0 0

C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models

所在地：

香港

语言：

收录时间：

2025-09-11

打开网站手机查看

AI大模型 # AI模型评测

C-Eval

打开网站

AI模型评测—

C-Eval 是一个全面的中文基础模型评估套件，专为评估大语言模型在中文语境下的高级知识和推理能力而设计。该套件包含 13,948 道多项选择题，涵盖 52 个不同学科和四个难度级别，旨在为中文基础模型提供多层次、多学科的评估基准。

主要功能列表

模型评估：用户可上传模型预测结果，获取准确率评分，并下载详细的评估报告。
排行榜：展示模型在不同科目和整体的测试结果，支持 zero-shot 或 few-shot 测试。
联系我们：提供联系邮箱和 GitHub 链接，方便用户提出问题或寻求合作。
数据探索：用户可浏览不同学科和难度级别的题目示例，了解数据集内容。
数据集下载：提供 Huggingface 数据集下载，用户可直接获取用于评估的题目数据。
论文引用：提供论文引用格式，方便学术研究者引用。

网站主要内容

功能模块	描述	链接或邮箱
联系我们	提供联系邮箱和 GitHub 链接，方便用户提出问题或寻求合作	ceval.benchmark@gmail.com
排行榜	展示模型在不同科目和整体的测试结果，支持 zero-shot 或 few-shot 测试	https://cevalbenchmark.com/static/leaderboard_zh.html
Github	提供 GitHub 仓库，包含数据集和代码	https://github.com/THU-KEG/C-Eval
探索	用户可浏览不同学科和难度级别的题目示例，了解数据集内容	https://cevalbenchmark.com/static/explore_zh.html
论文	提供论文引用格式，方便学术研究者引用	https://arxiv.org/abs/2305.08322
结果提交	用户可上传模型预测结果，获取准确率评分，并下载详细的评估报告	https://cevalbenchmark.com/static/user_interface_zh.html
数据	提供 Huggingface 数据集下载，用户可直接获取用于评估的题目数据	https://huggingface.co/datasets/C-Eval
主页	提供 C-Eval 的概述和功能介绍	https://cevalbenchmark.com

盾灵安全导航

C-Eval is a comprehensive Chinese evaluation suite for foundation models. It consists of 13948 multi-choice
questions spanning 52 diverse disciplines and four difficulty levels, as shown below. You may explore our
dataset examples at Explore, or check our paper for more details.

C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models

数据统计

数据评估

C-Eval浏览人数已经达到8，以上数据仅供参考，建议大家以官方数据为准! 更多C-Eval数据如：访问速度、搜索引擎收录以及索引量、用户体验、品牌价值观等；请联系C-Eval的官方提供。本站数据仅供参考！

特别声明

本站盾灵导航提供的C-Eval数据都来源于网络，不保证外部链接的准确性和完整性，同时，对于该外部链接的指向，不由盾灵导航实际控制，在2025年9月11日上午4:25收录时，该网页上的内容，都属于合法合规，后期网页的内容如出现违规，请联系本站网站管理员进行举报,我们将进行删除，盾灵导航不承担任何责任。

盾灵导航致力于收录优质、安全、实用的网站！本文地址 https://www.dunling.com/web/3327.html 转载请注明

Cohere

Cohere builds powerful models and AI solutions enabling enterprises to automate processes, empower employees, and turn fragmented data into actionable insights.

AGI-Eval

CheckforAi

Industry Leading

Discover Llama 4's class-leading AI models, Scout and Maverick. Experience top performance, multimodality, low costs, and unparalleled efficiency.

Originality AI Plagiarism and Fact Checker

At Originality.ai we provide a complete toolset (AI checker, Plagiarism Checker, Fact Checker and Readability Checker) that helps Website Owners, Content Marketers, Writers, Publishers and any Copy Editor hit Publish with Integrity.

暂无网站点评

暂无评论...