
新Winston AI
Winston AI is the industry leading AI content detector and plagiarism checker software for ChatGPT, GPT4, Google Gemini and more.
C-Eval 是一个全面的中文基础模型评估套件,专为评估大语言模型在中文语境下的高级知识和推理能力而设计。该套件包含 13,948 道多项选择题,涵盖 52 个不同学科和四个难度级别,旨在为中文基础模型提供多层次、多学科的评估基准。
模型评估:用户可上传模型预测结果,获取准确率评分,并下载详细的评估报告。
排行榜:展示模型在不同科目和整体的测试结果,支持 zero-shot 或 few-shot 测试。
联系我们:提供联系邮箱和 GitHub 链接,方便用户提出问题或寻求合作。
数据探索:用户可浏览不同学科和难度级别的题目示例,了解数据集内容。
数据集下载:提供 Huggingface 数据集下载,用户可直接获取用于评估的题目数据。
论文引用:提供论文引用格式,方便学术研究者引用。
功能模块 | 描述 | 链接或邮箱 |
---|---|---|
联系我们 | 提供联系邮箱和 GitHub 链接,方便用户提出问题或寻求合作 | ceval.benchmark@gmail.com |
排行榜 | 展示模型在不同科目和整体的测试结果,支持 zero-shot 或 few-shot 测试 | https://cevalbenchmark.com/static/leaderboard_zh.html |
Github | 提供 GitHub 仓库,包含数据集和代码 | https://github.com/THU-KEG/C-Eval |
探索 | 用户可浏览不同学科和难度级别的题目示例,了解数据集内容 | https://cevalbenchmark.com/static/explore_zh.html |
论文 | 提供论文引用格式,方便学术研究者引用 | https://arxiv.org/abs/2305.08322 |
结果提交 | 用户可上传模型预测结果,获取准确率评分,并下载详细的评估报告 | https://cevalbenchmark.com/static/user_interface_zh.html |
数据 | 提供 Huggingface 数据集下载,用户可直接获取用于评估的题目数据 | https://huggingface.co/datasets/C-Eval |
主页 | 提供 C-Eval 的概述和功能介绍 | https://cevalbenchmark.com |
盾灵安全导航
本站盾灵导航提供的C-Eval数据都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由盾灵导航实际控制,在2025年9月11日 上午4:25收录时,该网页上的内容,都属于合法合规,后期网页的内容如出现违规,请联系本站网站管理员进行举报,我们将进行删除,盾灵导航不承担任何责任。