
The Holistic Evaluation of Language Models (HELM) serves as a living benchmark for transparency in language models. Providing broad coverage and recognizing incompleteness, multi-metric measurements, and standardization. All data and analysis are freely accessible on the website for exploration and study.
CRFM Stanford 专注于大型语言模型(LLM)的性能评测和比较,提供排行榜、模型信息、使用场景以及开源资源,方便研究者和开发者了解和选择不同的AI模型。
核心功能列表(按重大程度排序)
-
排行榜(Leaderboard)– 展示各类AI模型在标准测试中的性能分数。
-
GitHub – 提供开源资源和项目代码链接。
-
重点模型展示 – 包含如Llama 2、GPT系列、Mistral、Cohere等主要模型的性能数据。
-
预测(Predictions)– 展示模型在特定任务中的预测结果。
-
场景(Scenarios)– 说明模型可应用的实际使用场景。
-
模型(Models)– 提供详细的各类大型语言模型及其参数信息。
模块 | 内容 | 详细信息 |
---|---|---|
重点模型展示 | 高性能模型示例 | 特别突出Llama 2、GPT系列、Mistral、Cohere Command等模型,展示最新性能数据和参数。 |
GitHub | 开源资源 | 提供代码、项目和工具的开源链接,方便研究者下载、使用和二次开发。 |
预测(Predictions) | 模型预测结果 | 展示模型在标准任务或特定测试中的预测输出,便于比较不同模型的准确性和效果。 |
排行榜(Leaderboard) | 模型性能评分 | – Llama 2 (70B):0.944 – LLaMA (65B):0.908 – text-davinci-002:0.905 – Mistral v0.1 (7B):0.884 – Cohere Command beta (52.4B):0.874 – text-davinci-003:0.872 – Jurassic-2 Jumbo (178B):0.824 – Llama 2 (13B):0.823 – TNLG v2 (530B):0.787 – gpt-3.5-turbo-0613:0.783 |
场景(Scenarios) | 模型应用场景 | 提供各种实际任务和使用场景的说明,用于评估模型在不同场景下的表现。 |
模型(Models) | 各类AI模型 | – AI21 Labs:J1-Jumbo v1 (178B)、J1-Large v1 (7.5B)、J1-Grande v1 (17B)、J1-Grande v2 beta (17B)、Jurassic-2 系列 – Aleph Alpha:Luminous Base (13B)、Luminous Extended (30B)、Luminous Supreme (70B) – Anthropic:Anthropic-LM v4-s3 (52B)、Claude 系列 – BigScience:BLOOM (176B)、T0pp (11B) – BigCode:SantaCoder (1.1B)、StarCoder (15.5B) – OpenAI:GPT-2 系列(124M–1.5B) – HuggingFace:IDEFICS 系列(9B–80B) – Cohere:Cohere xlarge、large、medium、small、Command 系列 – EleutherAI:GPT-J (6B)、GPT-NeoX (20B)、Pythia 系列 – Google:T5 (11B)、UL2 (20B)、Flan-T5 (11B)、PaLM-2 系列 – Lightning AI:Lit-GPT – Meta:OPT 系列(6.7B–175B) |
盾灵安全导航
数据统计
数据评估
关于Stanford CRFM特别声明
本站盾灵导航提供的Stanford CRFM数据都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由盾灵导航实际控制,在2025年9月11日 上午4:19收录时,该网页上的内容,都属于合法合规,后期网页的内容如出现违规,请联系本站网站管理员进行举报,我们将进行删除,盾灵导航不承担任何责任。
相关导航

At Originality.ai we provide a complete toolset (AI checker, Plagiarism Checker, Fact Checker and Readability Checker) that helps Website Owners, Content Marketers, Writers, Publishers and any Copy Editor hit Publish with Integrity.

新MiracleVision奇想智能
美图AI开放平台是美图公司推出的AI服务平台,将美图秀秀、美颜相机、Wink等经市场验证的图像和视频算法赋能开发者与企业数字化建设,为企业及开发者提供领先的人脸人体、图像识别与处理、生成式AI等技术服务及各行业解决方案。

新序列猴子
具有长序列、多模态、单模型、大数据等特点的超大规模语言模型,基于其通用的表示能力与推理能力,能够进行多轮交互,打造更便捷流畅的用户体验。

新AI Content Detector
Eliminate silos with an end-to-end agent builder platform, designed for collaboration—without compromise. Build, activate, and supervise agents.

新Gradio
Build & Share Delightful Machine Learning Apps

新AgentGPT
Assemble, configure, and deploy autonomous AI Agents in your browser.

新魔搭社区
ModelScope——汇聚各领域先进的机器学习模型,提供模型探索体验、推理、训练、部署和应用的一站式服务。在这里,共建模型开源社区,发现、学习、定制和分享心仪的模型。

新OpenCompass
评测榜单旨在为大语言模型和多模态模型提供全面、客观且中立的得分与排名,同时提供多能力维度的评分参考,以便用户能够更全面地了解大模型的能力水平。
暂无评论...