
The Holistic Evaluation of Language Models (HELM) serves as a living benchmark for transparency in language models. Providing broad coverage and recognizing incompleteness, multi-metric measurements, and standardization. All data and analysis are freely accessible on the website for exploration and study.
CRFM Stanford 专注于大型语言模型(LLM)的性能评测和比较,提供排行榜、模型信息、使用场景以及开源资源,方便研究者和开发者了解和选择不同的AI模型。
核心功能列表(按重大程度排序)
-
排行榜(Leaderboard)– 展示各类AI模型在标准测试中的性能分数。
-
GitHub – 提供开源资源和项目代码链接。
-
重点模型展示 – 包含如Llama 2、GPT系列、Mistral、Cohere等主要模型的性能数据。
-
预测(Predictions)– 展示模型在特定任务中的预测结果。
-
场景(Scenarios)– 说明模型可应用的实际使用场景。
-
模型(Models)– 提供详细的各类大型语言模型及其参数信息。
| 模块 | 内容 | 详细信息 |
|---|---|---|
| 重点模型展示 | 高性能模型示例 | 特别突出Llama 2、GPT系列、Mistral、Cohere Command等模型,展示最新性能数据和参数。 |
| GitHub | 开源资源 | 提供代码、项目和工具的开源链接,方便研究者下载、使用和二次开发。 |
| 预测(Predictions) | 模型预测结果 | 展示模型在标准任务或特定测试中的预测输出,便于比较不同模型的准确性和效果。 |
| 排行榜(Leaderboard) | 模型性能评分 | – Llama 2 (70B):0.944 – LLaMA (65B):0.908 – text-davinci-002:0.905 – Mistral v0.1 (7B):0.884 – Cohere Command beta (52.4B):0.874 – text-davinci-003:0.872 – Jurassic-2 Jumbo (178B):0.824 – Llama 2 (13B):0.823 – TNLG v2 (530B):0.787 – gpt-3.5-turbo-0613:0.783 |
| 场景(Scenarios) | 模型应用场景 | 提供各种实际任务和使用场景的说明,用于评估模型在不同场景下的表现。 |
| 模型(Models) | 各类AI模型 | – AI21 Labs:J1-Jumbo v1 (178B)、J1-Large v1 (7.5B)、J1-Grande v1 (17B)、J1-Grande v2 beta (17B)、Jurassic-2 系列 – Aleph Alpha:Luminous Base (13B)、Luminous Extended (30B)、Luminous Supreme (70B) – Anthropic:Anthropic-LM v4-s3 (52B)、Claude 系列 – BigScience:BLOOM (176B)、T0pp (11B) – BigCode:SantaCoder (1.1B)、StarCoder (15.5B) – OpenAI:GPT-2 系列(124M–1.5B) – HuggingFace:IDEFICS 系列(9B–80B) – Cohere:Cohere xlarge、large、medium、small、Command 系列 – EleutherAI:GPT-J (6B)、GPT-NeoX (20B)、Pythia 系列 – Google:T5 (11B)、UL2 (20B)、Flan-T5 (11B)、PaLM-2 系列 – Lightning AI:Lit-GPT – Meta:OPT 系列(6.7B–175B) |
盾灵安全导航
The Center for Research on Foundation Models (CRFM) is an interdisciplinary initiative at the Stanford Institute for Human-Centered Artificial Intelligence (HAI) that makes fundamental advances in the study, development, and deployment of foundation models.
The center brings together a multidisciplinary group of faculty, students, researchers, and engineers spanning 10+ departments at Stanford.
数据统计
数据评估
关于Stanford CRFM特别声明
本站盾灵导航提供的Stanford CRFM数据都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由盾灵导航实际控制,在2025年9月11日 上午4:19收录时,该网页上的内容,都属于合法合规,后期网页的内容如出现违规,请联系本站网站管理员进行举报,我们将进行删除,盾灵导航不承担任何责任。
相关导航

MMBench

Industry Leading
Discover Llama 4's class-leading AI models, Scout and Maverick. Experience top performance, multimodality, low costs, and unparalleled efficiency.

CopyLeaks
Verify originality with Copyleaks' AI detection, the only AI-based platform used by millions worldwide to ensure text authenticity and protect intellectual property.

书生大模型
书生

OpenCompass
评测榜单旨在为大语言模型和多模态模型提供全面、客观且中立的得分与排名,同时提供多能力维度的评分参考,以便用户能够更全面地了解大模型的能力水平。

DeepFloyd IF
Squarespace - Website Expired

Cohere
Cohere builds powerful models and AI solutions enabling enterprises to automate processes, empower employees, and turn fragmented data into actionable insights.

Gradio
Build & Share Delightful Machine Learning Apps
暂无评论...



