
The Holistic Evaluation of Language Models (HELM) serves as a living benchmark for transparency in language models. Providing broad coverage and recognizing incompleteness, multi-metric measurements, and standardization. All data and analysis are freely accessible on the website for exploration and study.
CRFM Stanford 专注于大型语言模型(LLM)的性能评测和比较,提供排行榜、模型信息、使用场景以及开源资源,方便研究者和开发者了解和选择不同的AI模型。
核心功能列表(按重大程度排序)
-
排行榜(Leaderboard)– 展示各类AI模型在标准测试中的性能分数。
-
GitHub – 提供开源资源和项目代码链接。
-
重点模型展示 – 包含如Llama 2、GPT系列、Mistral、Cohere等主要模型的性能数据。
-
预测(Predictions)– 展示模型在特定任务中的预测结果。
-
场景(Scenarios)– 说明模型可应用的实际使用场景。
-
模型(Models)– 提供详细的各类大型语言模型及其参数信息。
| 模块 | 内容 | 详细信息 |
|---|---|---|
| 重点模型展示 | 高性能模型示例 | 特别突出Llama 2、GPT系列、Mistral、Cohere Command等模型,展示最新性能数据和参数。 |
| GitHub | 开源资源 | 提供代码、项目和工具的开源链接,方便研究者下载、使用和二次开发。 |
| 预测(Predictions) | 模型预测结果 | 展示模型在标准任务或特定测试中的预测输出,便于比较不同模型的准确性和效果。 |
| 排行榜(Leaderboard) | 模型性能评分 | – Llama 2 (70B):0.944 – LLaMA (65B):0.908 – text-davinci-002:0.905 – Mistral v0.1 (7B):0.884 – Cohere Command beta (52.4B):0.874 – text-davinci-003:0.872 – Jurassic-2 Jumbo (178B):0.824 – Llama 2 (13B):0.823 – TNLG v2 (530B):0.787 – gpt-3.5-turbo-0613:0.783 |
| 场景(Scenarios) | 模型应用场景 | 提供各种实际任务和使用场景的说明,用于评估模型在不同场景下的表现。 |
| 模型(Models) | 各类AI模型 | – AI21 Labs:J1-Jumbo v1 (178B)、J1-Large v1 (7.5B)、J1-Grande v1 (17B)、J1-Grande v2 beta (17B)、Jurassic-2 系列 – Aleph Alpha:Luminous Base (13B)、Luminous Extended (30B)、Luminous Supreme (70B) – Anthropic:Anthropic-LM v4-s3 (52B)、Claude 系列 – BigScience:BLOOM (176B)、T0pp (11B) – BigCode:SantaCoder (1.1B)、StarCoder (15.5B) – OpenAI:GPT-2 系列(124M–1.5B) – HuggingFace:IDEFICS 系列(9B–80B) – Cohere:Cohere xlarge、large、medium、small、Command 系列 – EleutherAI:GPT-J (6B)、GPT-NeoX (20B)、Pythia 系列 – Google:T5 (11B)、UL2 (20B)、Flan-T5 (11B)、PaLM-2 系列 – Lightning AI:Lit-GPT – Meta:OPT 系列(6.7B–175B) |
盾灵安全导航
The Center for Research on Foundation Models (CRFM) is an that makes fundamental advances in the study, development, and deployment of foundation models.
数据统计
数据评估
关于Stanford CRFM特别声明
本站盾灵导航提供的Stanford CRFM数据都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由盾灵导航实际控制,在2025年9月11日 上午4:19收录时,该网页上的内容,都属于合法合规,后期网页的内容如出现违规,请联系本站网站管理员进行举报,我们将进行删除,盾灵导航不承担任何责任。
相关导航

Squarespace - Website Expired

文心大模型
百度文心,产业级知识增强大模型,包含基础通用大模型及面向重点领域和重点任务的大模型,同时有丰富的工具与平台支撑高效便捷的应用开发,学习效率高,可解释性好,大幅降低AI开发与应用门槛.

CopyLeaks
Verify originality with Copyleaks' AI detection, the only AI-based platform used by millions worldwide to ensure text authenticity and protect intellectual property.

MMBench
MMBench

Gradio
Build & Share Delightful Machine Learning Apps

CheckforAi
CheckforAi

PubMedQA
PubMedQA Homepage

AgentGPT
Assemble, configure, and deploy autonomous AI Agents in your browser.
暂无评论...


