
The Holistic Evaluation of Language Models (HELM) serves as a living benchmark for transparency in language models. Providing broad coverage and recognizing incompleteness, multi-metric measurements, and standardization. All data and analysis are freely accessible on the website for exploration and study.
CRFM Stanford 专注于大型语言模型(LLM)的性能评测和比较,提供排行榜、模型信息、使用场景以及开源资源,方便研究者和开发者了解和选择不同的AI模型。
核心功能列表(按重大程度排序)
-
排行榜(Leaderboard)– 展示各类AI模型在标准测试中的性能分数。
-
GitHub – 提供开源资源和项目代码链接。
-
重点模型展示 – 包含如Llama 2、GPT系列、Mistral、Cohere等主要模型的性能数据。
-
预测(Predictions)– 展示模型在特定任务中的预测结果。
-
场景(Scenarios)– 说明模型可应用的实际使用场景。
-
模型(Models)– 提供详细的各类大型语言模型及其参数信息。
| 模块 | 内容 | 详细信息 |
|---|---|---|
| 重点模型展示 | 高性能模型示例 | 特别突出Llama 2、GPT系列、Mistral、Cohere Command等模型,展示最新性能数据和参数。 |
| GitHub | 开源资源 | 提供代码、项目和工具的开源链接,方便研究者下载、使用和二次开发。 |
| 预测(Predictions) | 模型预测结果 | 展示模型在标准任务或特定测试中的预测输出,便于比较不同模型的准确性和效果。 |
| 排行榜(Leaderboard) | 模型性能评分 | – Llama 2 (70B):0.944 – LLaMA (65B):0.908 – text-davinci-002:0.905 – Mistral v0.1 (7B):0.884 – Cohere Command beta (52.4B):0.874 – text-davinci-003:0.872 – Jurassic-2 Jumbo (178B):0.824 – Llama 2 (13B):0.823 – TNLG v2 (530B):0.787 – gpt-3.5-turbo-0613:0.783 |
| 场景(Scenarios) | 模型应用场景 | 提供各种实际任务和使用场景的说明,用于评估模型在不同场景下的表现。 |
| 模型(Models) | 各类AI模型 | – AI21 Labs:J1-Jumbo v1 (178B)、J1-Large v1 (7.5B)、J1-Grande v1 (17B)、J1-Grande v2 beta (17B)、Jurassic-2 系列 – Aleph Alpha:Luminous Base (13B)、Luminous Extended (30B)、Luminous Supreme (70B) – Anthropic:Anthropic-LM v4-s3 (52B)、Claude 系列 – BigScience:BLOOM (176B)、T0pp (11B) – BigCode:SantaCoder (1.1B)、StarCoder (15.5B) – OpenAI:GPT-2 系列(124M–1.5B) – HuggingFace:IDEFICS 系列(9B–80B) – Cohere:Cohere xlarge、large、medium、small、Command 系列 – EleutherAI:GPT-J (6B)、GPT-NeoX (20B)、Pythia 系列 – Google:T5 (11B)、UL2 (20B)、Flan-T5 (11B)、PaLM-2 系列 – Lightning AI:Lit-GPT – Meta:OPT 系列(6.7B–175B) |
盾灵安全导航
The Center for Research on Foundation Models (CRFM) is an that makes fundamental advances in the study, development, and deployment of foundation models.
数据统计
数据评估
关于Stanford CRFM特别声明
本站盾灵导航提供的Stanford CRFM数据都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由盾灵导航实际控制,在2025年9月11日 上午4:19收录时,该网页上的内容,都属于合法合规,后期网页的内容如出现违规,请联系本站网站管理员进行举报,我们将进行删除,盾灵导航不承担任何责任。
相关导航

Squarespace - Website Expired

CopyLeaks
Verify originality with Copyleaks' AI detection, the only AI-based platform used by millions worldwide to ensure text authenticity and protect intellectual property.

Winston AI
Winston AI is the industry leading AI content detector and plagiarism checker software for ChatGPT, GPT4, Google Gemini and more.
BAAI智源研究院
智源研究院是人工智能领域的新型研发机构,汇集国际顶尖人工智能学者,聚焦核心技术与原始创新,旨在推动人工智能领域发展政策、学术思想、理论基础、顶尖人才与产业生态的五大源头创新。

FlagEval
FlagEval

AI Ping
MaaSHub

LMArena
Attention Required! | Cloudflare

序列猴子
具有长序列、多模态、单模型、大数据等特点的超大规模语言模型,基于其通用的表示能力与推理能力,能够进行多轮交互,打造更便捷流畅的用户体验。
暂无评论...


