Stanford CRFM

4个月前更新 7 0 0

Stanford CRFM

所在地：

美国

语言：

收录时间：

2025-09-11

打开网站手机查看

AI大模型 # AI模型评测

Stanford CRFM

打开网站

AI模型评测—

The Holistic Evaluation of Language Models (HELM) serves as a living benchmark for transparency in language models. Providing broad coverage and recognizing incompleteness, multi-metric measurements, and standardization. All data and analysis are freely accessible on the website for exploration and study.

CRFM Stanford 专注于大型语言模型（LLM）的性能评测和比较，提供排行榜、模型信息、使用场景以及开源资源，方便研究者和开发者了解和选择不同的AI模型。

核心功能列表（按重大程度排序）

排行榜（Leaderboard）– 展示各类AI模型在标准测试中的性能分数。
GitHub – 提供开源资源和项目代码链接。
重点模型展示 – 包含如Llama 2、GPT系列、Mistral、Cohere等主要模型的性能数据。
预测（Predictions）– 展示模型在特定任务中的预测结果。
场景（Scenarios）– 说明模型可应用的实际使用场景。
模型（Models）– 提供详细的各类大型语言模型及其参数信息。

模块	内容	详细信息
重点模型展示	高性能模型示例	特别突出Llama 2、GPT系列、Mistral、Cohere Command等模型，展示最新性能数据和参数。
GitHub	开源资源	提供代码、项目和工具的开源链接，方便研究者下载、使用和二次开发。
预测（Predictions）	模型预测结果	展示模型在标准任务或特定测试中的预测输出，便于比较不同模型的准确性和效果。
排行榜（Leaderboard）	模型性能评分	– Llama 2 (70B)：0.944 – LLaMA (65B)：0.908 – text-davinci-002：0.905 – Mistral v0.1 (7B)：0.884 – Cohere Command beta (52.4B)：0.874 – text-davinci-003：0.872 – Jurassic-2 Jumbo (178B)：0.824 – Llama 2 (13B)：0.823 – TNLG v2 (530B)：0.787 – gpt-3.5-turbo-0613：0.783
场景（Scenarios）	模型应用场景	提供各种实际任务和使用场景的说明，用于评估模型在不同场景下的表现。
模型（Models）	各类AI模型	– AI21 Labs：J1-Jumbo v1 (178B)、J1-Large v1 (7.5B)、J1-Grande v1 (17B)、J1-Grande v2 beta (17B)、Jurassic-2 系列 – Aleph Alpha：Luminous Base (13B)、Luminous Extended (30B)、Luminous Supreme (70B) – Anthropic：Anthropic-LM v4-s3 (52B)、Claude 系列 – BigScience：BLOOM (176B)、T0pp (11B) – BigCode：SantaCoder (1.1B)、StarCoder (15.5B) – OpenAI：GPT-2 系列（124M–1.5B） – HuggingFace：IDEFICS 系列（9B–80B） – Cohere：Cohere xlarge、large、medium、small、Command 系列 – EleutherAI：GPT-J (6B)、GPT-NeoX (20B)、Pythia 系列 – Google：T5 (11B)、UL2 (20B)、Flan-T5 (11B)、PaLM-2 系列 – Lightning AI：Lit-GPT – Meta：OPT 系列（6.7B–175B）

盾灵安全导航

The Center for Research on Foundation Models (CRFM) is an that makes fundamental advances in the study, development, and deployment of foundation models.

全能 AI 聚合平台免费

一站式接入主流 AI 大模型，支持对话 · 生图 · 生视频，即开即用

ChatGPT Claude Gemini Grok DeepSeek 通义千问 Ollama

AI对话 AI生图 AI视频

免费使用 →

数据统计

数据评估

Stanford CRFM浏览人数已经达到7，以上数据仅供参考，建议大家以官方数据为准! 更多Stanford CRFM数据如：访问速度、搜索引擎收录以及索引量、用户体验、品牌价值观等；请联系Stanford CRFM的官方提供。本站数据仅供参考！

特别声明

本站盾灵导航提供的Stanford CRFM数据都来源于网络，不保证外部链接的准确性和完整性，同时，对于该外部链接的指向，不由盾灵导航实际控制，在2025年9月11日上午4:19收录时，该网页上的内容，都属于合法合规，后期网页的内容如出现违规，请联系本站网站管理员进行举报,我们将进行删除，盾灵导航不承担任何责任。

盾灵导航致力于收录优质、安全、实用的网站！本文地址 https://www.dunling.com/web/3320.html 转载请注明

书生大模型

书生

LLMEval3

LLM-EVAL

CheckforAi

暂无网站点评

暂无评论...

Stanford CRFM

数据统计

数据评估

相关导航

书生大模型

LLMEval3

CheckforAi

文心大模型

腾讯混元大模型

SuperCLUE

DeepFloyd IF

LMArena

暂无网站点评

热门网站

3699小游戏

3699小游戏

新LuKuai 免费AI对话聊天平台

Poki (宝玩)

Shopee

小苹果网页助手

热门网址

Stanford CRFM

数据统计

数据评估

相关导航

书生大模型

LLMEval3

CheckforAi

文心大模型

腾讯混元大模型

SuperCLUE

DeepFloyd IF

LMArena

暂无网站点评

热门网站

3699小游戏

3699小游戏

新LuKuai 免费AI对话聊天平台

Poki (宝玩)

Shopee

小苹果网页助手

热门网址

标签云