Scaling Law

.简单讲，就是暴力美学。在模型架构（transformer）基本不变的情况下，增加模型大小、数据量、算力资源，都能让模型达到更好的效果。目前的大模型架构是基于8年前的一篇文章，attention is all you need，基本架构到目前几乎没动过！openai最早把第一个要素，即模型规模做到了极致，（当年1700亿参数的gpt3的确很吓人），力大砖飞，成就了目前最强ai公司；老黄靠着买显卡，给大家提供算力资源，让英伟达曾一度超越苹果，成为市值最高的公司；按照目前人类的生产力，模型规模和算力资源都不是问题，无非就是烧嘛，钱能解决的都不叫事。但是，目前的问题是数据已经到了瓶颈，毕竟互联网包括人类几千年留下的书籍就那么多，另外，新增的互联网数据可能大多都是垃圾（没错，就是微博之类的互联网垃圾）导致数据已经撞墙了。既然大模型的预训练已经遇到了不小的瓶颈，所以目前大部分公司开始了转向后训练，通过RL来提高模型的能力。毕竟，解决不了的问题，只能靠脑子来解决了 Scaling Law

内容分享

文章版权归作者所有，未经允许请勿转载。

从遗传学角度来看，匈牙利人的起源是什么？

内容分享

2个月前

100

depin+ai会是在2025大转折开始

内容分享 # ai # depin # 人工智能

3个月前

000

Java高级程序员必备ConcurrentHashMap实现原理：扩容遍历与计数

内容分享

2周前

010

手把手教你配置股票量化的Python环境：工具链和环境配置

内容分享

2个月前

4640

2 条评论

礼物队长读者

Scaling Law.简单讲，就是暴力美学。在模型架构（transformer）基本不变的情况下，增加模型大小、数据量、算力资源，都能让模型达到更好的效果。目前的大模型架构是基于8年前的一篇文章，attention is all you need，基本架构到现在几乎没动过！openai最早把第一个要素，即模型规模做到了极致，（当年1700亿参数的gpt3确实很吓人），力大砖飞，成就了现在最强ai公司；老黄靠着买显卡，给大家提供算力资源，让英伟达曾一度超越苹果，成为市值最高的公司；按照现在人类的生产力，模型规模和算力资源都不是问题，无非就是烧嘛，钱能解决的都不叫事。但是，现在的问题是数据已经到了瓶颈，毕竟互联网包括人类几千年留下的书籍就那么多，另外，新增的互联网数据可能大多都是垃圾（没错，就是微博之类的互联网垃圾）导致数据已经撞墙了。既然大模型的预训练已经遇到了不小的瓶颈，所以现在大部分公司开始了转向后训练，通过RL来提高模型的能力。毕竟，解决不了的问题，只能靠脑子来解决了

4个月前无记录

回复
全是壁纸投稿者

@Shanice羅珊

4个月前无记录

回复

Scaling Law

DeepSeek大模型赋能金融业，开启智能化转型新篇章 DeepSeek：金融业智能化转型的“核心引擎”DeepSeek大模型凭借深度推理能力、低推理成本和长上下文处理优势，为金融机构提供了从“效率工具”到“决策伙伴”的全新可能

https: mp.weixin.qq

相关文章

从遗传学角度来看，匈牙利人的起源是什么？

depin+ai会是在2025大转折开始

Java高级程序员必备ConcurrentHashMap实现原理：扩容遍历与计数

手把手教你配置股票量化的Python环境：工具链和环境配置

2 条评论

热门网站

【模拟攒机

vivo智能手机官方商城

觅知网

奇闻呀 — 看世界奇闻异事趣事，综合性探索网站

网页知识大全(clewo.net)

《三国杀》官网

热门文章

🌊【震撼！海底智算中心正式启启用】🌊

Win7输入法不显示怎么调出来? Win7输入法不见了的解决办法2025-09-24

UniApp新手必踩的5个大坑！我花了1个多月才爬出来…

阿里新发布Qwen3大模型：来这里全面了解一下

使用windows自带的网络工具抓包

简单详细的harbor搭建

Scaling Law

DeepSeek大模型赋能金融业，开启智能化转型新篇章 DeepSeek：金融业智能化转型的“核心引擎”DeepSeek大模型凭借深度推理能力、低推理成本和长上下文处理优势，为金融机构提供了从“效率工具”到“决策伙伴”的全新可能

https: mp.weixin.qq

相关文章

热门网站

【模拟攒机

vivo智能手机官方商城

觅知网

奇闻呀 — 看世界奇闻异事趣事，综合性探索网站

网页知识大全(clewo.net)

《三国杀》官网

热门文章

标签云