大模型的前世今生

。大模型指的是拥有巨大参数量的机器学习模型，一般来说参数量超过10亿的模型可称为大模型。这些模型基于预训练方式，通过理解和学习大量的数据来获取知识和技能，以人机对话等方式完成信息检索、机器翻译、文本摘要、代码编写等各种内容生成任务。从1950年阿兰图灵AllenTurin在其论文计算机器与智能提出图灵测试，初步探讨机器是否能够表现出类似人类的智能行为开始，早期探索阶段一直到2017年谷歌推出的Transformer模型结构，通过引入自注意力机制，极大地提升了序列建模能力，特别是在处理长距离依赖关系时的效率和准确性方面表现出色，该理念逐渐成为主流，视为关键突破阶段。快速发展阶段，预训练语言模型的理念兴起，即在大规模文本数据集上进行预训练，捕捉语言的通用模式，然后针对特定任务进行微调，OpenAI的GPT系列模型是这方面的典范。从GPT1到2022年11月，OpenAI发布的基于GPT3.5的AI聊天机器人程序ChatGPT引发广泛关注，其强劲的语言表达和问题处理能力让各行各业感受到了大模型的影响力，也掀起了国内外大模型的研究热潮。随着技术的进一步发展，大模型不再局限文本领域，2023年3月，OpenAI官方宣布的多模态大模型GPT-4新增了图像功能，同时具备更精准的语言理解能力，标志着大模型从单一模态向多模态的重大转变。大模型名字的由来，其名字主要源于其规模巨大的特点，这类模型拥有大量的参数、复杂的网络结构以及对大规模数据的学习和处理能力，与传统小型模型相比，在性能和功能上有了质的飞跃，因此被称为大模型，以突出其规模和能力上的。我国有关大模型的扶持政策和战略规划：2024年政府工作报告首次提出开展人工智能揭榜挂帅行动，被大模型深度嵌入千行百业作出指引。工信部披露，我国人工智能企业数量超过4,500家，完成备案并上线为公众提供服务的生成式人工智能服务大模型近200个。国务院新一代人工智能发展规划，提出中国人工智能发展三步走战略目标，明确到2030年，中国成为世界主要人工智能创新中心。科技部等6部门，关于加快场景创新，应用人工智能高水平促进经济高质量发展的指导意见，旨在通过加快场景创新，推动人工智能高水平应用，促进经济高质量发展。工信部等7 大模型的前世今生