大模型核心 100 个关键词及解释
一、 基础概念类
- 大语言模型(LLM, Large Language Model):基于海量文本数据训练,通过 Transformer 架构实现自然语言理解与生成的深度学习模型,是大模型的核心分支。
- 生成式 AI(Generative AI):能自主生成文本、图像、音频等内容的人工智能技术,大语言模型是其典型代表。
- 预训练(Pre-training):大模型在海量无标注数据上进行的初始训练阶段,学习语言的语法、语义和常识。
- 微调(Fine-tuning):预训练模型在特定任务的标注数据集上进一步训练,适配具体场景需求。
- 提示工程(Prompt Engineering):设计和优化输入提示词,引导大模型生成准确、符合需求的输出。
- 上下文(Context):输入提示中提供的背景信息,大模型基于上下文进行理解和生成,上下文窗口决定可处理的文本长度。
- 参数(Parameters):模型训练过程中学习到的权重和偏置值,参数规模是衡量大模型能力的重大指标(如千亿级参数)。
- Token:文本的最小处理单位,可是字、词或子词,模型的输入输出均以 Token 为单位计算长度。
- 算力(Computing Power):训练和运行大模型所需的计算资源,一般以 GPU/TPU 的算力(FLOPS)衡量。
- 数据集(Dataset):用于训练、验证和测试模型的文本集合,质量直接影响模型性能。
二、 架构与技术类
- Transformer 架构:2017 年提出的基于自注意力机制的深度学习架构,是大语言模型的核心基础。
- 自注意力机制(Self-Attention):模型计算输入序列中每个 Token 与其他 Token 关联程度的机制,能捕捉长距离依赖。
- 多头注意力(Multi-Head Attention):将自注意力机制拆分为多个并行的 “头”,分别学习不同维度的语义关联。
- 编码器 – 解码器(Encoder-Decoder):Transformer 的经典结构,编码器负责理解输入,解码器负责生成输出。
- Decoder-only 架构:仅使用解码器的 Transformer 变体,GPT 系列模型采用此架构,擅长文本生成。
- Encoder-only 架构:仅使用编码器的 Transformer 变体,BERT 系列模型采用此架构,擅长文本理解。
- 残差连接(Residual Connection):将层的输入直接加到输出上,缓解深度神经网络的梯度消失问题。
- 层归一化(Layer Normalization):对每层的输入进行归一化处理,加速模型训练并提升稳定性。
- 前馈神经网络(FFN, Feed-Forward Network):Transformer 架构中注意力层之后的全连接网络,用于特征变换。
- 位置编码(Positional Encoding):为 Token 添加位置信息,弥补 Transformer 对序列顺序不敏感的缺陷。
- 稀疏注意力(Sparse Attention):仅计算 Token 与部分关键 Token 的注意力,降低算力消耗,支持更长上下文。
- MoE(Mixture of Experts):混合专家模型,将多个子模型(专家)的输出加权融合,提升模型能力且控制成本。
- RLHF(Reinforcement Learning from Human Feedback):基于人类反馈的强化学习,通过人类偏好数据优化模型输出。
- SFT(Supervised Fine-Tuning):监督微调,使用标注数据对预训练模型进行微调,是 RLHF 的前置步骤。
- PPO(Proximal Policy Optimization):近端策略优化,RLHF 中常用的强化学习算法,稳定提升模型策略。
- 对齐(Alignment):使模型输出符合人类价值观、意图和偏好的优化过程,RLHF 是核心对齐技术。
- 蒸馏(Knowledge Distillation):将大模型(教师模型)的知识迁移到小模型(学生模型),实现模型轻量化。
- 量化(Quantization):将模型参数的精度从浮点型(如 FP32)降低为整型(如 INT8),减少内存占用和推理时间。
- 剪枝(Pruning):移除模型中不重大的参数或神经元,简化模型结构,实现轻量化。
- 上下文窗口(Context Window):模型能处理的最大输入 + 输出 Token 长度,长度越大,模型对长文本的理解能力越强。
- 增量预训练(Incremental Pre-training):在预训练模型基础上,使用新领域数据继续训练,适配特定领域。
- 多模态(Multimodal):支持文本、图像、音频、视频等多种数据类型的模型,如 GPT-4V、文心一言 V4。
- Embedding(嵌入):将离散的文本 Token 转换为连续的低维向量,是模型理解语义的基础。
- 余弦类似度(Cosine Similarity):衡量两个 Embedding 向量的类似程度,常用于语义检索任务。
- Prompt Tuning:仅微调与提示相关的参数,冻结模型主体参数,降低微调成本,适用于小样本场景。
- LoRA(Low-Rank Adaptation):通过低秩矩阵适配模型参数,实现高效微调,是目前主流的轻量化微调技术。
- QLoRA:结合量化和 LoRA 的微调技术,在量化后的模型上进行低秩适配,进一步降低显存消耗。
- 推理(Inference):模型接收输入提示,生成输出结果的过程,是大模型的实际应用阶段。
- 批处理推理(Batch Inference):将多个用户请求打包成批次进行推理,提升硬件资源利用率。
- 流式输出(Streaming Output):模型逐 Token 生成输出并实时返回,降低用户等待时间,提升交互体验。
三、 能力与任务类
- 文本生成(Text Generation):大模型的核心能力,可生成文章、故事、代码、邮件等各类文本。
- 语义理解(Semantic Understanding):模型理解文本的含义、情感、意图的能力,是分类、摘要等任务的基础。
- 文本摘要(Text Summarization):将长文本压缩为短文本,保留核心信息,分为提取式摘要和生成式摘要。
- 机器翻译(Machine Translation):将一种语言的文本转换为另一种语言,大模型支持多语言互译。
- 问答系统(Question Answering):模型根据给定的上下文或知识库,回答用户提出的问题。
- 代码生成(Code Generation):根据自然语言描述生成代码,或对代码进行解释、优化,如 GitHub Copilot。
- 情感分析(Sentiment Analysis):判断文本的情感倾向(正面、负面、中性),常用于舆情分析。
- 命名实体识别(NER, Named Entity Recognition):识别文本中的实体(如人名、地名、机构名)。
- 关系抽取(Relation Extraction):提取文本中实体之间的关系(如 “创始人 – 公司”“出生地 – 人物”)。
- 文本分类(Text Classification):将文本划分到预设的类别中,如垃圾邮件识别、新闻分类。
- 对话系统(Dialogue System):模型与用户进行多轮自然对话,分为任务型对话和闲聊型对话。
- 提示词补全(Prompt Completion):模型根据不完整的提示词,补全符合逻辑的内容,是早期大模型的核心任务。
- 常识推理(Commonsense Reasoning):模型基于常识知识进行推理的能力,如判断 “鱼生活在水里” 的合理性。
- 数学推理(Mathematical Reasoning):模型解决数学问题的能力,需要结合逻辑推理和计算能力。
- 逻辑推理(Logical Reasoning):模型根据给定的前提,推导得出合理结论的能力,如演绎推理、归纳推理。
- 多轮对话(Multi-turn Dialogue):模型基于历史对话上下文,进行连贯的多轮交互。
- 个性化生成(Personalized Generation):模型根据用户的偏好和需求,生成个性化的内容。
- 知识图谱(Knowledge Graph):以图结构存储实体和关系的知识库,可辅助大模型提升知识准确性。
- 检索增强生成(RAG, Retrieval-Augmented Generation):结合外部知识库检索结果生成回答,提升模型输出的准确性和时效性。
- 工具调用(Tool Use):大模型调用外部工具(如计算器、搜索引擎、API)完成复杂任务。
- 函数调用(Function Calling):模型根据用户需求,生成并执行预设的函数,实现与外部系统的交互。
- 多轮推理(Chain of Thought, CoT):引导模型分步推理,将复杂问题拆解为多个简单步骤,提升推理准确性。
- 少样本学习(Few-Shot Learning):仅使用少量标注样本,即可让模型适配新任务的能力。
- 零样本学习(Zero-Shot Learning):无需标注样本,模型即可完成从未训练过的任务。
- 小样本学习(Few-Shot Learning):介于零样本和全样本之间,用少量示例让模型学会任务。
四、 模型与产品类
- GPT 系列:OpenAI 推出的 Decoder-only 架构大模型,包括 GPT-3、GPT-3.5、GPT-4 等版本。
- BERT 系列:谷歌推出的 Encoder-only 架构大模型,擅长文本理解任务。
- LLaMA 系列:Meta 推出的开源大模型,支持商用,有多种参数规模版本。
- Claude:Anthropic 推出的大模型,以长上下文和安全性著称。
- 文心一言:百度推出的国产大语言模型,支持多模态和工具调用。
- 通义千问:阿里云推出的大语言模型,适配企业级应用场景。
- 讯飞星火:科大讯飞推出的大模型,在语音和多模态领域有优势。
- 开源大模型(Open-source LLM):开放模型权重和代码的大模型,支持开发者二次开发,如 LLaMA、Falcon、Qwen。
- 闭源大模型(Closed-source LLM):不开放模型权重和代码,仅通过 API 提供服务的大模型,如 GPT-4、Claude 3。
- 企业级大模型(Enterprise LLM):针对企业需求优化的大模型,注重安全性、隐私性和定制化。
- 轻量化大模型(Lightweight LLM):通过蒸馏、量化等技术压缩的小型模型,可部署在边缘设备。
- 多模态大模型(Multimodal LLM):支持文本、图像、音频等多种输入输出的模型,如 GPT-4V、Gemini。
- 专用大模型(Domain-specific LLM):针对特定领域优化的模型,如医疗大模型、法律大模型、金融大模型。
五、 安全与伦理类
- 幻觉(Hallucination):模型生成不存在的、错误的或与实际不符的信息的现象。
- 偏见(Bias):模型输出中包含的性别、种族、地域等方面的不公平倾向,源于训练数据的偏差。
- 对齐税(Alignment Tax):为提升模型对齐性而导致的性能下降。
- 安全性(Safety):模型避免生成有害、暴力、歧视性内容的能力。
- 隐私保护(Privacy Protection):在模型训练和推理过程中,保护用户数据隐私的技术,如联邦学习、差分隐私。
- 内容审核(Content Moderation):对模型生成的内容进行审核,过滤违规信息。
- 可解释性(Interpretability):解释模型生成特定输出的缘由和过程的能力。
- 透明度(Transparency):公开模型的训练数据、参数、训练过程等信息的程度。
- 联邦学习(Federated Learning):在不共享原始数据的前提下,多个节点联合训练模型,保护数据隐私。
- 差分隐私(Differential Privacy):通过添加噪声保护数据隐私,使攻击者无法从模型中推断出个体数据。
- 模型滥用(Model Misuse):使用大模型生成虚假信息、恶意代码等有害内容的行为。
- 版权问题(Copyright Issue):大模型训练数据的版权归属,以及生成内容的版权界定问题。
六、 部署与应用类
91.云端部署(Cloud Deployment):将大模型部署在云服务器上,通过 API 提供服务,如 OpenAI API。
92.本地部署(Local Deployment):将大模型部署在本地服务器或边缘设备上,适用于对隐私要求高的场景。
93.边缘计算(Edge Computing):在靠近用户的边缘设备(如手机、物联网设备)上部署轻量化模型,降低延迟。
94.容器化(Containerization):使用 Docker 等工具将模型打包为容器,提升部署的便捷性和一致性。
95.Kubernetes 部署:使用 K8s 对模型容器进行编排和管理,支持大规模、高可用部署。
96.API 接口(API Interface):模型提供的应用程序接口,开发者可通过调用 API 集成大模型能力。
97.私有化部署(Private Deployment):将模型部署在企业内部网络,数据不对外传输,保障数据安全。
98.成本优化(Cost Optimization):通过量化、剪枝、批处理等技术,降低模型训练和推理的成本。
99.用户体验(User Experience):模型交互的流畅度、输出的准确性和及时性,影响用户使用意愿。
100.生态系统(Ecosystem):围绕大模型形成的开发者社区、工具链、应用市场等配套体系。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...