大模型核心 100 个关键词及解释

内容分享2个月前发布

大模型核心 100 个关键词及解释

一、基础概念类

大语言模型（LLM, Large Language Model）：基于海量文本数据训练，通过 Transformer 架构实现自然语言理解与生成的深度学习模型，是大模型的核心分支。
生成式 AI（Generative AI）：能自主生成文本、图像、音频等内容的人工智能技术，大语言模型是其典型代表。
预训练（Pre-training）：大模型在海量无标注数据上进行的初始训练阶段，学习语言的语法、语义和常识。
微调（Fine-tuning）：预训练模型在特定任务的标注数据集上进一步训练，适配具体场景需求。
提示工程（Prompt Engineering）：设计和优化输入提示词，引导大模型生成准确、符合需求的输出。
上下文（Context）：输入提示中提供的背景信息，大模型基于上下文进行理解和生成，上下文窗口决定可处理的文本长度。
参数（Parameters）：模型训练过程中学习到的权重和偏置值，参数规模是衡量大模型能力的重大指标（如千亿级参数）。
Token：文本的最小处理单位，可是字、词或子词，模型的输入输出均以 Token 为单位计算长度。
算力（Computing Power）：训练和运行大模型所需的计算资源，一般以 GPU/TPU 的算力（FLOPS）衡量。
数据集（Dataset）：用于训练、验证和测试模型的文本集合，质量直接影响模型性能。

二、架构与技术类

Transformer 架构：2017 年提出的基于自注意力机制的深度学习架构，是大语言模型的核心基础。
自注意力机制（Self-Attention）：模型计算输入序列中每个 Token 与其他 Token 关联程度的机制，能捕捉长距离依赖。
多头注意力（Multi-Head Attention）：将自注意力机制拆分为多个并行的 “头”，分别学习不同维度的语义关联。
编码器 – 解码器（Encoder-Decoder）：Transformer 的经典结构，编码器负责理解输入，解码器负责生成输出。
Decoder-only 架构：仅使用解码器的 Transformer 变体，GPT 系列模型采用此架构，擅长文本生成。
Encoder-only 架构：仅使用编码器的 Transformer 变体，BERT 系列模型采用此架构，擅长文本理解。
残差连接（Residual Connection）：将层的输入直接加到输出上，缓解深度神经网络的梯度消失问题。
层归一化（Layer Normalization）：对每层的输入进行归一化处理，加速模型训练并提升稳定性。
前馈神经网络（FFN, Feed-Forward Network）：Transformer 架构中注意力层之后的全连接网络，用于特征变换。
位置编码（Positional Encoding）：为 Token 添加位置信息，弥补 Transformer 对序列顺序不敏感的缺陷。
稀疏注意力（Sparse Attention）：仅计算 Token 与部分关键 Token 的注意力，降低算力消耗，支持更长上下文。
MoE（Mixture of Experts）：混合专家模型，将多个子模型（专家）的输出加权融合，提升模型能力且控制成本。
RLHF（Reinforcement Learning from Human Feedback）：基于人类反馈的强化学习，通过人类偏好数据优化模型输出。
SFT（Supervised Fine-Tuning）：监督微调，使用标注数据对预训练模型进行微调，是 RLHF 的前置步骤。
PPO（Proximal Policy Optimization）：近端策略优化，RLHF 中常用的强化学习算法，稳定提升模型策略。
对齐（Alignment）：使模型输出符合人类价值观、意图和偏好的优化过程，RLHF 是核心对齐技术。
蒸馏（Knowledge Distillation）：将大模型（教师模型）的知识迁移到小模型（学生模型），实现模型轻量化。
量化（Quantization）：将模型参数的精度从浮点型（如 FP32）降低为整型（如 INT8），减少内存占用和推理时间。
剪枝（Pruning）：移除模型中不重大的参数或神经元，简化模型结构，实现轻量化。
上下文窗口（Context Window）：模型能处理的最大输入 + 输出 Token 长度，长度越大，模型对长文本的理解能力越强。
增量预训练（Incremental Pre-training）：在预训练模型基础上，使用新领域数据继续训练，适配特定领域。
多模态（Multimodal）：支持文本、图像、音频、视频等多种数据类型的模型，如 GPT-4V、文心一言 V4。
Embedding（嵌入）：将离散的文本 Token 转换为连续的低维向量，是模型理解语义的基础。
余弦类似度（Cosine Similarity）：衡量两个 Embedding 向量的类似程度，常用于语义检索任务。
Prompt Tuning：仅微调与提示相关的参数，冻结模型主体参数，降低微调成本，适用于小样本场景。
LoRA（Low-Rank Adaptation）：通过低秩矩阵适配模型参数，实现高效微调，是目前主流的轻量化微调技术。
QLoRA：结合量化和 LoRA 的微调技术，在量化后的模型上进行低秩适配，进一步降低显存消耗。
推理（Inference）：模型接收输入提示，生成输出结果的过程，是大模型的实际应用阶段。
批处理推理（Batch Inference）：将多个用户请求打包成批次进行推理，提升硬件资源利用率。
流式输出（Streaming Output）：模型逐 Token 生成输出并实时返回，降低用户等待时间，提升交互体验。

三、能力与任务类

文本生成（Text Generation）：大模型的核心能力，可生成文章、故事、代码、邮件等各类文本。
语义理解（Semantic Understanding）：模型理解文本的含义、情感、意图的能力，是分类、摘要等任务的基础。
文本摘要（Text Summarization）：将长文本压缩为短文本，保留核心信息，分为提取式摘要和生成式摘要。
机器翻译（Machine Translation）：将一种语言的文本转换为另一种语言，大模型支持多语言互译。
问答系统（Question Answering）：模型根据给定的上下文或知识库，回答用户提出的问题。
代码生成（Code Generation）：根据自然语言描述生成代码，或对代码进行解释、优化，如 GitHub Copilot。
情感分析（Sentiment Analysis）：判断文本的情感倾向（正面、负面、中性），常用于舆情分析。
命名实体识别（NER, Named Entity Recognition）：识别文本中的实体（如人名、地名、机构名）。
关系抽取（Relation Extraction）：提取文本中实体之间的关系（如 “创始人 – 公司”“出生地 – 人物”）。
文本分类（Text Classification）：将文本划分到预设的类别中，如垃圾邮件识别、新闻分类。
对话系统（Dialogue System）：模型与用户进行多轮自然对话，分为任务型对话和闲聊型对话。
提示词补全（Prompt Completion）：模型根据不完整的提示词，补全符合逻辑的内容，是早期大模型的核心任务。
常识推理（Commonsense Reasoning）：模型基于常识知识进行推理的能力，如判断 “鱼生活在水里” 的合理性。
数学推理（Mathematical Reasoning）：模型解决数学问题的能力，需要结合逻辑推理和计算能力。
逻辑推理（Logical Reasoning）：模型根据给定的前提，推导得出合理结论的能力，如演绎推理、归纳推理。
多轮对话（Multi-turn Dialogue）：模型基于历史对话上下文，进行连贯的多轮交互。
个性化生成（Personalized Generation）：模型根据用户的偏好和需求，生成个性化的内容。
知识图谱（Knowledge Graph）：以图结构存储实体和关系的知识库，可辅助大模型提升知识准确性。
检索增强生成（RAG, Retrieval-Augmented Generation）：结合外部知识库检索结果生成回答，提升模型输出的准确性和时效性。
工具调用（Tool Use）：大模型调用外部工具（如计算器、搜索引擎、API）完成复杂任务。
函数调用（Function Calling）：模型根据用户需求，生成并执行预设的函数，实现与外部系统的交互。
多轮推理（Chain of Thought, CoT）：引导模型分步推理，将复杂问题拆解为多个简单步骤，提升推理准确性。
少样本学习（Few-Shot Learning）：仅使用少量标注样本，即可让模型适配新任务的能力。
零样本学习（Zero-Shot Learning）：无需标注样本，模型即可完成从未训练过的任务。
小样本学习（Few-Shot Learning）：介于零样本和全样本之间，用少量示例让模型学会任务。

四、模型与产品类

GPT 系列：OpenAI 推出的 Decoder-only 架构大模型，包括 GPT-3、GPT-3.5、GPT-4 等版本。
BERT 系列：谷歌推出的 Encoder-only 架构大模型，擅长文本理解任务。
LLaMA 系列：Meta 推出的开源大模型，支持商用，有多种参数规模版本。
Claude：Anthropic 推出的大模型，以长上下文和安全性著称。
文心一言：百度推出的国产大语言模型，支持多模态和工具调用。
通义千问：阿里云推出的大语言模型，适配企业级应用场景。
讯飞星火：科大讯飞推出的大模型，在语音和多模态领域有优势。
开源大模型（Open-source LLM）：开放模型权重和代码的大模型，支持开发者二次开发，如 LLaMA、Falcon、Qwen。
闭源大模型（Closed-source LLM）：不开放模型权重和代码，仅通过 API 提供服务的大模型，如 GPT-4、Claude 3。
企业级大模型（Enterprise LLM）：针对企业需求优化的大模型，注重安全性、隐私性和定制化。
轻量化大模型（Lightweight LLM）：通过蒸馏、量化等技术压缩的小型模型，可部署在边缘设备。
多模态大模型（Multimodal LLM）：支持文本、图像、音频等多种输入输出的模型，如 GPT-4V、Gemini。
专用大模型（Domain-specific LLM）：针对特定领域优化的模型，如医疗大模型、法律大模型、金融大模型。

五、安全与伦理类

幻觉（Hallucination）：模型生成不存在的、错误的或与实际不符的信息的现象。
偏见（Bias）：模型输出中包含的性别、种族、地域等方面的不公平倾向，源于训练数据的偏差。
对齐税（Alignment Tax）：为提升模型对齐性而导致的性能下降。
安全性（Safety）：模型避免生成有害、暴力、歧视性内容的能力。
隐私保护（Privacy Protection）：在模型训练和推理过程中，保护用户数据隐私的技术，如联邦学习、差分隐私。
内容审核（Content Moderation）：对模型生成的内容进行审核，过滤违规信息。
可解释性（Interpretability）：解释模型生成特定输出的缘由和过程的能力。
透明度（Transparency）：公开模型的训练数据、参数、训练过程等信息的程度。
联邦学习（Federated Learning）：在不共享原始数据的前提下，多个节点联合训练模型，保护数据隐私。
差分隐私（Differential Privacy）：通过添加噪声保护数据隐私，使攻击者无法从模型中推断出个体数据。
模型滥用（Model Misuse）：使用大模型生成虚假信息、恶意代码等有害内容的行为。
版权问题（Copyright Issue）：大模型训练数据的版权归属，以及生成内容的版权界定问题。

六、部署与应用类

91.云端部署（Cloud Deployment）：将大模型部署在云服务器上，通过 API 提供服务，如 OpenAI API。

92.本地部署（Local Deployment）：将大模型部署在本地服务器或边缘设备上，适用于对隐私要求高的场景。

93.边缘计算（Edge Computing）：在靠近用户的边缘设备（如手机、物联网设备）上部署轻量化模型，降低延迟。

94.容器化（Containerization）：使用 Docker 等工具将模型打包为容器，提升部署的便捷性和一致性。

95.Kubernetes 部署：使用 K8s 对模型容器进行编排和管理，支持大规模、高可用部署。

96.API 接口（API Interface）：模型提供的应用程序接口，开发者可通过调用 API 集成大模型能力。

97.私有化部署（Private Deployment）：将模型部署在企业内部网络，数据不对外传输，保障数据安全。

98.成本优化（Cost Optimization）：通过量化、剪枝、批处理等技术，降低模型训练和推理的成本。

99.用户体验（User Experience）：模型交互的流畅度、输出的准确性和及时性，影响用户使用意愿。

100.生态系统（Ecosystem）：围绕大模型形成的开发者社区、工具链、应用市场等配套体系。

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

php论坛建站一条龙网站社区搭建维护搬家模板BBS制作安装源码

php论坛建站一条龙网站社区搭建维护搬家模板BBS制作安装源码

1周前

010

「百战GAN」适合所有人的第一个GAN项目：DCGAN图像生成代码实战

「百战GAN」适合所有人的第一个GAN项目：DCGAN图像生成代码实战

8个月前

190

英伟达新驱动救场，修复Windows补丁问题，游戏性能提升最高47%

英伟达新驱动救场，修复Windows补丁问题，游戏性能提升最高47%

6个月前

480

「Android+iOS」带壳截图，给你的截图“穿上衣服”

「Android+iOS」带壳截图，给你的截图“穿上衣服”

8个月前

060

暂无评论

none

暂无评论...