大模型术语详解:全面解析90个关键概念
大模型技术的迅速发展带来了许多专业术语,为了帮助读者更好地理解和掌握这些术语,本文将对90个关键概念进行详细解读。以下是按类别整理的术语及其释义:
大型语言模型(Large Language Model, LLM)是指参数量超过百亿的深度学习模型,具有强大的多任务处理能力。预训练是在大量未标注数据上进行的初步训练,而微调则是在预训练的基础上利用特定领域的数据进行进一步优化。Transformer是基于自注意力机制的神经网络架构,是现代大模型的核心组成部分。Token作为文本处理的基本单位,通常对应于单词或子词。Zero-shot Learning指的是模型无需示例即可完成新任务的能力,而Few-shot Learning则是通过少量示例指导模型完成新任务。生成式AI(Generative AI)能够创造新的内容,如文本、图像和代码。自回归模型(Autoregressive Model)按顺序生成输出,例如GPT系列模型。多模态模型(Multimodal Model)可以同时处理文本、图像和语音等多种类型的输入,如GPT-4V。参数规模(Parameter Scale)表示模型中可调节权重的数量,通常以十亿(B)或万亿(T)为单位。涌现能力(Emergent Ability)指当模型规模达到一定阈值时,突然展现出的新能力。
架构设计类
交叉注意力(Cross-Attention)是一种用于编码器-解码器结构中处理不同序列间关联的机制。相对位置编码(Relative Position Encoding)动态计算位置关系,例如在T5模型中得到应用。门控机制(Gating Mechanism)如GLU单元,控制信息流的开关。残差连接(Residual Connection)提供跨层直连通道,有助于缓解梯度消失问题。层归一化(Layer Normalization)标准化每层输出,是关键技术之一。编码器-解码器(Encoder-Decoder)是经典架构,BERT使用纯编码器,GPT使用纯解码器。自注意力机制(Self-Attention)计算序列元素间的关联度,是核心算法。多头注意力(Multi-head Attention)通过并行计算多组注意力来增强特征提取能力。位置编码(Positional Encoding)为无顺序的Transformer注入位置信息。稀疏注意力(Sparse Attention)优化了计算效率,如Longformer模型所示。MoE(Mixture of Experts)混合专家系统提升了模型容量,例如Switch Transformer。
训练技术类
分布式训练涉及多GPU/TPU并行训练技术,包括数据并行、模型并行和流水线并行。梯度累积(Gradient Accumulation)解决了显存不足的问题,允许使用更小批量进行训练。混合精度训练(Mixed Precision)通过FP16和FP32混合计算节省显存。模型并行(Model Parallelism)将大型模型拆分到多个设备上训练。参数冻结(Parameter Freezing)在微调时固定部分参数,防止灾难性遗忘。知识蒸馏(Knowledge Distillation)将大模型的知识迁移到较小模型。AdamW优化器改进了Adam算法,解耦了权重衰减。学习率预热(Learning Rate Warmup)在训练初期逐渐增加学习率。梯度裁剪(Gradient Clipping)设置阈值以防止梯度爆炸。课程学习(Curriculum Learning)按照从简单到复杂的顺序安排训练数据。对比学习(Contrastive Learning)通过样本对比提升表征质量。
应用技术类
向量数据库(Vector Database)用于存储嵌入向量,如Pinecone和Milvus。智能体(Agent)是具备自主决策能力的AI程序,例如AutoGPT。思维树(Tree of Thoughts, ToT)扩展了CoT,提供多路径推理框架。Function Calling是大模型调用外部API的能力。ReAct框架结合推理(Reasoning)和行动(Action),形成交互模式。Prompt Engineering通过设计输入提示优化模型输出。Chain-of-Thought(CoT)引导模型展示推理过程。RAG(Retrieval-Augmented Generation)结合检索系统增强生成效果。LangChain是一个用于构建LLM应用链的开源框架。LoRA(Low-Rank Adaptation)是一种高效的微调技术,仅训练低秩矩阵。RLHF(Reinforcement Learning from Human Feedback)基于人类反馈的强化学习对齐技术。
评估与安全
困惑度(Perplexity)是衡量语言模型预测能力的重要指标。BLEU Score用于自动评估机器翻译的质量。Toxicity Detection技术检测模型生成的有害内容。红队测试(Red Teaming)是对模型进行系统性安全测试的方法。AI Alignment确保模型行为与人类价值观一致。ROUGE Score是文本生成质量的自动评估指标。Hellaswag测试常识推理能力。对抗攻击(Adversarial Attack)故意构造误导模型的输入样本。后训练对齐(Post-training Alignment)在微调阶段实现价值对齐。安全护栏(Safety Guardrail)实时过滤有害输出。
硬件与部署
HBM(High Bandwidth Memory)是高性能计算卡使用的高带宽内存。vLLM是一个开源的大模型推理加速框架。Triton推理服务器是NVIDIA的模型部署工具。KV缓存(Key-Value Cache)加速自回归生成。Speculative Decoding并行预测多个token,提高生成速度。TPU(Tensor Processing Unit)是Google专为矩阵运算设计的AI芯片。NVLink是NVIDIA GPU之间的高速互联技术。模型量化(Quantization)降低模型精度以减小体积,如从FP16到INT8。ONNX(Open Neural Network Exchange)是跨平台模型部署格式。模型服务化(Model Serving)将模型封装为API服务。
组织与模型
OpenAI开发了GPT系列模型。Hugging Face是开源模型社区和Transformers库的主要贡献者。PaLM是Google的5400亿参数模型。LLaMA是Meta开源的一系列大模型。Mistral代表高性能开源模型。Claude由Anthropic开发,基于宪法AI原则。Bard集成实时搜索能力,是Google的对话模型。Falcon是中东首个开源大模型。Yi是国内专注于长文本处理的模型。Gemini是Google多模态设计的旗舰模型。
数学与优化
交叉熵损失(Cross-Entropy Loss)是语言模型训练的基础损失函数。L2正则化通过参数惩罚项防止过拟合。蒙特卡洛采样(Monte Carlo Sampling)用于生成结果的随机采样。Beam Search是一种平衡质量和效率的序列生成算法。Top-p采样(Nucleus Sampling)动态选择概率分布,用于生成策略。
伦理与治理
可解释性(Interpretability)研究如何理解模型的决策依据。数据偏差(Data Bias)指训练数据中存在的社会偏见问题。版权争议(Copyright Issues)涉及模型训练数据来源的法律风险。环境影响(Environmental Impact)关注大模型训练产生的碳足迹。沙盒测试(Sandbox Testing)在隔离环境中验证风险。
前沿方向
世界模型(World Model)模拟物理世界的运作机制。液态神经网络(Liquid Neural Networks)受到生物学启发,动态调整连接结构。JEPA架构(Joint Embedding Prediction Architecture)由Yann LeCun提出,旨在实现自主智能。AI科学家(AI Scientist)是具备科学发现能力的AI系统。神经符号系统(Neuro-symbolic System)结合神经网络和符号推理,形成混合架构。
© 版权声明
文章版权归作者所有,未经允许请勿转载。