哈基鹏的大模型之旅(一)
大语言模型(LLM)简介
大语言模型(LLM,Large Language Model),也称大型语言模型,是一种旨在理解和生成人类语言的人工智能模型。
LLM是相较于传统语言模型,包含数百亿(或更多)参数的语言模型,它们在更大规模语料上进行预训练任务,从而获得对语言深层次的理解。目前,国外的知名 LLM 有 GPT、LLaMA、Gemini、Claude 和 Grok 等,国内的有 DeepSeek、通义千问、豆包、Kimi、文心一言、GLM 等。
尽管这些大型语言模型与小型语言模型(例如 3.3 亿参数的 BERT 和 15 亿参数的 GPT-2)使用相似的架构和预训练任务,但它们展现出截然不同的能力,尤其在解决复杂任务时表现出了惊人的潜力,这被称为“涌现能力”。以 GPT-3 和 GPT-2 为例,GPT-3 可以通过学习上下文来解决少样本任务,而 GPT-2 在这方面表现较差。因此,科研界给这些庞大的语言模型起了个名字,称之为“大语言模型(LLM)”。为了探索性能的极限,许多研究人员开始训练越来越庞大的语言模型,例如拥有175B(1750亿)参数的GPT-3是LLM的开端,基于GPT-3进行预训练(Pretraining)、监督微调(Supervised Fine-Tuning,SFT)、强化学习与人类反馈(Reinforcement Learning with Human Feedback,RLHF)三阶段训练得到的 ChatGPT 更是主导了 LLM 时代的到来。
常见的LLM模型
大语言模型的发展历程虽然只有短短不到五年的时间,但是发展速度相当惊人,截止 2024 年 6 月,国内外有超过百种大模型相继发布。下图按照时间线给出了 2019 年至 2024 年 6 月比较有影响力并且模型参数量超过 100 亿的大语言模型:

接下来我们主要介绍几个国内外常见的大模型(包括开源和闭源)
OpenAI系列模型
OpenAI 公司在 2018 年提出的 GPT(Generative Pre-Training) 模型是典型的 生成式预训练语言模型之一。
GPT 模型的基本原则是通过语言建模将世界知识压缩到仅解码器 (decoder-only) 的 Transformer 模型中,这样它就可以恢复(或记忆)世界知识的语义,并充当通用任务求解器。它能够成功的两个关键点:
- 训练能够准确预测下一个单词的 decoder-only 的 Transformer 语言模型
- 扩展语言模型的大小
OpenAI 在 LLM 上的研究大致可以分为以下几个阶段:

🐶GPT-1 是 GPT 系列的开山之作,也是第一个使用 Decoder-Only 的预训练模型。但是,GPT-1 的模型体量和预训练数据都较少,沿承了传统 Transformer 的模型结构,使用了 12层 Decoder Block 和 768 的隐藏层维度,模型参数量仅有 1.17亿(0.12B),在大小为 5GB 的 BooksCorpus 数据集上预训练得到。可以看到,GPT-1 的参数规模与预训练规模和 BERT-base 是大致相当的,但其表现相较于 BERT-base 却有所不如,这也是 GPT 系列模型没能成为预训练语言模型时代的代表的原因。
🦮GPT-2 则是 OpenAI 在 GPT-1 的基础上进一步探究预训练语言模型多任务学习能力的产物。GPT-2 的模型结构和 GPT-1 大致相当,只是扩大了模型参数规模、将 Post-Norm 改为了 Pre-Norm(也就是先进行 LayerNorm 计算,再进入注意力层计算)。这些改动的核心原因在于,由于模型层数增加、体量增大,梯度消失和爆炸的风险也不断增加,为了使模型梯度更稳定对上述结构进行了优化。
GPT-2 的核心改进是大幅增加了预训练数据集和模型体量。GPT-2 的 Decoder Block 层数达到了48(注意,GPT-2 共发布了四种规格的模型,此处我们仅指规格最大的 GPT-2 模型),隐藏层维度达到了 1600,模型整体参数量达 15亿(1.5B),使用了自己抓取的 40GB 大小的 WebText 数据集进行预训练,不管是模型结构还是预训练大小都超过了 1代一个数量级。
GPT-2 的另一个重大突破是以 zero-shot(零样本学习)为主要目标,也就是不对模型进行微调,直接要求模型解决任务。例如,在传统的预训练-微调范式中,我们要解决一个问题,一般需要收集几百上千的训练样本,在这些训练样本上微调预训练语言模型来实现该问题的解决。而 zero-shot 则强调不使用任何训练样本,直接通过向预训练语言模型描述问题来去解决该问题。zero-shot 的思路自然是比预训练-微调范式更进一步、更高效的自然语言范式,但是在 GPT-2 的时代,模型能力还不足够支撑较好的 zero-shot 效果,在大模型时代,zero-shot 及其延伸出的 few-shot(少样本学习)才开始逐渐成为主流。
🦁GPT-3 则是更进一步展示了 OpenAI“力大砖飞”的核心思路,也是 LLM 的开创之作。在 GPT-2 的基础上,OpenAI 进一步增大了模型体量和预训练数据量,整体参数量达 175B,是当之无愧的“大型语言模型”。在模型结构上,基本没有大的改进,只是由于巨大的模型体量使用了稀疏注意力机制来取代传统的注意力机制。在预训练数据上,则是分别从 CC、WebText、维基百科等大型语料集中采样,共采样了 45T、清洗后 570GB 的数据。根据推算,GPT-3 需要在 1024张 A100(80GB 显存)的分布式训练集群上训练 1个月。
之所以说 GPT-3 是 LLM 的开创之作,除去其巨大的体量带来了涌现能力的凸显外,还在于其提出了 few-shot 的重要思想。few-shot 是在 zero-shot 上的改进,研究者发现即使是 175B 大小的 GPT-3,想要在 zero-shot 上取得较好的表现仍然是一件较为困难的事情。而 few-shot 是对 zero-shot 的一个折中,旨在提供给模型少样的示例来教会它完成任务。few-shot 一般会在 prompt(也就是模型的输入)中增加 3~5个示例,来帮助模型理解。例如,对于情感分类任务:
zero-shot:请你判断“这真是一个绝佳的机会”的情感是正向还是负向,如果是正向,输出1;否则输出0
few-shot:请你判断“这真是一个绝佳的机会”的情感是正向还是负向,如果是正向,输出1;否则输出0。你可以参考以下示例来判断:“你的表现非常好”——1;“太糟糕了”——0;“真是一个好主意”——1。
通过给模型提供少量示例,模型可以取得远好于 zero-shot 的良好表现。few-shot 也被称为上下文学习(In-context Learning),即让模型从提供的上下文中的示例里学习问题的解决方法。GPT-3 在 few-shot 上展现的强大能力,为 NLP 的突破带来了重要进展。如果对于绝大部分任务都可以通过人为构造 3~5个示例就能让模型解决,其效率将远高于传统的预训练-微调范式,意味着 NLP 的进一步落地应用成为可能——而这,也正是 LLM 的核心优势。
下表总结了从 GPT-1 到 GPT-3 的模型结构、预训练语料大小的变化:
| 模型 | DecoderLayer | Hidden_size | 注意力头数 | 注意力维度 | 总参数量 | 预训练语料 |
|---|---|---|---|---|---|---|
| GPT-1 | 12 | 3072 | 12 | 768 | 0.12B | 5GB |
| GPT-2 | 48 | 6400 | 25 | 1600 | 1.5B | 40GB |
| GPT-3 | 96 | 49152 | 96 | 12288 | 175B | 570GB |
🦅2022年11月,OpenAI 发布了基于 GPT 模型(GPT-3.5 和 GPT-4)的会话应用 ChatGPT。由于与人类交流的出色能力,ChatGPT 自发布以来就引发了人工智能社区的兴奋。ChatGPT 本质上是一个 LLM 应用,是基于基座模型开发出来的,与基座模型有本质的区别。ChatGPT 上线后用户增长迅速,5 天注册人数突破 100 万,两个月后月活用户破亿,成为当时史上用户增长最快的消费级应用程序。
随着不断迭代,ChatGPT 逐渐丰富了其功能:
- 智能模式切换: GPT-5 一体化系统自动在知识型、推理型、多模态模式间智能切换,无需手动选择🏟️
- 思维链: 系统自动判断何时需要深度思考,可选择性展示推理过程,帮助用户理解复杂问题的解决步骤🏛️
- 跨领域能力: 集成编码、推理、代理任务于一体,一个模型解决所有问题🏗️
- 多模态能力: 能够分析和理解用户提供的图片、音频和视频,实现全面的多模态交互🏚️
- 实时语音和视频对话: 用户可与 AI 进行自然的语音和视频交流,支持手势识别和情感表达🏡
- 自定义指令与记忆功能: 记住用户之前的交互习惯和偏好,提供个性化体验🏢
- GPT 构建器平台: 允许用户无需编程创建专用的 AI 助手,支持自定义知识库和行为模式🏣
- 数据分析与可视化: 直接处理和分析上传的数据文件,生成图表和可视化报告🏤
- 插件系统: 允许开发者创建工具扩展 ChatGPT 的能力,实现网页浏览、数据分析和第三方服务调用🏥
OpenAI 模型发展历程:
2023年3月,发布 GPT-4,引入多模态能力,参数规模显著扩大
2024年5月,发布 GPT-4o,实现文本、语音、图像多模态融合,响应速度提升 2 倍
2024年7月,发布GPT-4o mini,轻量级消费级应用模型
2024年9月,发布 o1 系列,专为复杂推理设计,支持思维链推理
2025年2月,发布 GPT-4.5,知识广度和推理深度显著提升,上下文扩展至 512K
2025年8月,发布 GPT-5 系列,集成多模态和推理能力,实现 GPT 系列和 o 系列大一统。GPT-5 是一个一体化系统,包含智能高效的基础模型、深度推理模型、实时路由模块,系统会基于对话类型、问题复杂度、工具需求及用户显式指令智能调度模型,自动判断何时需要开启深度思考
Claude系列模型
Claude 系列模型是由 OpenAI 离职人员创建的 Anthropic 公司开发的闭源语言大模型。
- 最早的 Claude 于 2023 年 3 月 15 日发布。
- 2024 年 3 月 4 日,更新至 Claude-3,包括 Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus,它们的能力依次递增,旨在满足不同用户和应用场景的需求。
- 2024 年 10 月,Anthropic 发布了 Claude 3.5 Sonnet,这是一款在推理和通用任务上有显著提升的模型。
- 2025 年 5 月,Anthropic 又进一步发布了 Claude 4.0,包括了 Claude 4 Sonnet 和 Claude 4 Opus,均是混合推理模型,支持标准模式与推理思考模式,编码能力异常强大。支持多工具并行调用与精准指令解析,本地文件访问时内存管理升级,可规避捷径行为,强化复杂任务处理能力。
- 2025 年 8 月,Anthropic 更新至 Claude Opus 4.1,在推理能力、代码能力和agent 支持上有进一步提升。
Gemini系列模型
Gemini 系列语言大模型由 Google 开发。
- 2022 年 4 月,发布了初始版本(PaLM 后更名为 Gemini)。
- 2025 年 2 月,Google 发布了 Gemini 2.0 系列模型,在性能和效率上有显著提升。包括 Gemini 2.0 Pro、Gemini 2.0 Flash、Gemini 2.0 Flash-Lite 是 Gemini 2.0 系列的三个版本,分别适用于不同的场景。同样,推出了其推理模型 Gemini 2.0 Flash Thinking。
- 2025 年 3 月,Google 发布了 Gemini 2.5 Pro,性能有了进一步提升,推理能力和代码能力提升非常显著。
LLaMA系列模型
LLaMA 系列模型是 Meta 开源的一组参数规模 从 8B 到 405B 的基础语言模型。
2023年2月,Meta发布了LLaMA-1,包括7B、13B、30B和65B四个参数量版本。这些模型在超过1T token的语料上进行了预训练,其中最大的65B参数模型在2,048张A100 80G GPU上训练了近21天。
2023年7月,Meta发布了LLaMA-2,包含7B、13B、34B和70B四个参数量版本,除了34B模型外,其他均已开源。LLaMA-2将预训练的语料扩充到了2T token,并将模型的上下文长度从2,048翻倍到了4,096。引入了分组查询注意力机制(Grouped-Query Attention, GQA)等技术。
2024年4月,Meta发布了LLaMA-3,包括8B和70B两个参数量版本。LLaMA-3支持8K长文本,并采用了编码效率更高的tokenizer,词表大小为128K。使用了超过15T token的预训练语料,是LLaMA-2的7倍多。
2024 年 7 月,发布了 LLaMA 3.1 模型 ,分别8B、70B 和 405B 三个规模。
1️⃣
更多的训练数据量:LLaMA3.1 在 15 万亿个 token 的数据上进行预训练,采用了更科学的数据配比。LLaMA3.1 接触到更多的文本信息,从而提高了其理解和生成文本的能力。2️⃣
更长的上下文长度:LLaMA 3.1 将上下文长度大幅提升至 128K token,支持处理极长的文档和对话历史,改善了对长文本的理解和生成能力,适用于更复杂的应用场景。3️⃣
更多的训练数据量:LLaMA3.1 在 15 万亿个 token 的数据上进行预训练,采用了更科学的数据配比。LLaMA3.1 接触到更多的文本信息,从而提高了其理解和生成文本的能力。4️⃣
更长的上下文长度:LLaMA 3.1 将上下文长度大幅提升至 128K token,支持处理极长的文档和对话历史,改善了对长文本的理解和生成能力,适用于更复杂的应用场景。5️⃣
分组查询注意力(GQA,Grouped-Query Attention):通过将查询(query)分组并在组内共享键(key)和值(value),减少了计算量,同时保持了模型性能,提高了大型模型的推理效率(LLaMA2 只有 70B 采用)。6️⃣
更大的词表:LLaMA3.1 采用了 128K 的 tokenizer,是前两代 32K 的 4 倍,这使得其语义编码能力得到了极大的增强,从而显著提升了模型的性能。7️⃣
精细的指令遵循:通过改进的对齐技术,LLaMA 3.1 在遵循复杂指令、理解微妙提示方面表现更出色,使模型行为更可预测和可控。8️⃣
完善的工具使用:增强了 Function Calling 能力,使模型能够更准确地识别何时以及如何调用外部工具,提高了与外部系统集成的能力。2024 年 12 月,发布了 LLaMA 3.3 模型(只开源了 70B 的指令模型)。
它们都是在数万亿个字符上训练的,展示了如何仅使用公开可用的数据集来训练最先进的模型,而不需要依赖专有或不可访问的数据集。这些数据集包括 Common Crawl、Wikipedia、OpenWebText2、RealNews、Books 等。LLaMA 模型使用了大规模的数据过滤和清洗技术,以提高数据质量和多样性,减少噪声和偏见。LLaMA 模型还使用了高效的数据并行和流水线并行技术,以加速模型的训练和扩展其中 405B 参数模型是首个公开的千亿级开源模型,性能对标 GPT-4o 等商业闭源模型。
与 GPT 系列相同,LLaMA 模型也采用了 decoder-only 架构,同时结合了一些前人工作的改进。LLaMA 系列基本上是后续大模型的标杆:
Pre-normalization 正则化:为了提高训练稳定性,LLaMA 对每个 Transformer 子层的输入进行了 RMSNorm 归一化,这种归一化方法可以避免梯度爆炸和消失的问题,提高模型的收敛速度和性能;SwiGLU 激活函数:将 ReLU 非线性替换为 SwiGLU 激活函数,增加网络的表达能力和非线性,同时减少参数量和计算量;旋转位置编码(RoPE,Rotary Position Embedding):模型的输入不再使用位置编码,而是在网络的每一层添加了位置编码,RoPE 位置编码可以有效地捕捉输入序列中的相对位置信息,并且具有更好的泛化能力分组查询注意力(GQA,Grouped-Query Attention):通过将查询(query)分组并在组内共享键(key)和值(value),减少了计算量,同时保持了模型性能,提高了大型模型的推理效率。
DeepSeek系列模型
DeepSeek 是由 深度求索 (DeepSeek) 团队 开发的开源大语言模型系列。首个版本于 2023 年 11 月发布。DeepSeek 采用 decoder-only 架构,融合了 FlashAttention-2、RoPE 位置编码、SwiGLU 等先进技术,在多语言理解和代码生成等方面表现出色。
模型发展历程:
2023 年 11 月 12 日:发布 DeepSeek 系列基础模型,包括 7B 和 67B 两种规模的 Base 和 Chat 版本。模型在 1.2 万亿 token 上进行训练,同时发布了 DeepSeek-Coder 专用代码生成模型。
2024 年 3 月 15 日:发布 DeepSeek-V2 系列,提升了多语言能力、长文本理解和推理能力,同时发布了 DeepSeek-MoE 混合专家模型。
2024 年 5 月 31 日:发布 DeepSeek-V2.5,性能得到进一步提升,上下文长度扩展至 128K tokens,并改进了工具调用和多模态能力。
2024 年 10 月:发布 DeepSeek-V3,在推理能力、多语言理解和创意生成方面有显著提升,支持更复杂的系统提示词控制,并进一步提升了代码质量和多轮对话一致性。
2025 年 2 月:
DeepSeek-R1 推理型大模型,专注于复杂问题求解和精确推理能力,在数学、逻辑推理和结构化知识方面展现出卓越性能,类似于 OpenAI 的 o1 系列。并且是首个开源的推理型大模型,在多项基准测试中超越了 o1 系列。
DeepSeek-R1-Zero 直接在大规模强化学习 (RL) 训练的模型,无需 SFT,在推理方面就十分出色。
同时开源了用 Llama 和 Qwen 从 DeepSeek-R1 中蒸馏出的六个 dense 模型。 其中 DeepSeek-R1-Distill-Qwen-32B 在各种基准测试中均优于 OpenAI-o1-mini。
2025 年 8 月: 发布了混合推理模型DeepSeek-V3.1,在提升推理效率的同时降低token消耗,优化工具调用与智能体协作能力,并通过专用搜索token增强了信息检索性能。
deepseek 目前采用的主要改进如下:
- 多头潜在注意力 (MLA,Multi-head Latent Attention) :通过将键值 (KV) 缓存显著压缩为潜在向量来保证高效推理的同时不降低效果。
- DeepSeekMoE,通过稀疏计算以经济的成本训练强大的模型。
- 一系列推理加速技术
Qwen系列模型
通义千问由阿里巴巴基于 “通义” 大模型研发,于 2023 年 4 月正式发布。Qwen 系列均采用 decoder-Only 架构,并结合 SwiGLU 激活、RoPE、GQA 等技术。中文能力相对来说非常不错的开源模型。
- 2023 年 9 月,阿里云开源了 Qwen(通义千问)系列工作。
- 2024 年 6 月 6 日,正式开源了 Qwen2。
- 2025 年 4 月 29 日,发布了全新升级的 Qwen3 系列模型。开源了 7 种模型大小:0.6B, 1.7B, 4B, 8B, 14B, 32B 的 Dense 模型和 30B-A3B, 235B-A22B 的 MoE 模型;8B 以下模型的上下文长度为 32k,8B 以上模型的上下文长度为 128k。采用混合推理架构,支持思考模式和非思考模式之间无缝切换。
- 2025年7月,更新为版本 Qwen3-2507,不再采用混合推理架构,提供三种参数规模:235B-A22B、30B-A3B、4B。指令遵循、逻辑推理、文本理解、数学、科学、编码、工具使用能力显著提升,支持256K上下文,可扩展至1M。
- Qwen3-Instruct-2507(非思考模型): 在多语言和长尾知识覆盖范围有实质性增长,在主观和开放式任务中与用户偏好的一致性显著更好,文本生成质量更高。
- Qwen3-Thinking-2507(思考模型): 在推理任务(逻辑/数学/科学/编码/需人类专业知识的学术基准)上性能显著提升,达开源思考模型 SOTA。
同时其还发布了代码模型(Qwen3-Coder),数学模型(Qwen2.5-Math),语音模型(Qwen3-ASR-Flash),图片理解模型(Qwen3-VL),多模态模型(Qwen2.5-Omini)等一系列强大模型。
GLM系列模型
GLM 系列模型是 清华大学和智谱 AI 等 合作研发的语言大模型。
- 2023 年 3 月,发布了ChatGLM。
- 2023 年 6 月,发布了 ChatGLM2。相对于一代,ChatGLM2 将上下文长度扩展到了 32K,通过更大的预训练规模实现了模型性能的大幅度突破。不过,在 ChatGLM2 中,模型架构就基本回归了 LLaMA 架构,引入 MQA 的注意力机制,预训练任务也回归经典的 CLM,放弃了 GLM 的失败尝试。
- 2023 年 10 月,发布了 ChatGLM3,相对于二代在语义、数学、推理、代码和知识方面都达到了当时的 SOTA 性能
- 2024 年 1 月,智谱发布了支持 128K 上下文,包括多种类型的 GLM-4 系列模型,评估其在英文基准上达到了 GPT-4 的水平。不过,智谱并未直接开源 GLM-4,而是开源了其轻量级版本 GLM-4-9B 模型,其在 1T token 的多语言语料库上进行预训练,上下文长度为 8K,并使用与 GLM-4 相同的管道和数据进行后训练。在训练计算量较少的情况下,其超越了 Llama-3-8B,并支持 GLM-4 中所有工具的功能。
- 2025 年 7 月,发布了 GLM4.5。 GLM-4.5 系列模型是专为智能体应用而设计的模型。该系列采用混合推理架构,提供两种工作模式:思考模式用于处理复杂推理任务和工具调用,非思考模式则专注于快速响应。目前推出两个版本:GLM-4.5 和 GLM-4.5-Air。
在技术规格方面,GLM-4.5 拥有 355B 总参数量和 32B 激活参数,而 GLM-4.5-Air 则采用更轻量化的设计,包含 106B 总参数量和 12B 激活参数。GLM-4.5 系列模型将推理、编码和智能体能力有机统一,为智能体应用提供强大的技术支撑。
LLM的特点与能力
大语言模型具有多种显著特点,这些特点使它们在自然语言处理和其他领域中引起了广泛的兴趣和研究。以下是大语言模型的一些主要特点:
- 巨大的规模: LLM 通常具有巨大的参数规模,可以达到数十亿甚至数千亿个参数。这使得它们能够捕捉更多的语言知识和复杂的语法结构。
- 预训练和微调: LLM 采用了预训练和微调的学习方法。首先在大规模文本数据上进行预训练(无标签数据),学习通用的语言表示和知识。然后通过微调(有标签数据)适应特定任务,从而在各种 NLP 任务中表现出色。
- 上下文感知: LLM 在处理文本时具有强大的上下文感知能力,能够理解和生成依赖于前文的文本内容。这使得它们在对话、文章生成和情境理解方面表现出色。
- 多语言支持: LLM 可以用于多种语言,不仅限于英语。它们的多语言能力使得跨文化和跨语言的应用变得更加容易。
- 多模态支持: 一些 LLM 已经扩展到支持多模态数据,包括文本、图像和声音。使得它们可以理解和生成不同媒体类型的内容,实现更多样化的应用
- 伦理和风险问题: 尽管 LLM 具有出色的能力,但它们也引发了伦理和风险问题,包括生成有害内容、隐私问题、认知偏差等。因此,研究和应用 LLM 需要谨慎。
- 高计算资源需求: LLM 参数规模庞大,需要大量的计算资源进行训练和推理。通常需要使用高性能的 GPU 或 TPU 集群来实现。
- 幻觉: LLM 根据 Prompt 杜撰生成虚假、错误信息的表现。例如,当我们要求 LLM 生成一篇学术论文及其参考文献列表时,其往往会捏造众多看似“一本正经”实则完全不存在的论文和研究。幻觉问题是 LLM 的固有缺陷,也是目前 LLM 研究及应用的巨大挑战。尤其是在医学、金融学等非常强调精准、正确的领域,幻觉的存在可能造成非常严重的后果。目前也有很多研究提供了削弱幻觉的一些方法,如 Prompt 里进行限制、通过 RAG(检索增强生成)来指导生成等,但都还只能一定程度减弱幻觉而无法彻底根除。
大语言模型是一种具有强大语言处理能力的技术,已经在多个领域展示了潜力。它们为自然语言理解和生成任务提供了强大的工具,同时也引发了对其伦理和风险问题的关注。这些特点使 LLM 成为了当今计算机科学和人工智能领域的重要研究和应用方向。
LLM的涌现能力
区分大语言模型(LLM)与以前的预训练语言模型(PLM)最显著的特征之一是它们的 涌现能力。涌现能力是一种令人惊讶的能力,它在小型模型中不明显,但在大型模型中特别突出。类似物理学中的相变现象,涌现能力就像是模型性能随着规模增大而迅速提升,超过了随机水平,也就是我们常说的 量变引起质变。
涌现能力可以与某些复杂任务有关,但我们更关注的是其通用能力。接下来,我们简要介绍三个 LLM 典型的涌现能力:
- 上下文学习(In-context Learning): 上下文学习能力是由 GPT-3 首次引入的。这种能力允许语言模型在提供自然语言指令或多个任务示例的情况下,通过理解上下文并生成相应输出的方式来执行任务,而无需额外的训练或参数更新。
- 指令遵循(Instruction Following):通过使用自然语言描述的多任务数据进行微调,也就是所谓的
指令微调。LLM 被证明在使用指令形式化描述的未见过的任务上表现良好。这意味着 LLM 能够根据任务指令执行任务,而无需事先见过具体示例,展示了其强大的泛化能力。 - 逐步推理(Step by Step Reasoning):小型语言模型通常难以解决涉及多个推理步骤的复杂任务,例如数学问题。然而,LLM 通过采用
思维链(CoT, Chain of Thought)推理策略,利用包含中间推理步骤的提示机制来解决这些任务,从而得出最终答案。据推测,这种能力可能是通过对代码的训练获得的。
在 2021 年,斯坦福大学等多所高校的研究人员提出了基座模型(foundation model)的概念,清晰了预训练模型的作用。这是一种全新的 AI 技术范式,借助于海量无标注数据的训练,获得可以适用于大量下游任务的大模型(单模态或者多模态)。这样,多个应用可以只依赖于一个或少数几个大模型进行统一建设。
大语言模型是这个新模式的典型例子,使用统一的大模型可以极大地提高研发效率。相比于每次开发单个模型的方式,这是一项本质上的进步。大型模型不仅可以缩短每个具体应用的开发周期,减少所需人力投入,也可以基于大模型的推理、常识和写作能力,获得更好的应用效果。因此,大模型可以成为 AI 应用开发的大一统基座模型,这是一个一举多得、全新的范式,值得大力推广。
LLM 已经在许多领域产生了深远的影响。在自然语言处理领域,它可以帮助计算机更好地理解和生成文本,包括写文章、回答问题、翻译语言等。在信息检索领域,它可以改进搜索引擎,让我们更轻松地找到所需的信息。在计算机视觉领域,研究人员还在努力让计算机理解图像和文字,以改善多媒体交互。
最重要的是,LLM 的出现让人们重新思考了 通用人工智能(AGI) 的可能性。AGI 是一种像人类一样思考和学习的人工智能。LLM 被认为是 AGI 的一种早期形式,这引发了对未来人工智能发展的许多思考和计划。总之,LLM 是一种令人兴奋的技术,它让计算机更好地理解和使用语言,正在改变着我们与技术互动的方式,同时也引发了对未来人工智能的无限探索。
【参考内容】:








