大规模语言模型(Large Language Model,LLM)
是一种基于人工智能技术的模型,是由具有大量参数(通常数十亿个权重或更多)的人工神经网络组成的一类语言模型,使用自监督学习
或半监督学习
对大量未标记文本进行训练。大语言模型在 2018 年左右出现,并在各种任务中表现出色。
介绍
技术基础
:基于深度学习,尤其是 Transformer
架构(如 GPT、BERT 等),通过大量文本数据(数据集通常通过删除低质量、重复或有害数据来清理)训练,学习语言的统计规律、语义关联和上下文逻辑
大规模
的体现:参数量极大(通常达数十亿至数万亿),训练数据覆盖海量互联网文本、书籍、论文等,使其具备广泛的知识储备和语言生成能力
核心能力
文本生成
:可创作文章、故事、代码,甚至诗歌
多语言处理
:支持翻译、跨语言问答(如中英文混合输入)
复杂任务处理
:完成摘要、问答、逻辑推理、数据分析等多样化任务
上下文理解
:能分析长文本(如整篇文档),保持对话或文本的连贯性
典型应用
智能助手
:如 ChatGPT、文心一言(ERNIE)、阿里通义等
内容生产
:自动生成营销文案、新闻稿、社交媒体内容
编程辅助
:GitHub Copilot 等工具帮助开发者写代码
教育科研
:解答学术问题、辅助论文写作或文献综述
行业场景
:客服自动化、医疗报告生成、金融数据分析等
局限性
偏见与错误
:训练数据中的偏见可能导致输出偏差,或生成看似合理但不正确
的内容(称为幻觉
)
计算成本高
:训练和运行需消耗大量算力,依赖高性能硬件
伦理风险
:可能被滥用生成虚假信息、诈骗内容,或引发隐私泄露问题
训练架构
指令调优(Instruction Tuning)
是一种微调技术,通过在包含(指令,输出)对的数据集上以监督学习方式进一步训练大型语言模型,使其更好地理解和执行人类指令
- 基于人类反馈的强化学习
- 混合专家模型
提示工程(prompt engineering)
,注意力机制和上下文窗口(context window)
教程