AI 常见的模型介绍
介绍
如何判断模型知识库信息
直接问模型,如:
你知识库的最新版本和python的最新版本
常见的模型类型
llm 语言模型
文本生成模型,进行文本对话,多模态模型支持图片识别
text_embedding 文本 Embedding 模型、索引模型
对文本块进行索引,用于相关文本检索
rerank 重排模型
对检索结果进行重排,用于优化检索排名
TTS 语音合成
将文本转换为语音
speech2text 语音识别
将语音转换为文本
moderation 审查
常用的模型
- 推荐使用的模型
openai
的 GPT
或 o
系列
google gemini
系列(速度最快的模型)
anthropic/claude
系列(编程好)
deepseek-chat
/ deepseek-coder
(编程好)
- 阿里
qwen
系列
- qwen3-235B-A22B(MOE 混合推理模型)
- 数学能力
- 文字生成图形
模型幻觉排行榜
dense model vs moe model
-
参考
-
MoEs(mixture-of-experts) 模型往往比密集(dense)模型更浅、更宽
-
与总参数数相同的密集模型相比,MoEs 模型的推理效率更高,但与活动参数数相同的密集模型相比,MoEs 模型的推理效率较低
-
一个粗略的经验法则是,8 路 MoEs 模型的短上下文解码效率与只有其一半大小的密集模型相同
模型蒸馏
模型蒸馏(Model Distillation)
是一种机器学习技术,旨在将一个大型、复杂的教师模型(Teacher Model)
的知识迁移到一个小型、高效的学生模型(Student Model)
中,核心思想是:
- 教师模型:通常是一个在特定任务上表现非常出色但计算成本高昂的模型(例如,大型神经网络,集成模型等)
- 学生模型:是一个结构更简单、参数更少、推理速度更快的模型,目标是在性能上尽可能接近教师模型,同时大幅降低计算资源消耗
TTS
AI 模型供应商
- 国内
- deepseek
- 阿里通义千问 qwen、QwQ
- 豆包
- Kimi
- 等等
- 国外 proxy
- 本地大模型
- 其他
OpenAI
2019 年,OpenAI 意识到追求生成式 AI 的最佳策略是构建一系列生成式预训练 Transformer(GPT)模型。这一战略性的转变促成了 2022 年末 ChatGPT 的推出,标志着生成式 AI 迅速成为主流。
- 推理模型(o 系列:o3、o4-mini、o1)
- reasoning models/推理模型
- 使用场景:复杂问题解决、高级编码、数学、科学、视觉推理、战略规划、详细分析。
- 旗舰聊天模型(GPT-4.1、GPT-4o(Omni,全能的))
- 使用场景:日常任务、头脑风暴、总结、电子邮件、创意内容、复杂编码、指令遵循、长上下文理解、智能代理能力
- GPT-4.1 在编码、指令遵循和长上下文理解方面有了显著改进
- 成本优化模型(GPT-4.1 mini、GPT-4.1 nano、GPT-4o mini、o3-mini)
- 使用场景:针对特定任务、分类、自动完成、快速的 STEM 相关查询、编程、视觉推理的更快且更经济高效的选项
- GPT-4.1 mini 在智能、速度和成本之间实现了平衡,甚至在某些基准测试中超越了 GPT-4o,同时延迟几乎减少了一半,成本降低了 83%
- 图像生成模型(GPT Image、DALL·E)
- 文本转语音(TTS)和转录模型(Whisper)
Anthropic
Anthropic 重点关注其对人工智能安全的承诺以及 Claude 等先进模型的开发
- Claude 3.7 Sonnet、Claude 3.5 Sonnet、Claude 3.5 Haiku、Claude 3 Opus、Claude 2.1、Claude 2.0、Claude Instant
- 使用场景:高级推理、视觉分析、代码生成、多语言处理、复杂任务、创意问题解决、RAG、产品推荐、预测、目标营销、内容生成
- Claude 3.7 Sonnet 是 Anthropic 迄今(2025/5)为止最智能的模型,提供用于复杂问题解决的扩展思考能力,并在智能代理编码方面实现了行业领先的性能
Google
谷歌 (Google DeepMind): 强调其广泛的人工智能研究和开发能力,包括 Gemini 和 Gemma 模型系列。
- Gemini 系列(2.5 Pro、2.5 Flash、2.0 Flash-Lite、1.5 Pro、1.5 Flash、1.0 Nano、1.0 Ultra)
- 使用场景:编码、复杂提示、快速性能、高性价比性能、跨大量信息的推理、设备端任务、高度复杂的任务、交互式动画创建、游戏开发、数据可视化
Gemma 系列(Gemma 3、Gemma 2、Gemma)
文本生成、摘要、提取、具有文本和图像输入的多模态任务、代码完成、代码生成、代码聊天、指令遵循
Imagen 系列(Imagen 3、Imagen 2)
高质量的文本到图像生成、理解自然语言提示、生成各种艺术风格、创建高保真细节、改进图像中的文本渲染
Veo 系列(Veo 2)
最先进的生成视频模型,根据文本提示创建高质量视频,生成电影效果
MedLM 系列(MedLM-medium、MedLM-large)
针对医疗保健问答和摘要进行医学调整的模型,符合 HIPAA 标准的解决方案
开源项目:
Meta Platforms (前身为 Facebook) 一直在人工智能 (AI) 领域进行大量投入和研发,其 AI 研究部门 Meta AI (前身为 FAIR) 致力于推动 AI 技术的进步
- LlaLLAMAma 系列开源大型语言模型
- Llama: 最初的 Llama 模型为后续版本奠定了基础,提供了不同参数规模的版本,展示了在少量资源下训练出高性能模型的潜力
- Llama 2: Llama 2 在 Llama 的基础上进行了改进,并首次推出了可用于商业应用的开源版本。它包含不同参数量的模型 (如 7B, 13B, 70B),并在更长的上下文长度和更大的数据集上进行了训练,提升了理解和生成文本的能力
- Llama 3: Llama 3 进一步提升了性能,拥有 8B 和 70B 等参数版本。Meta 表示,Llama 3 在多个基准测试中表现出色,甚至超越了一些同类竞争模型。其训练数据规模也远超前代,达到了 15T token。Meta 还计划推出更大参数规模 (超过 4000 亿) 的 Llama 3 模型,并扩展其多语言、多模态能力和上下文窗口
- Llama 3.1: 作为 Llama 3 的增量更新,Llama 3.1 引入了对更多语言的支持,拥有更大的上下文窗口 (如 128,000 token),并提升了推理能力和安全性。该系列包括 8B、70B 以及迄今为止最大、最先进的 405B 参数模型
- Llama 4: 最新的 Llama 4 系列模型被认为是 Meta 迄今为止最先进的模型,具有强大的多模态能力。目前已知的版本包括 Llama 4 Scout (170 亿参数,16 个专家) 和 Llama 4 Maverick (170 亿参数,128 个专家),首次采用了“混合专家 (Mixture-of-Experts, MoE)”架构,以提高效率和性能。此外,还有更大规模的 Llama 4 Behemoth (超过 2 万亿参数) 和 Llama 4 Reasoning 模型正在开发中。Llama 4 模型旨在驱动 Meta AI 应用,提供更个性化和相关的体验
微软
微软 (Azure OpenAI Service): 强调其与 OpenAI 的战略合作伙伴关系以及其内部人工智能模型开发工作
- GPT-4.1 系列(GPT-4.1、GPT-4.1 mini、GPT-4.1 nano)
- GPT-4o & GPT-4o mini
- o 系列模型(o3、o4-mini、o1)
- 复杂问题解决、推理、编码、数学、科学、视觉感知、战略规划、详细分析。
xAI
DeepSeek
模型格式
Token
在线计算 token 的工具,支持多种模型的 token 分词:https://tiktokenizer.vercel.app/
其他领域 Token 的含义:
KV Cache
KV Cache (Key-Value Cache)
是一种能显著提升大模型推理速度的技术,它的核心思想是通过缓存自注意力机制中的历史键值对(Key-Value),从而避免大量重复计算,在长序列任务中效果尤其明显
- 当前时刻 attention 值的计算只与这几个数据有关
- 当前时刻的输入字符
- 历史 K 矩阵
- 历史 V 矩阵
- 历史 K 矩阵和 V 矩阵在每一时刻 attention 的计算中都会用到,因此将其进行缓存,可节省大量重复计算。这就是 KV Cache 的核心原理所在