AI 常见的模型介绍-谢先斌的博客

AI 常见的模型介绍

介绍

模型排行榜 WebDev Arena Leaderboard 是一个开源基准测试网站，用来评估 Web 开发中的 AI 能力

如何判断模型知识库信息

直接问模型，如：

你知识库的最新版本和python的最新版本

常见的模型类型

llm 语言模型 文本生成模型，进行文本对话，多模态模型支持图片识别
text_embedding 文本 Embedding 模型、索引模型 对文本块进行索引，用于相关文本检索
rerank 重排模型 对检索结果进行重排，用于优化检索排名
TTS 语音合成 将文本转换为语音
speech2text 语音识别 将语音转换为文本
moderation 审查

常用的模型

推荐使用的模型
- openai 的 GPT 或 o 系列
- google gemini 系列（速度最快的模型）
- anthropic/claude 系列（编程好）
- deepseek-chat / deepseek-coder（编程好）
- 阿里 qwen 系列
  - qwen3-235B-A22B(MOE 混合推理模型)
  - qwen3-next
数学能力
- mistral-large-2407 对标 llama 3.1，优点是数学能力强
文字生成图形
- flux
- gork
- PaliGemma2

模型幻觉排行榜

vectara/hallucination-leaderboard 比较 LLM 在总结短文时产生幻觉性能的排行榜
- 结论：过程的幻觉比较高，建议降低 temp

dense model vs moe model

参考
MoEs(mixture-of-experts) 模型往往比密集（dense）模型更浅、更宽
与总参数数相同的密集模型相比，MoEs 模型的推理效率更高，但与活动参数数相同的密集模型相比，MoEs 模型的推理效率较低
一个粗略的经验法则是，8 路 MoEs 模型的短上下文解码效率与只有其一半大小的密集模型相同

模型蒸馏

模型蒸馏（Model Distillation） 是一种机器学习技术，旨在将一个大型、复杂的教师模型（Teacher Model）的知识迁移到一个小型、高效的学生模型（Student Model）中，核心思想是：

教师模型：通常是一个在特定任务上表现非常出色但计算成本高昂的模型（例如，大型神经网络，集成模型等）
学生模型：是一个结构更简单、参数更少、推理速度更快的模型，目标是在性能上尽可能接近教师模型，同时大幅降低计算资源消耗

TTS

kokoro

AI 模型供应商

国内
- deepseek
- 阿里通义千问 qwen、QwQ
- 豆包
- Kimi
- 等等
国外 proxy
- https://openrouter.ai/ 支持虚拟货币支付
- https://deepbricks.ai/ 支持阿里云和虚拟货币支付，最低 $10
- cloudflare
- github
  - gpt-4o
- https://lmsys.org/
本地大模型
- ollama
- LM studio
其他

OpenAI

2019 年，OpenAI 意识到追求生成式 AI 的最佳策略是构建一系列生成式预训练 Transformer（GPT）模型。这一战略性的转变促成了 2022 年末 ChatGPT 的推出，标志着生成式 AI 迅速成为主流。

推理模型（o 系列：o3、o4-mini、o1）
- reasoning models/推理模型
- 使用场景：复杂问题解决、高级编码、数学、科学、视觉推理、战略规划、详细分析。
旗舰聊天模型（GPT-4.1、GPT-4o(Omni，全能的)）
- 使用场景：日常任务、头脑风暴、总结、电子邮件、创意内容、复杂编码、指令遵循、长上下文理解、智能代理能力
- GPT-4.1 在编码、指令遵循和长上下文理解方面有了显著改进
成本优化模型（GPT-4.1 mini、GPT-4.1 nano、GPT-4o mini、o3-mini）
- 使用场景：针对特定任务、分类、自动完成、快速的 STEM 相关查询、编程、视觉推理的更快且更经济高效的选项
- GPT-4.1 mini 在智能、速度和成本之间实现了平衡，甚至在某些基准测试中超越了 GPT-4o，同时延迟几乎减少了一半，成本降低了 83%
图像生成模型（GPT Image、DALL·E）
文本转语音（TTS）和转录模型（Whisper）

Anthropic

Anthropic 重点关注其对人工智能安全的承诺以及 Claude 等先进模型的开发

Claude 3.7 Sonnet、Claude 3.5 Sonnet、Claude 3.5 Haiku、Claude 3 Opus、Claude 2.1、Claude 2.0、Claude Instant
- 使用场景：高级推理、视觉分析、代码生成、多语言处理、复杂任务、创意问题解决、RAG、产品推荐、预测、目标营销、内容生成
- Claude 3.7 Sonnet 是 Anthropic 迄今（2025/5）为止最智能的模型，提供用于复杂问题解决的扩展思考能力，并在智能代理编码方面实现了行业领先的性能

Google

谷歌 (Google DeepMind): 强调其广泛的人工智能研究和开发能力，包括 Gemini 和 Gemma 模型系列。

Gemini 系列（2.5 Pro、2.5 Flash、2.0 Flash-Lite、1.5 Pro、1.5 Flash、1.0 Nano、1.0 Ultra）
- 使用场景：编码、复杂提示、快速性能、高性价比性能、跨大量信息的推理、设备端任务、高度复杂的任务、交互式动画创建、游戏开发、数据可视化
Gemma 系列（Gemma 3、Gemma 2、Gemma） 文本生成、摘要、提取、具有文本和图像输入的多模态任务、代码完成、代码生成、代码聊天、指令遵循
Imagen 系列（Imagen 3、Imagen 2） 高质量的文本到图像生成、理解自然语言提示、生成各种艺术风格、创建高保真细节、改进图像中的文本渲染
Veo 系列（Veo 2） 最先进的生成视频模型，根据文本提示创建高质量视频，生成电影效果
MedLM 系列（MedLM-medium、MedLM-large） 针对医疗保健问答和摘要进行医学调整的模型，符合 HIPAA 标准的解决方案

开源项目：

google-gemini/gemini-fullstack-langgraph-quickstart 全能智能体

其他：

BERT 是一个非常重要的预训练语言模型，它在 2018 年首次亮相，它的核心创新在于：
- 双向理解上下文： BERT 能同时考虑一个词的左右两边上下文，从而更准确地理解词语在不同语境下的含义。
- Transformer 编码器：它基于 Transformer 模型的编码器部分，通过自注意力机制有效捕捉文本中的长距离依赖关系。
- 预训练-微调范式：先在大量无标签文本上进行预训练（通过掩码语言模型和下一句预测任务），学习通用的语言表示；然后针对特定任务进行微调。
可以将 BERT 视为 Google 在 NLP 领域的一个奠基性工作和里程碑。它证明了 Transformer 架构和预训练-微调范式的巨大潜力。

微软

微软 (Azure OpenAI Service): 强调其与 OpenAI 的战略合作伙伴关系以及其内部人工智能模型开发工作

GPT-4.1 系列（GPT-4.1、GPT-4.1 mini、GPT-4.1 nano）
GPT-4o & GPT-4o mini
o 系列模型（o3、o4-mini、o1）
- 复杂问题解决、推理、编码、数学、科学、视觉感知、战略规划、详细分析。

xAI

Grok 则由埃隆·马斯克（Elon Musk）创立的人工智能公司 xAI 开发，与社交平台 X（前身为 Twitter）紧密集成

DeepSeek

deepseek 相关模型介绍

模型格式

GGUF 大模型文件格式及 LLM 量化类型介绍

Token

Token 是人工智能、自然语言处理（NLP） 的最小单元。

在 LLM 的语境中，文本不是按字符处理的。相反，它被分解成更小的单元，称为 Token。一个 Token 可以是：

一个单词（例如：hello）
一个子词（例如：un在unbelievable中）
一个字符（特别是对于没有明确单词边界的语言，如中文，或特殊符号）

分词 (Tokenization) 是将文本转换为 Token 序列的过程。

`bos_token` (句首/序列起始标记)

bos_token 代表 beginning of sentence token 或更广泛地说，beginning of sequence token。它是一个特殊的标记，模型用它来理解新的输入序列或新的文本段落在哪里开始。

目的：
- 信号起始： 它明确地告诉模型：嘿，一段新的文本现在开始了。这有助于模型对序列中的第一个 Token 进行上下文理解。
- 模型初始化： 对于某些模型，bos_token 可能用于模型内部表示的初始状态，为生成或理解文本提供一个起始点。
- 批量处理： 在批量处理多个序列时，bos_token 有助于划分每个单独序列的开始。
示例： 如果你向模型输入句子The quick brown fox，那么模型的实际输入可能看起来像：[bos_token] The quick brown fox。

`eos_token` (句尾/序列结束标记)

eos_token 代表 end of sentence token 或 end of sequence token。它是一个特殊的标记，表示生成或输入序列的结束。

目的：
- 信号生成结束： 当语言模型生成文本时，它通常会在生成 eos_token 后停止生成。模型就是通过这种方式知道何时完成其输出的。没有它，模型可能会无限期地继续生成文本，或者产生无意义的输出。
- 分隔序列： 类似于 bos_token，它有助于区分不同的序列，尤其是在训练期间，多个序列可能会被连接起来。
- 截断/填充： 它可以与 max_length 参数结合使用，以确保序列在仍然标记其逻辑结束的同时被适当地截断或填充。
示例： 如果模型生成Hello, world!，那么实际输出可能是 Hello, world! [eos_token]。

它们为什么重要？

这些特殊标记对于大型语言模型的正常运行和训练至关重要：

上下文和结构： 它们为模型提供必要的结构信息，帮助它理解一个完整思想或文本单元的开始和结束。
训练效率： 在训练期间，它们允许模型学习序列何时完成，这对于像下一个词预测这样的任务至关重要。
推理控制： 在生成任务中，eos_token 允许模型生成受控且连贯的输出，防止模型喋喋不休。
处理可变长度： LLM 通常处理不同长度的序列。这些标记有助于有效地管理这些变化。

在线计算 token 工具

https://tiktokenizer.vercel.app/ 支持多种模型的 token 分词

其他领域 Token 的含义

令牌：计算机认证领域
代码：加密数字货币资产相关

KV Cache

KV Cache (Key-Value Cache) 是一种能显著提升大模型推理速度的技术，它的核心思想是通过缓存自注意力机制中的历史键值对(Key-Value)，从而避免大量重复计算，在长序列任务中效果尤其明显
当前时刻 attention 值的计算只与这几个数据有关
- 当前时刻的输入字符
- 历史 K 矩阵
- 历史 V 矩阵
历史 K 矩阵和 V 矩阵在每一时刻 attention 的计算中都会用到，因此将其进行缓存，可节省大量重复计算。这就是 KV Cache 的核心原理所在