LinkToolDocs/agent/dev/models.md
2025-07-17 15:52:42 +08:00

2.7 KiB
Raw Blame History

模型基座

支持列表

模型名称 出品方 参数量 API平台
qwen3-235b-a22b 阿里巴巴 2350亿220亿激活参数 阿里云百炼
qwen3-32b 阿里巴巴 320亿 阿里云百炼
qwq-32b 阿里巴巴 320亿 阿里云百炼、开源平台Hugging Face/ModelScope
qwen-max-latest 阿里巴巴 未披露 阿里云百炼
deepseek-r1 深度求索 6710亿 DeepSeek官网、阿里云百炼
deepseek-r1-0528 深度求索 6710亿升级版 DeepSeek官网、阿里云百炼
deepseek-r1-distill-qwen-32b 深度求索 320亿 开源平台Hugging Face/ModelScope
deepseek-r1-distill-llama-70b 深度求索 700亿 开源平台Hugging Face/ModelScope
deepseek-v3 深度求索 6710亿 DeepSeek官网、阿里云百炼
o4-mini OpenAI 未披露 OpenAI API、ChatGPT
claude-sonnet-4-20250514-thinking Anthropic 未公开 Anthropic官网、AWS Bedrock、Google Vertex AI
claude-sonnet-4-20250514 Anthropic 未公开 Anthropic官网、AWS Bedrock、Google Vertex AI
grok-3-reasoner xAI 未披露 xAI官网
gemini-2.5-pro Google 未公开 Google Cloud Vertex AI

说明

  1. 参数量标注为“未披露”的模型,其官方未公布具体参数,部分为行业推测值。
  2. 开源模型可通过Hugging Face、ModelScope等平台下载部署商业API需通过对应厂商平台调用。
  3. 部分模型如DeepSeek-R1-0528为快照版本在基础模型上优化了推理能力和工具调用支持。

模型表现

以 qwen3-235b、claude-thinking 和 gemini-2.5-pro 为代表的百亿级以上模型,这类模型在复杂任务中展现出深度思考能力,能构建完整的推理链条,尤其在需要多步骤分析、工具协同决策的场景中表现突出。但深度思考也带来显著延迟,当任务存在多重变量或多种方法时,模型可能陷入自我博弈循环,消耗远超实际需求的时间成本。

小参数模型的核心优势在于响应效率,对结构化信息提取、模板化内容生成等任务能达到近乎实时的处理速度。不仅响应更快,输出也更简洁聚焦。但当任务涉及抽象概念或需要多维度权衡时,容易表现出思维深度不足的局限。

为平衡两种模型的优势与劣势,后期将考虑引入快慢脑的形式,针对不同的流程,有选择性地处理,介于二者之间的模型在效率与深度间取得较好平衡,能处理大多数日常复杂任务。之后也将考虑采用客观的评价指标衡量模型之间的表现水平。