模型基座

支持列表

模型名称	出品方	参数量	API平台
qwen3-235b-a22b	阿里巴巴	2350亿（220亿激活参数）	阿里云百炼
qwen3-32b	阿里巴巴	320亿	阿里云百炼
qwq-32b	阿里巴巴	320亿	阿里云百炼、开源平台（Hugging Face/ModelScope）
qwen-max-latest	阿里巴巴	未披露	阿里云百炼
deepseek-r1	深度求索	6710亿	DeepSeek官网、阿里云百炼
deepseek-r1-0528	深度求索	6710亿（升级版）	DeepSeek官网、阿里云百炼
deepseek-r1-distill-qwen-32b	深度求索	320亿	开源平台（Hugging Face/ModelScope）
deepseek-r1-distill-llama-70b	深度求索	700亿	开源平台（Hugging Face/ModelScope）
deepseek-v3	深度求索	6710亿	DeepSeek官网、阿里云百炼
o4-mini	OpenAI	未披露	OpenAI API、ChatGPT
claude-sonnet-4-20250514-thinking	Anthropic	未公开	Anthropic官网、AWS Bedrock、Google Vertex AI
claude-sonnet-4-20250514	Anthropic	未公开	Anthropic官网、AWS Bedrock、Google Vertex AI
grok-3-reasoner	xAI	未披露	xAI官网
gemini-2.5-pro	Google	未公开	Google Cloud Vertex AI

说明：

参数量标注为“未披露”的模型，其官方未公布具体参数，部分为行业推测值。
开源模型可通过Hugging Face、ModelScope等平台下载部署，商业API需通过对应厂商平台调用。
部分模型（如DeepSeek-R1-0528）为快照版本，在基础模型上优化了推理能力和工具调用支持。

模型表现

以 qwen3-235b、claude-thinking 和 gemini-2.5-pro 为代表的百亿级以上模型，这类模型在复杂任务中展现出深度思考能力，能构建完整的推理链条，尤其在需要多步骤分析、工具协同决策的场景中表现突出。但深度思考也带来显著延迟，当任务存在多重变量或多种方法时，模型可能陷入自我博弈循环，消耗远超实际需求的时间成本。

小参数模型的核心优势在于响应效率，对结构化信息提取、模板化内容生成等任务能达到近乎实时的处理速度。不仅响应更快，输出也更简洁聚焦。但当任务涉及抽象概念或需要多维度权衡时，容易表现出思维深度不足的局限。

为平衡两种模型的优势与劣势，后期将考虑引入快慢脑的形式，针对不同的流程，有选择性地处理，介于二者之间的模型在效率与深度间取得较好平衡，能处理大多数日常复杂任务。之后也将考虑采用客观的评价指标衡量模型之间的表现水平。

2.7 KiB Raw Blame History Unescape Escape

模型基座

支持列表

模型表现

2.7 KiB

Raw Blame History