| 术语 | 定义 |
|---|---|
| Open-weight(权重开源) | 模型权重公开可下载、允许研究与商用,但训练数据 / 代码通常保留 |
| Fully-open(完全开源) | 除权重外,训练数据、训练代码、训练日志、中间检查点全部公开(典型代表:OLMo) |
| Closed / API-first(闭源) | 权重不公开,仅通过 API / 产品提供,典型代表:OpenAI GPT 旗舰 / Anthropic Claude / Google Gemini 旗舰 |
| Hybrid(混合路线) | 小尺寸 / 上一代权重开源、最新旗舰闭源(典型代表:Baidu ERNIE、Tencent Hunyuan、Cohere Command) |
| Technical Report | 正式发表于 arXiv / 会议 / 期刊的完整技术文档,含架构、数据、训练、评估细节 |
| Model Card / System Card | 仅包含模型说明、基本参数、评测与安全信息的简化文档,不包含完整训练细节 |
| # | 公司 | 系列 | 论文数 | 首篇 | 最新 | 透明度档位 |
|---|---|---|---|---|---|---|
| 1 | 🇺🇸 Meta | Llama | 3 + 1 Card | 2023-02 | 2025-04 | 档位 3 |
| 2 | 🇺🇸 Google DeepMind | Gemma | 3 | 2024-03 | 2025-03 | 档位 1 |
| 3 | 🇨🇳 Alibaba | Qwen | 4 | 2023-09 | 2025-05 | 档位 1 |
| 4 | 🇫🇷 Mistral AI | Mistral / Mixtral / Magistral / Ministral | 4 | 2023-10 | 2026-01 | 档位 2 |
| 5 | 🇨🇳 DeepSeek | DeepSeek LLM / V2 / V3 / R1 / V3.2 | 5 | 2024-01 | 2025-12 | 档位 1 |
| 6 | 🇨🇳 Zhipu AI / Z.ai | GLM / ChatGLM / GLM-4.5 / GLM-5 | 5 | 2021-03 | 2026-02 | 档位 1 |
| 7 | 🇨🇳 Moonshot AI | Kimi k1.5 / K2 / K2.5 | 3 | 2025-01 | 2026-02 | 档位 1 |
| 8 | 🇨🇳 MiniMax | MiniMax-01 / M1 | 2 | 2025-01 | 2025-06 | 档位 2 |
| 9 | 🇨🇳 Xiaomi | MiMo / MiMo-VL / MiMo-V2-Flash | 3 | 2025-05 | 2026-01 | 档位 1 |
| 10 | 🇺🇸 OpenAI | gpt-oss-120b / 20b | 1 Card | 2025-08 | 2025-08 | 档位 3 |
| 11 | 🇨🇳 Ant Group (蚂蚁) | Ling / Ring / Ling 2.0 / Ling 2.5 | 4 | 2025-03 | 2025-10 | 档位 1 |
| 12 | 🇨🇳 Meituan (美团) | LongCat Flash / Omni / Image / Thinking | 4 | 2025-09 | 2026-01 | 档位 1 |
| 13 | 🇺🇸 NVIDIA | Nemotron-4 / Nemotron-H / Llama-Nemotron / Nemotron 3 | 5 | 2024-02 | 2025-12 | 档位 1 |
| 14 | 🇺🇸 xAI | Grok-1 | 0 (仅 Card) | 2024-03 | 2024-03 | 档位 4 |
| 15 | 🇺🇸 Allen AI / Ai2 | OLMo / OLMo 2 / OLMo 3 | 3 | 2024-02 | 2025-12 | 档位 S |
| 16 | 🇨🇳 StepFun (阶跃星辰) | Step-3 / Step3-VL / Step 3.5 Flash | 3 | 2025-07 | 2026-02 | 档位 1 |
透明度档位说明:
- 档位 S:Fully-open(含训练数据、代码、日志)
- 档位 1:Open-weight + 每代完整 arXiv 技术报告
- 档位 2:基础系列有论文,近期旗舰转为 blog 形式
- 档位 3:仅 Model Card 或 blog,无完整技术报告
- 档位 4:无正式论文
每家机构最具代表性的当前旗舰权重。参数列格式:
总参数 (T) / 激活 (A);稠密模型只列单个数字。Ctx 为官方声明的最大上下文长度。
| # | 机构 | 当前旗舰 | 架构 | 参数 (T/A) | Ctx | License | GitHub | HuggingFace |
|---|---|---|---|---|---|---|---|---|
| 1 | Meta | Llama 4 Maverick | MoE × 128E | 400B / 17B | 1M | Llama 4 Community | llama-models | Maverick-17B-128E |
| 1b | Meta | Llama 4 Scout | MoE × 16E | 109B / 17B | 10M | Llama 4 Community | ↑ | Scout-17B-16E |
| 2 | Gemma 3 27B IT | 稠密 + SWA/全局 | 27B | 128K | Gemma Terms | gemma | gemma-3-27b-it | |
| 3 | Alibaba | Qwen3-235B-A22B | MoE | 235B / 22B | 128K | Apache-2.0 | Qwen3 | Qwen3-235B-A22B |
| 4 | Mistral | Ministral 3-14B-Reasoning | 稠密 | 14B | 128K | Apache-2.0 | mistral-inference | Ministral-3 Collection |
| 5 | DeepSeek | DeepSeek-V3.2 | MoE + DSA | 671B / 37B | 128K | MIT | DeepSeek-V3 | DeepSeek-V3.2 |
| 6 | Z.ai | GLM-5 | MoE | 744B / 40B | 128K | MIT | GLM-5 | GLM-5 |
| 6b | Z.ai | GLM-5.1(blog) | MoE + DSA | 754B / 40B | 200K | MIT | ↑ | GLM-5.1 |
| 7 | Moonshot | Kimi K2.5 | MoE (MLA) | 1T / 32B | 256K | Modified MIT | Kimi-K2 | Kimi-K2.5 |
| 8 | MiniMax | MiniMax-M2.5(blog) | MoE + Lightning Attn | 230B / 10B | 1M | MiniMax M Use | MiniMax-M1 | MiniMax-M2.5 |
| 9 | Xiaomi | MiMo-V2-Flash | MoE + SWA 5:1 | 309B / 15B | 256K | MIT | MiMo | MiMo-V2-Flash |
| 10 | OpenAI | gpt-oss-120b | MoE | 120B / 5.1B | 128K | Apache-2.0 | gpt-oss | gpt-oss-120b |
| 11 | Ant Group | Ling-1T | MoE (1/32 稀疏) + FP8 | 1T / 50B | 128K | MIT | Ling | Ling-1T |
| 12 | Meituan | LongCat-Flash-Thinking-2601 | MoE + Zero-Comp Exp | 560B / 18.6–31.3B | 128K | MIT | LongCat-Flash | LongCat-Flash-Thinking-2601 |
| 13 | NVIDIA | Nemotron 3 Ultra | Mamba-Transformer MoE + NVFP4 | 未公开 / — | 1M | NVIDIA Open Model | NeMo | Nemotron-3-Nano-30B-A3B |
| 14 | xAI | Grok-1 | MoE × 8E | 314B / ~86B | 8K | Apache-2.0 | grok-1 | grok-1 |
| 15 | Ai2 | Olmo 3 Think 32B | 稠密(Fully-open) | 32B | 64K | Apache-2.0 | OLMo | Olmo-3-32B-Think |
| 16 | StepFun | Step 3.5 Flash | MoE + SWA/全局 3:1 + MTP-3 | 196B / 11B | 128K | Apache-2.0 | Step3 | Step-3.5-Flash |
License 速查:
- Apache-2.0 / MIT:商用最友好,无字段限制
- Llama 4 Community / Gemma Terms:商用前请阅读条款(MAU 7 亿门槛、安全使用条款等)
- Modified MIT(Kimi K2):基本同 MIT,额外要求 "Kimi K2" 在界面可见
- MiniMax M Use:MiniMax 自有商业许可,个人研究与商用分级
- NVIDIA Open Model License:允许商用,要求安全使用与合规披露
Llama 1–3 公开完整训练细节,是开源生态早期基石;Llama 4 起转为仅发 Model Card。
| 时间 | 论文 | HuggingFace | 关键贡献 |
|---|---|---|---|
| 2023-02 | LLaMA: Open and Efficient Foundation Language Models (arXiv:2302.13971) | — (首发需申请,非官方转载存在) | 首个大规模开源基础模型(7B–65B),13B 超越 GPT-3 175B |
| 2023-07 | Llama 2: Open Foundation and Fine-Tuned Chat Models (arXiv:2307.09288) | meta-llama/Llama-2-70b-hf | 首代可商用 Llama,引入 RLHF Chat 版本 |
| 2024-07 | The Llama 3 Herd of Models (arXiv:2407.21783) | meta-llama/Llama-3.1-405B | 405B 旗舰,128K 上下文,多模态扩展 |
| 2025-04 | meta-llama/Llama-4-Maverick-17B-128E · meta-llama/Llama-4-Scout-17B-16E | Llama 首款 MoE + 原生多模态;Scout(109B 总 / 17B 激活 × 16E)支持 10M context;Maverick 400B / 17B × 128E |
将 Gemini 研究成果下沉到轻量级开源模型,专注 2B–27B 消费级部署场景。
| 时间 | 论文 | HuggingFace | 关键贡献 |
|---|---|---|---|
| 2024-03 | Gemma: Open Models Based on Gemini Research and Technology (arXiv:2403.08295) | google/gemma-7b | 首代 Gemma(2B / 7B),Gemini 架构下沉 |
| 2024-07 | Gemma 2: Improving Open Language Models at a Practical Size (arXiv:2408.00118) | google/gemma-2-27b | 局部 / 全局注意力交替 + 知识蒸馏(2B / 9B / 27B) |
| 2025-03 | Gemma 3 Technical Report (arXiv:2503.19786) | google/gemma-3-27b-it | 原生视觉输入 + 128K 上下文 + 多语言扩展(1B / 4B / 12B / 27B) |
中国开源模型中发表最密集的谱系之一,规模覆盖 0.5B 至 235B MoE。
| 时间 | 论文 | HuggingFace | 关键贡献 |
|---|---|---|---|
| 2023-09 | Qwen Technical Report (arXiv:2309.16609) | Qwen/Qwen-72B | Qwen 首代(1.8B / 7B / 14B / 72B),中英双语 |
| 2024-07 | Qwen2 Technical Report (arXiv:2407.10671) | Qwen/Qwen2-72B | 规模覆盖 0.5B–72B,首次发布大规模 MoE 变体(57B-A14B) |
| 2024-12 | Qwen2.5 Technical Report (arXiv:2412.15115) | Qwen/Qwen2.5-72B-Instruct | 72B 旗舰在多项基准上与 Llama 3-405B 接近;衍生 Math / Coder 专项 |
| 2025-05 | Qwen3 Technical Report (arXiv:2505.09388) | Qwen/Qwen3-235B-A22B | 统一框架内支持 Thinking / Non-thinking 双模式切换 |
欧洲开源主力,擅长 MoE 与小参数高效架构。旗舰 Large 系列仅 blog 发布,子系列保留完整论文。
| 时间 | 论文 | HuggingFace | 关键贡献 |
|---|---|---|---|
| 2023-10 | Mistral 7B (arXiv:2310.06825) | mistralai/Mistral-7B-v0.1 | SWA(Sliding Window Attention)+ GQA;7B 在多项基准超越 Llama 2 13B |
| 2024-01 | Mixtral of Experts (arXiv:2401.04088) | mistralai/Mixtral-8x7B-v0.1 | 首个高影响力开源 SMoE(8×7B),对标 GPT-3.5 / Llama 2 70B |
| 2024-07 | mistralai/Mistral-Large-Instruct-2407 | 123B 稠密模型;MRL 研究许可;数十种自然语言 + 80+ 编程语言 | |
| 2025-06 | Magistral (arXiv:2506.10910) | mistralai/Magistral-Small-2506 | Mistral 首款推理模型(Small 24B 开源 / Medium 闭源)+ 自研 RL 管线 |
| 2026-01 | Ministral 3 (arXiv:2601.08584) | mistralai/Ministral-3 Collection | 级联蒸馏(Cascade Distillation)方法;3B / 8B / 14B 三档,每档含 Base / Instruct / Reasoning 三变体,均支持图像输入,Apache 2.0 |
开源权重阵营中发表最密集的团队之一,每代均附完整技术报告;R1 论文发表于 Nature。
| 时间 | 论文 | HuggingFace | 关键贡献 |
|---|---|---|---|
| 2024-01 | DeepSeek LLM: Scaling Open-Source LM with Longtermism (arXiv:2401.02954) | deepseek-ai/deepseek-llm-67b-base | Scaling Law 实证修正;67B Base 在多项基准超越 Llama 2 70B |
| 2024-05 | DeepSeek-V2: A Strong, Economical and Efficient MoE LM (arXiv:2405.04434) | deepseek-ai/DeepSeek-V2 | MLA(Multi-head Latent Attention)首次提出,KV Cache 压缩 93.3% |
| 2024-12 | DeepSeek-V3 Technical Report (arXiv:2412.19437) | deepseek-ai/DeepSeek-V3 | 671B MoE / 37B 激活,14.8T tokens,总训练用量 2.788M H800 GPU 小时 |
| 2025-01 | DeepSeek-R1: Incentivizing Reasoning via RL (arXiv:2501.12948) · Nature 645, 633–638 (2025-09-17) | deepseek-ai/DeepSeek-R1 | 论证无需人工推理标注,纯 RL 即可激活 LLM 的链式推理能力;基于 DeepSeek-V3 Base + GRPO |
| 2025-12 | DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models (arXiv:2512.02556) | deepseek-ai/DeepSeek-V3.2 · deepseek-ai/DeepSeek-V3.2-Exp | DSA(DeepSeek Sparse Attention);Speciale 变体在 IMO / IOI 2025 取得金牌 |
中国最早公开发布大语言模型论文的机构之一(2021 年起)。GLM-4.5 之后 GLM-4.6 / 4.7 仅以 blog 发布;2026-02 GLM-5 回归 arXiv 完整技术报告。
| 时间 | 论文 | HuggingFace | 关键贡献 |
|---|---|---|---|
| 2021-03 | GLM: General Language Model Pretraining with Autoregressive Blank Infilling (arXiv:2103.10360) · ACL 2022 | THUDM/glm-10b | 用自回归空白填充统一 NLU / NLG / 条件生成三类任务 |
| 2022-10 | GLM-130B: An Open Bilingual Pre-trained Model (arXiv:2210.02414) · ICLR 2023 | — (权重通过 GitHub 申请下载) | 首批 100B+ 规模的中英双语开源预训练模型之一 |
| 2024-06 | ChatGLM: A Family of LMs from GLM-130B to GLM-4 All Tools (arXiv:2406.12793) | THUDM/chatglm3-6b · zai-org/glm-4-9b-chat | 三代 ChatGLM + GLM-4 All Tools 工具调用能力 |
| 2025-08 | GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models (arXiv:2508.06471) | zai-org/GLM-4.5 | 355B MoE / 32B 激活,Hybrid Reasoning 双模式 |
| 2025-09 ~ 2025-12 | zai-org/GLM-4.6 | 沿用 GLM-4.5 架构增量迭代,未发布独立技术报告 | |
| 2026-02 | GLM-5: from Vibe Coding to Agentic Engineering (arXiv:2602.15763) | zai-org/GLM-5 | 744B MoE / 40B 激活;面向长程 Agentic 工程,预训练语料再翻倍 |
| 2026-04 | — | 754B MoE + DSA 稀疏注意力;SWE-Bench Pro SOTA(58.4%),支持 8 小时自主执行 |
2025 年起快速迭代,在优化器、Agent 等方向有独立技术贡献。k1.5 权重未公开,K2 / K2.5 开源。
| 时间 | 论文 | HuggingFace | 关键贡献 |
|---|---|---|---|
| 2025-01 | Kimi k1.5: Scaling Reinforcement Learning with LLMs (arXiv:2501.12599) | ❌ (GitHub 仅发 paper) | Long-CoT RL + 128K 上下文 + 多模态联合训练 |
| 2025-07 | Kimi K2: Open Agentic Intelligence (arXiv:2507.20534) | moonshotai/Kimi-K2-Instruct | MuonClip 优化器;1T MoE / 32B 激活,15.5T tokens 零损失尖峰 |
| 2026-02 | Kimi K2.5: Visual Agentic Intelligence (arXiv:2602.02276) | moonshotai/Kimi-K2.5 | 多模态 Agent;提出 Agent Swarm 自导向并行机制 |
线性 / 混合注意力架构的实践者;MiniMax-01 / M1 有完整论文,M2 系列转为 blog。
| 时间 | 论文 | HuggingFace | 关键贡献 |
|---|---|---|---|
| 2025-01 | MiniMax-01: Scaling Foundation Models with Lightning Attention (arXiv:2501.08313) | MiniMaxAI/MiniMax-Text-01 | 首个商业级线性注意力(Lightning Attention);456B MoE,4M context |
| 2025-06 | MiniMax-M1: Scaling Test-Time Compute Efficiently (arXiv:2506.13585) | MiniMaxAI/MiniMax-M1-80k | CISPO RL 算法;1M context,512 张 H800 三周完成 RL(成本约 $534K) |
| 2025-10+ | MiniMaxAI/MiniMax-M2.5 | 230B MoE / 10B 激活;Agent-native 设计 |
小米 LLM-Core 团队,聚焦小参数高推理与效率;论文节奏稳定,每代都开源权重。
| 时间 | 论文 | HuggingFace | 关键贡献 |
|---|---|---|---|
| 2025-05 | MiMo: Unlocking the Reasoning Potential of Language Model (arXiv:2505.07608) | XiaomiMiMo/MiMo-7B-RL | 7B 参数模型在数学 / 代码推理基准上超越多款 32B 模型 |
| 2025-06 | MiMo-VL Technical Report (arXiv:2506.03569) | XiaomiMiMo/MiMo-VL-7B-RL | 7B 视觉语言模型;视觉 Agent 能力与 GUI 导航 |
| 2026-01 | MiMo-V2-Flash Technical Report (arXiv:2601.02780) | XiaomiMiMo/MiMo-V2-Flash | 309B MoE / 15B 激活;SWA+全局混合注意力(5:1) |
OpenAI 自 GPT-2 之后首次开源模型权重。文档形式为 Model Card,非完整技术报告。
| 时间 | 论文 | HuggingFace | 关键贡献 |
|---|---|---|---|
| 2025-08 | openai/gpt-oss-120b · openai/gpt-oss-20b | MoE 推理模型(120B 总 / 5.1B 激活 · 20B 总 / 3.6B 激活);Apache 2.0;仅 Model Card,无完整训练细节 |
说明:OpenAI 历史上 GPT-1/2/3/4 论文均非权重开源;自 GPT-2 起直至 gpt-oss 均为闭源。
蚂蚁集团 AGI 研究品牌为 inclusionAI;Ring 是在 Ling 基础模型上构建的推理分支。
| 时间 | 论文 | HuggingFace | 关键贡献 |
|---|---|---|---|
| 2025-03 | Every FLOP Counts: Scaling a 300B MoE LING LLM without Premium GPUs (arXiv:2503.05139) | inclusionAI/Ling-plus · inclusionAI/Ling-lite | 在非顶级 GPU 上训练 290B MoE,报告训练成本降低约 20% |
| 2025-04 | Holistic Capability Preservation: Compact Reasoning Models (arXiv:2504.07158) | inclusionAI/Ring-lite-distill | 从 Ling-Lite 蒸馏出紧凑推理模型 |
| 2025-07 | Towards Greater Leverage: Scaling Laws for Efficient MoE LMs (arXiv:2507.17702) | — (方法论论文) | Ling Scaling Laws:MoE 专用缩放定律研究 |
| 2025-10 | Every Activation Boosted: Scaling General Reasoner to 1 Trillion Open Language Foundation (arXiv:2510.22115) | inclusionAI/Ling-1T · inclusionAI/Ling-flash-2.0 · inclusionAI/Ling-mini-2.0 | Ling 2.0 技术报告:Ling-1T 为当前最大规模完全开源推理基座;1/32 稀疏度 + FP8 训练 |
| 2026-02 | inclusionAI/Ling-2.5-1T | Ling-2.5-1T 1T / 63B 激活,预训练语料扩至 29T tokens;Ring-2.5-1T 采用混合线性注意力,IMO 2025 金牌级 |
美团 LongCat 团队自 2025-09 起 4 个月内发布 4 篇 arXiv,覆盖语言、全模态、图像、推理四个方向。
| 时间 | 论文 | HuggingFace | 关键贡献 |
|---|---|---|---|
| 2025-09 | LongCat-Flash Technical Report (arXiv:2509.01322) | meituan-longcat/LongCat-Flash-Chat | 560B MoE;Zero-Computation Experts 动态激活(18.6B–31.3B) |
| 2025-11 | LongCat-Flash-Omni Technical Report (arXiv:2511.00279) | meituan-longcat/LongCat-Flash-Omni | 560B 全模态模型(音频 + 视觉 + 文本实时) |
| 2025-12 | LongCat-Image Technical Report (arXiv:2512.07584) | meituan-longcat/LongCat-Image | 6B 文生图 / 图像编辑;双语文字渲染 SOTA |
| 2026-01 | LongCat-Flash-Thinking-2601 Technical Report (arXiv:2601.16725) | meituan-longcat/LongCat-Flash-Thinking-2601 | 560B MoE 推理模型;BrowseComp 73.1% |
硬件厂商自研开源路线,强调硬件-算法协同设计(FP8 训练、Mamba 混合、合成数据)。
| 时间 | 论文 | HuggingFace | 关键贡献 |
|---|---|---|---|
| 2024-02 | Nemotron-4 15B Technical Report (arXiv:2402.16819) | nvidia/Nemotron-4-15B-Base | 15B 稠密模型,8T tokens,多语言覆盖 53 种 |
| 2024-06 | Nemotron-4 340B Technical Report (arXiv:2406.11704) | nvidia/Nemotron-4-340B-Instruct | 对齐数据中 98%+ 为合成数据;同步发布 Base / Instruct / Reward |
| 2025-04 | Nemotron-H: A Family of Hybrid Mamba-Transformer Models (arXiv:2504.03624) | nvidia/Nemotron-H-56B-Base-8K | Mamba + Transformer 混合架构;长序列下推理加速约 3× |
| 2025-05 | Llama-Nemotron: Efficient Reasoning Models (arXiv:2505.00949) | nvidia/Llama-3.1-Nemotron-Ultra-253B-v1 | 在 Llama 3.1 基础上做推理增强(最大 253B) |
| 2025-12 | NVIDIA Nemotron 3: Efficient and Open Intelligence (arXiv:2512.20856) | nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16 | Nano / Super / Ultra 家族;Mamba-Transformer 混合 MoE,上下文 1M;NVFP4 训练 + LatentMoE |
仅 Grok-1(314B MoE)于 2024-03 公开权重,之后 Grok-2/3/4 全部转为闭源 API。
| 时间 | 论文 | HuggingFace | 关键贡献 |
|---|---|---|---|
| 2024-03 | ❌ Grok-1 Model Card(无 arXiv) | xai-org/grok-1 | 314B MoE 权重公开,Apache 2.0;官方仅发布 Model Card |
说明:Grok-1 是单次开源事件;Grok-2 起 xAI 转向闭源 API 路线。
Fully-open 路线代表:除权重外,同步开源完整训练数据(Dolma)、代码、训练日志、中间检查点。
| 时间 | 论文 | HuggingFace | 关键贡献 |
|---|---|---|---|
| 2024-02 | OLMo: Accelerating the Science of Language Models (arXiv:2402.00838) | allenai/OLMo-7B | 首款 fully-open 大语言模型;配套 Dolma 数据集与 OLMo 训练框架 |
| 2025-01 | 2 OLMo 2 Furious (arXiv:2501.00656) | allenai/OLMo-2-0325-32B-Instruct | 7B / 13B / 32B;引入 Tülu 3 后训练流程与 RLVR |
| 2025-12 | Olmo 3 (arXiv:2512.13961) · Ai2 博客首发 2025-11-20 | allenai/Olmo-3-32B-Think · allenai/Olmo-3-7B-Instruct | 当前最强 fully-open 推理模型(32B Think);完整 model flow:Dolma 3(9.3T tokens)+ 全部中间检查点 |
说明:Ai2(Allen Institute for AI)是由 Paul Allen 创立的非营利研究机构,OLMo 是学术透明度的代表性项目。
聚焦 Model-System Co-design(模型-系统协同设计),每篇论文都强调硬件感知的架构选择与推理成本。
| 时间 | 论文 | HuggingFace | 关键贡献 |
|---|---|---|---|
| 2025-07 | Step-3 is Large yet Affordable: Model-system Co-design for Cost-effective Decoding (arXiv:2507.19427) | stepfun-ai/step3 | 321B MoE VLM / 38B 激活;MFA(Multi-Matrix Factorization Attention)+ AFD(Attention-FFN Disaggregation)推理架构 |
| 2026-01 | STEP3-VL-10B Technical Report (arXiv:2601.09668) | stepfun-ai/Step3-VL-10B | 10B VLM(PE-lang 1.8B 视觉编码器 + Qwen3-8B 解码器);引入 PaCoRe(Parallel Coordinated Reasoning)并行推理 |
| 2026-02 | Step 3.5 Flash: Open Frontier-Level Intelligence with 11B Active Parameters (arXiv:2602.10604) | stepfun-ai/Step-3.5-Flash | 196B MoE / 11B 激活;SWA + 全局注意力 3:1 + MTP-3;85.4% IMO-AnswerBench,88.2% τ²-Bench |
说明:StepFun 另有 Step-GUI、Step Deep Research 等多个专项论文,本表仅列出基础语言模型主线。
以下公司的旗舰模型以闭源 API 为主,但仍多发布较完整的技术报告或 System Card。其中 Apple / Amazon / Cohere / ByteDance / Baidu / Tencent 属于"混合路线"——小尺寸或上一代权重部分公开,旗舰闭源。
| # | 公司 | 系列 | 论文/卡片数 | 首篇 | 最新 | 透明度档位 |
|---|---|---|---|---|---|---|
| B1 | 🇺🇸 OpenAI(旗舰闭源) | GPT-3 / GPT-4 / GPT-4o / o1 / GPT-5 | 5 (含 2 System Card) | 2020-05 | 2026-01 | 档位 2 |
| B2 | 🇺🇸 Anthropic | Claude 1 → Claude Opus 4.7 | 1 论文 + 多份 System Card | 2022-12 | 2026-04 | 档位 3 |
| B3 | 🇺🇸 Google DeepMind(Gemini 闭源线) | Gemini 1 / 1.5 / 2.5 / 3 | 3 + 1 Model Card | 2023-12 | 2025-11 | 档位 1 |
| B4 | 🇺🇸 xAI(Grok-2+ 闭源线) | Grok-2 / 3 / 4 / 4.1 / 4 Fast | 0 + 多份 Model Card | 2024-08 | 2025-11 | 档位 3 |
| B5 | 🇺🇸 Apple | AFM 2024 / AFM 2025 | 2 | 2024-07 | 2025-07 | 档位 1(含端侧开源) |
| B6 | 🇺🇸 Amazon | Amazon Nova / Nova Premier / Nova 2.0 | 3 | 2024-12 | 2026-01 | 档位 2 |
| B7 | 🇨🇦 Cohere | Command R / R+ / A / A Reasoning | 1 + blog | 2024-07 | 2025-04 | 档位 1(研究权重 CC-BY-NC) |
| B8 | 🇨🇳 ByteDance Seed(豆包 / Doubao) | Seed-Thinking-v1.5 / Doubao 1.5 / 1.6 | 1 + blog | 2025-04 | 2025-10 | 档位 2 |
| B9 | 🇨🇳 Baidu 文心(百度 ERNIE) | ERNIE 4.5 / ERNIE 5.0 | 2 | 2025-07 | 2026-02 | 档位 1(含部分开源) |
| B10 | 🇨🇳 Tencent 混元(腾讯 Hunyuan) | Hunyuan-Large / TurboS | 2 | 2024-11 | 2025-05 | 档位 1(含部分开源) |
| B11 | 🇺🇸 Microsoft AI(MAI) | MAI-1-preview / MAI-Voice-1 | 0(仅 blog) | 2025-08 | 2025-08 | 档位 3 |
更小众 / 已被收购的公司(Reka AI、Inflection AI、AI21 Labs)见"📎 其他值得关注"。
闭源 / 混合路线旗舰的访问方式与当前(2026-04)对外报价。价格列为 USD / 1M tokens(输入 / 输出),缓存折扣不纳入。
| # | 机构 | 当前旗舰 | 架构 | 参数 | Ctx | License / 权重 | 访问 | 价格(I/O) |
|---|---|---|---|---|---|---|---|---|
| B1 | OpenAI | GPT-5(gpt-5-thinking + gpt-5-main) | MoE(非公开) | 非公开 | 400K | 闭源 | ChatGPT · API | 官方报价 |
| B2 | Anthropic | Claude Opus 4.7 | 非公开 | 非公开 | 200K | 闭源 | Claude.ai · API · Bedrock · Vertex · Foundry | $5 / $25 |
| B2b | Anthropic | Claude Sonnet 4.6 | 非公开 | 非公开 | 1M (beta) | 闭源 | ↑ | $3 / $15 |
| B3 | Google DeepMind | Gemini 3 Pro | Sparse MoE | 非公开 | 1M+ | 闭源 | Gemini App · Vertex AI | 官方报价 |
| B4 | xAI | Grok 4.1 | 非公开 | 非公开 | 256K | 闭源 | X / Grok API | 官方报价 |
| B5 | Apple | AFM-Server 2025 | PT-MoE | 非公开(端侧 ~3B) | 65K | 端侧调用(Foundation Models FW) | iOS / macOS | 端侧免费 |
| B6 | Amazon | Nova Premier / 2.0 Lite | 非公开 | 非公开 | 1M | 闭源 | AWS Bedrock | AWS 报价 |
| B7 | Cohere | Command A | 稠密 Hybrid | 111B | 256K | CC-BY-NC 4.0(研究权重开放) | Cohere API · c4ai-command-a | 官方报价 |
| B8 | ByteDance Seed | Doubao 1.6 / Seed-Thinking v1.5 | MoE | 200B / 20B | 256K | 闭源(论文权重未开) | 火山引擎 | 火山报价 |
| B9 | Baidu | ERNIE 5.0(A47B 旗舰) | 原生多模态 MoE | T / 47B 激活 | 128K | 混合(0.3B / A3B 子档 Apache-2.0) | 文心一言 · 千帆 | 千帆报价 |
| B10 | Tencent | Hunyuan-TurboS | Mamba-Transformer-FFN | 非公开 | 256K | 混合(Hunyuan-Large 389B 开源) | 腾讯云 | 腾讯云报价 |
| B11 | Microsoft AI | MAI-1-preview | MoE | 非公开(~15k H100 训练) | — | 闭源 | Copilot · Foundry | Azure 报价 |
提示:所有闭源厂商的价格、参数与上下文均可能调整,请以官方文档为准。价格列仅展示已公开数字(Claude Opus/Sonnet 明确披露),其余以"官方报价"替代以避免误导。
自 GPT-2 之后权重转闭源;GPT-3 / GPT-4 / o1 有 arXiv 论文,GPT-4o / o3-mini / DALL·E 等以 System Card 形式发布。本节仅覆盖旗舰闭源线;gpt-oss-120b / 20b 权重开源已列于 Part A #10。
| 时间 | 论文 / 卡片 | 访问方式 | 关键贡献 |
|---|---|---|---|
| 2020-05 | Language Models are Few-Shot Learners (arXiv:2005.14165) · NeurIPS 2020 | API 已下线 | GPT-3 首次揭示"规模涌现",175B 稠密 Transformer;首提 In-Context Learning |
| 2022-03 | Training language models to follow instructions with human feedback (arXiv:2203.02155) | API | InstructGPT / RLHF 奠基;PPO + 人类偏好对齐 |
| 2023-03 | GPT-4 Technical Report (arXiv:2303.08774) | ChatGPT / API | 多模态(图+文);架构 / 规模 / 数据细节完全保留,是"模糊技术报告"的起点 |
| 2024-05 | ChatGPT / API | 首个原生多模态(文/图/语音)端到端模型 | |
| 2024-12 | OpenAI o1 System Card (arXiv:2412.16720) | ChatGPT / API | 大规模 RL 激活 Chain-of-Thought;推理模型范式启动 |
| 2025-08 (arXiv v1: 2025-12-19) | OpenAI GPT-5 System Card (arXiv:2601.03267) | ChatGPT / API | 产品 2025-08 发布,arXiv System Card 于 2025-12 补发;统一 fast + deep reasoning 路由 |
2022 年 Constitutional AI 论文后,Claude 1–4.6 全部仅发布 System Card(PDF),未再在 arXiv 发表整模型训练细节。
| 时间 | 论文 / 卡片 | 访问方式 | 关键贡献 |
|---|---|---|---|
| 2022-12 | Constitutional AI: Harmlessness from AI Feedback (arXiv:2212.08073) | — | RLAIF / Constitutional AI 奠基;用模型自评代替人类标注 |
| 2024-03 | Claude.ai / API | Claude 3 Haiku / Sonnet / Opus 三档;Opus 首次明显对标 GPT-4 | |
| 2024-06 ~ 2025-02 | API | 引入 Computer Use、Extended Thinking | |
| 2025-05 | API | Opus 4 / Sonnet 4;Hybrid Reasoning;首次标注 ASL-3 | |
| 2025-09-29 | API | 长程 Agentic 编码;OSWorld 61.4%;ASL-3 | |
| 2025-11-24 | API | 引入 effort 参数;"最好对齐"的前沿模型 |
|
| 2025-12 ~ 2026-01 | API | 作为 Opus 4.5 之后的内部升级代号,与 Sonnet 4.6 同期存在 | |
| 2026-02-17 | API | 1M 上下文(beta);计算机使用能力再提升 | |
| 2026-04-16 | API / Bedrock / Vertex / Foundry | 截至 2026-04 Anthropic 最强通用模型;Cyber Verification Program 同步上线 |
与 Part A #2 Gemma(开源)并行的闭源旗舰。Gemini 1 / 1.5 / 2.5 在 arXiv 有完整技术报告,Gemini 2.0 / 3 仅以 Model Card 形式发布。
| 时间 | 论文 / 卡片 | 访问方式 | 关键贡献 |
|---|---|---|---|
| 2023-12 | Gemini: A Family of Highly Capable Multimodal Models (arXiv:2312.11805) | Gemini App / Vertex AI | Gemini 1.0(Ultra / Pro / Nano);首个原生多模态 Ultra |
| 2024-03 | Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context (arXiv:2403.05530) | API | 长上下文里程碑:1.5 Pro 支持 10M tokens 召回 |
| 2024-12 | API | Gemini 2.0 Flash / Flash-Lite;原生工具使用与 Agentic 能力 | |
| 2025-07 | Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities (arXiv:2507.06261) | API | 2.5 Pro / Flash;Deep Think;稀疏 MoE |
| 2025-11 | API | 目前 Google DeepMind 最强闭源模型 |
Grok-1(314B MoE)权重开源已列于 Part A #14;Grok-2 起全线闭源,仅发 Model Card。
| 时间 | 论文 / 卡片 | 访问方式 | 关键贡献 |
|---|---|---|---|
| 2024-08 | X / API | 首代 xAI 闭源模型 | |
| 2025-02 | X / API | 首次引入 Think / DeepSearch 能力 | |
| 2025-07 | X / API | 工具使用 + 实时搜索原生集成 | |
| 2025-09 | API | 低延迟版本 | |
| 2025-11 | API | 截至 2026-Q1 xAI 旗舰;Grok 5 在训练中 |
端侧 ~3B 模型部分开源(Core ML / Foundation Models framework 供开发者调用),云端 Server 模型闭源;两代均有完整 arXiv 技术报告。
| 时间 | 论文 | 访问方式 | 关键贡献 |
|---|---|---|---|
| 2024-07 | Apple Intelligence Foundation Language Models (arXiv:2407.21075) | iOS / macOS 端侧 + Private Cloud Compute | 端侧 3B(2-bit QAT)+ 服务器模型;首次强调隐私保护推理 |
| 2025-07 | Apple Intelligence Foundation Language Models: Tech Report 2025 (arXiv:2507.13575) | iOS / macOS + 开发者 Foundation Models Framework | PT-MoE(Parallel-Track MoE)架构;16 种语言;KV-cache sharing 端侧优化 |
Nova 于 2024-12 AWS re:Invent 首发,2025-06 发布合并后的 arXiv 技术报告;2026-01 对 Nova 2.0 Lite 发布安全评估。
| 时间 | 论文 / 卡片 | 访问方式 | 关键贡献 |
|---|---|---|---|
| 2024-12 | AWS Bedrock | Nova Micro / Lite / Pro / Premier;多模态 | |
| 2025-06 | The Amazon Nova Family of Models: Technical Report and Model Card (arXiv:2506.12103) | AWS Bedrock | 完整 arXiv 技术报告(含训练 / 评估 / 安全) |
| 2026-01 | Evaluating Nova 2.0 Lite under Amazon's Frontier Model Safety Framework (arXiv:2601.19134) | AWS Bedrock | Nova 2.0 Lite 安全评估;框架级 FMSF |
企业 RAG / 多语种领先厂商。Command A 起发布完整 arXiv 技术报告,并以 CC-BY-NC 研究许可开源 111B 权重。
| 时间 | 论文 / 卡片 | 访问方式 | 关键贡献 |
|---|---|---|---|
| 2024-07 ~ 2024-12 | Cohere API | 企业 RAG / Tool use 优化;35B / 104B | |
| 2025-04 | Command A: An Enterprise-Ready Large Language Model (arXiv:2504.00698) | CohereLabs/c4ai-command-a-03-2025 (CC-BY-NC) | 111B hybrid architecture;23 种商业语言;自精炼 + 模型合并 |
ByteDance Seed 团队维护 Doubao 产品线;Seed-Thinking-v1.5 论文公开思考模型训练细节,但 Doubao 1.5 / 1.6 / Seed-OSS(闭源 API)与多模态分支(Seed1.6-Vision 等)以 blog 发布。
| 时间 | 论文 / 卡片 | 访问方式 | 关键贡献 |
|---|---|---|---|
| 2025-04 | Seed-Thinking-v1.5: Advancing Superb Reasoning Models with Reinforcement Learning (arXiv:2504.13914) | 火山引擎 / Doubao API | 200B MoE / 20B 激活的思考模型;RL 细节披露 |
| 2025-06+ | Doubao App / 火山引擎 | ByteDance 旗舰产品模型;闭源 |
自 ERNIE 4.5 起小尺寸变体开源(0.3B-PT、A3B-PT 等),旗舰 A47B 仍闭源商业化;ERNIE 5.0 延续混合多模态路线。
| 时间 | 论文 | HuggingFace / 访问方式 | 关键贡献 |
|---|---|---|---|
| 2025-07 | ERNIE 4.5 Technical Report (arXiv:2507.07145) | baidu/ERNIE-4.5-0.3B-PT(Apache 2.0) | 10 个变体;多模态异构 MoE 预训练;A47B / A3B 双档 |
| 2026-02 | ERNIE 5.0 Technical Report (arXiv:2602.04705) | 文心一言 / 千帆平台 | 原生多模态;基于 ERNIE 4.5 基础设施解决多模态训练挑战 |
同时运营闭源商业化(混元 API)与开源权重(Hunyuan-Large 等)两条线。
| 时间 | 论文 | HuggingFace / 访问方式 | 关键贡献 |
|---|---|---|---|
| 2024-11 | Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent (arXiv:2411.02265) | tencent/Tencent-Hunyuan-Large | 389B MoE / 52B 激活;当时最大开源 Transformer MoE 之一 |
| 2025-05 | Hunyuan-TurboS: Advancing Large Language Models through Mamba-Transformer Synergy and Adaptive Chain-of-Thought (arXiv:2505.15431) | 腾讯云 API | Mamba2 + Transformer + FFN 混合;Adaptive CoT 动态推理 |
2025-08-28 首次公开发布自研基础模型,摆脱对 OpenAI 单一依赖;目前仅有 blog / Foundry 模型目录,无 arXiv 论文。
| 时间 | 论文 / 卡片 | 访问方式 | 关键贡献 |
|---|---|---|---|
| 2025-08 | Copilot / Azure Foundry | 首个 MAI 端到端训练的 MoE 基础模型;~15k H100 GPUs;同期 MAI-Voice-1 TTS(1 GPU/1 秒/1 分钟音频) |
| 公司 | 代表作 | 当前状态 |
|---|---|---|
| 🇺🇸 Reka AI | Reka Core / Flash / Edge (arXiv:2404.12387) · 2024-04 | 仍运营 API,关注度下降;最新旗舰未有公开论文 |
| 🇺🇸 Inflection AI | Inflection-2.5(2024-03 blog) | 团队核心已被 Microsoft 收编,Pi 产品停更 |
| 🇮🇱 AI21 Labs | Jamba (arXiv:2403.19887) · 2024-03 | Jamba 为 Mamba-Transformer 混合开源权重;Jurassic 旗舰闭源 |
| 🇨🇳 01.AI | Yi 系列 | 主打 open-weight,但 2025 年后论文频率下降 |
| 🇨🇳 Huawei 华为盘古 | Pangu Ultra MoE (arXiv:2505.04519) · 2025-05 | 718B 总参数 MoE,端云混合部署;部分权重开源 |
| 档位 | 定义 | 代表机构 |
|---|---|---|
| S | Fully-open(含训练数据、代码、日志) | Allen AI / Ai2(OLMo) |
| 1 | Open-weight + 每代完整 arXiv 技术报告 | DeepSeek · Alibaba · Google · Moonshot · Xiaomi · Ant Group · Meituan · NVIDIA · StepFun · Zhipu / Z.ai(GLM-5 回归 arXiv) |
| 2 | 基础系列有论文,旗舰交替采用 blog 发布 | Mistral AI · MiniMax |
| 3 | 仅 Model Card 或 blog,无完整技术报告 | Meta(Llama 4)· OpenAI(gpt-oss) |
| 4 | 无正式论文 | xAI(Grok-1) |
| 时间 | 主要事件 |
|---|---|
| 2021-03 | GLM(Zhipu / THUDM,中国最早的大模型开源论文之一) |
| 2023-02 | LLaMA 1(Meta 开源元年) |
| 2023-07 | Llama 2(首次允许商用) |
| 2023-09 | Qwen 1.0(Alibaba 入场) |
| 2023-10 | Mistral 7B(欧洲入场) |
| 2024-01 | DeepSeek LLM、Mixtral 8×7B |
| 2024-02 | Nemotron-4 15B、OLMo 1(NVIDIA & Ai2 入场) |
| 2024-03 | Gemma 1(Google)、Grok-1(xAI 单次开源) |
| 2024-07 | Qwen 2、Llama 3、Gemma 2、Mistral Large 2 |
| 2024-12 | DeepSeek-V3(训练成本 2.788M H800 GPU 小时)、Qwen 2.5 |
| 2025-01 | ⭐ DeepSeek-R1(纯 RL 推理范式)、Kimi k1.5、MiniMax-01、OLMo 2 |
| 2025-03 | Ant Ling(蚂蚁入场)、Gemma 3 |
| 2025-04 | Nemotron-H(Mamba-Transformer 混合)、Llama 4 Model Card |
| 2025-05 | Xiaomi MiMo(小米入场)、Qwen 3、Llama-Nemotron |
| 2025-07 | Kimi K2(MuonClip 优化器)、StepFun Step-3(阶跃入场) |
| 2025-08 | GLM-4.5、gpt-oss(OpenAI 首次开源权重) |
| 2025-09 | ⭐ Meituan LongCat-Flash(美团入场) |
| 2025-10 | Ant Ling-1T(当前最大 fully-open 推理基座) |
| 2025-12 | DeepSeek-V3.2(DSA 稀疏注意力)、OLMo 3、LongCat-Image、NVIDIA Nemotron 3 |
| 2026-01 | MiMo-V2-Flash、LongCat-Flash-Thinking-2601、Ministral 3、STEP3-VL-10B |
| 2026-02 | Kimi K2.5、Step 3.5 Flash、GLM-5(Z.ai 重回 arXiv)、Ant Ling-2.5-1T / Ring-2.5-1T(blog)、Claude Sonnet 4.6、ERNIE 5.0 |
| 2026-04 | GLM-5.1(754B MoE,blog)、Claude Opus 4.7 |
| 领域 | 代表论文 | 贡献 |
|---|---|---|
| 规模涌现 / ICL | OpenAI GPT-3 (2020-05) | 175B 稠密 Transformer 首次显露 few-shot / in-context learning |
| RLHF 奠基 | OpenAI InstructGPT (2022-03) | 建立"人类反馈 + PPO"标准对齐流程 |
| Constitutional AI / RLAIF | Anthropic CAI (2022-12) | 用 AI 反馈替代部分人类标注 |
| RL 推理范式 | DeepSeek-R1 (2025-01) | 首次在大规模 LLM 上验证纯 RL 激活链式推理;Nature 2025 |
| System Card + RL 推理 | OpenAI o1 (2024-12) | 工业界首个"推理模型"范式样板 |
| 长上下文 | Gemini 1.5 (2024-03) | 10M tokens 级别长上下文精准检索 |
| MoE 架构 | Mixtral 8×7B (2024-01) / DeepSeek-V3 (2024-12) | 开源 SMoE 的里程碑实现与成本优化范例 |
| 线性 / 混合注意力 | MiniMax-01 (2025-01) / Nemotron-H (2025-04) / Hunyuan-TurboS (2025-05) | 商业级线性注意力与 Mamba 混合架构 |
| 稀疏注意力 | DeepSeek V3.2 DSA (2025-12) / GLM-5.1 (2026-04) | 显著压缩长上下文推理成本 |
| Fully-open 方法论 | OLMo 系列 | 训练数据、代码、日志完全公开的标杆 |
| MoE Scaling Laws | Ant Ling Scaling Laws (2025-07) | MoE 架构专用缩放定律研究 |
| Model-System Co-design | StepFun Step-3 (2025-07) | 从硬件约束倒推模型架构设计 |
| Agentic 基础模型 | Kimi K2 / GLM-4.5 / LongCat-Flash / Claude 4 Opus | 不同路径的 Agent 原生模型设计 |
| 生态奠基 | Llama 2 / Llama 3 | 开源社区的参考实现与商业化基础 |
| 端侧 / 隐私 | Apple AFM (2024-07) | 2-bit QAT + 端云协同 Private Cloud Compute |
| 中国早期贡献 | GLM / GLM-130B | 2021-2022 年中国最早的大规模开源双语模型工作 |
数据采集自各模型官方技术报告 / 博客 / HuggingFace README(2026-04 访问)。跨家评测受 harness / effort 设置影响,仅作相对比较参考。
| 模型 | 发布 | SWE-Bench Verified | SWE-Bench Pro | AIME 2026 | HLE(w/ tools) | τ²-Bench | BrowseComp |
|---|---|---|---|---|---|---|---|
| GLM-5.1(blog) | 2026-04 | 63.5 | 58.4 | 95.3 | 52.3 | 70.6 | 68.0 |
| GLM-5 | 2026-02 | 56.2 | 55.1 | 95.4 | 50.4 | 69.2 | 62.0 |
| Kimi K2.5 | 2026-02 | 70.8 | 50.7 | 95.83 | 51.8 | 66.0 | 60.6 |
| DeepSeek-V3.2-Speciale | 2025-12 | — | — | 95.1 | 40.8 | 69.2 | 51.4 |
| MiMo-V2-Flash | 2026-01 | — | — | — | — | — | — |
| Step 3.5 Flash | 2026-02 | — | — | — | — | 88.2 | 69.0 |
| Claude Opus 4.7 | 2026-04 | — | — | — | — | — | — |
| Claude Opus 4.5 | 2025-11 | ~80 | 57.3 | — | — | — | — |
| Claude Sonnet 4.6 | 2026-02 | 77 → 82 | — | — | — | — | — |
| GPT-5 / GPT-5.4 | 2025-08 / 2026-Q1 | — | 57.7 | 98.7 | 39.8 | 72.9 | — |
| Gemini 3 Pro | 2025-11 | — | 54.2 | 98.2 | 45.0 | 67.1 | — |
| Llama 4 Maverick | 2025-04 | — | — | — | — | — | — |
基准释义:SWE-Bench Verified(真实 GitHub 软件工程问题 500 题,越高越好)· SWE-Bench Pro(工业级难度)· AIME 2026(美国数学邀请赛)· HLE = Humanity's Last Exam(学术前沿多学科推理)· τ²-Bench(客服多轮任务)· BrowseComp(网页浏览代理)。 "—" 表示该模型未正式披露该基准分数,或基准与模型发布时点不重叠。
部分机构的技术披露形式从完整 arXiv 报告逐渐转向 Model Card 或 blog,但也有厂商在旗舰换代时回归完整论文:
| 公司 | 演化路径 | 观察时点 |
|---|---|---|
| Meta | Llama 1–3 完整论文 → Llama 4 仅 Model Card(arXiv v1 已撤稿) | 2025-04 |
| Z.ai | GLM-4.5 完整论文 → GLM-4.6 / 4.7 blog → GLM-5 重回 arXiv 技术报告 → GLM-5.1 blog | 2025-09 → 2026-02 |
| Mistral | 7B / Mixtral 完整论文 → 旗舰 Large 系列仅 blog;Ministral 3 / Magistral 系列仍发论文 | 持续 |
| MiniMax | MiniMax-01 / M1 完整论文 → M2 系列 blog | 2025-10+ |
| xAI | Grok-1 开源权重 + Model Card → Grok-2+ 闭源 | 2024-08+ |
| Ant Group | Ling 2.0 完整论文 → Ling 2.5 / Ring 2.5 blog | 2026-02 |
| Anthropic | 2022-12 Constitutional AI 论文后,Claude 1 → Opus 4.7 全部仅发 System Card(PDF/HTML),从未再在 arXiv 发表完整训练细节 | 持续 |
| OpenAI | GPT-3 / InstructGPT 完整论文 → GPT-4 "模糊技术报告" → GPT-4o / o3-mini 仅 System Card → o1 / GPT-5 System Card 上 arXiv(但不含训练细节) | 持续 |
仅列出官方披露的训练成本。绝大多数厂商未公开此数据;下表按报告值原样摘录,不做归一化换算。
| 模型 | 参数 | 训练 tokens | 训练算力 | 公开成本 | 来源 |
|---|---|---|---|---|---|
| DeepSeek-V3 | 671B MoE / 37B A | 14.8T | 2.788M H800 小时 | ≈ $5.58M(按 $2/h 算) | arXiv:2412.19437 |
| MiniMax-M1 | 456B MoE | — | 512 × H800 × 3 周 | ≈ $534K | arXiv:2506.13585 |
| Kimi K2 | 1T MoE / 32B A | 15.5T | — | 零 loss spike(MuonClip) | arXiv:2507.20534 |
| Ling-plus | 290B MoE | — | 非顶级 GPU | 较基线降低 ≈ 20% | arXiv:2503.05139 |
| Microsoft MAI-1-preview | 非公开 | — | ~15k H100 | — | microsoft.ai blog |
| 公司 | 首次发布 | 技术定位 |
|---|---|---|
| Ant Group(蚂蚁 / inclusionAI) | 2025-03 | 非顶级 GPU 训 1T 参数;MoE Scaling Laws 方法论 |
| Xiaomi(小米 / LLM-Core) | 2025-05 | 小参数高推理;快速迭代 LM → VLM → 大 MoE |
| StepFun(阶跃星辰) | 2025-07 | Model-System Co-design;MFA 注意力与 AFD 推理 |
| Meituan(美团 / LongCat) | 2025-09 | 4 个月覆盖语言 → 全模态 → 图像 → 推理四方向 |
在 30+ 家机构、100+ 个模型中,如何选?以下决策路径基于公开权重可得性 + 许可证友好度 + 公开基准分数给出建议,仅作参考。
| 场景 | 首选(开源优先) | 闭源替代 |
|---|---|---|
| 通用对话 / 产品接入 | Qwen3-235B-A22B · GLM-5 · DeepSeek-V3.2 | Claude Sonnet 4.6 · Gemini 3 Pro · GPT-5 |
| 长程 Agentic 编码(SWE-Bench Pro) | GLM-5.1(58.4%)· Kimi K2.5 · DeepSeek-V3.2 | Claude Opus 4.7 · GPT-5 · Gemini 3 Pro |
| 数学 / 科学推理(IMO、AIME) | DeepSeek-V3.2-Speciale · Kimi K2.5 · Olmo 3 Think 32B | GPT-5-thinking · Gemini 3 Pro Deep Think |
| 长上下文 | Llama 4 Scout(10M)· Nemotron 3 Ultra(1M)· MiniMax-M2.5(1M) | Gemini 3 Pro(1M+)· Claude Sonnet 4.6(1M beta) |
| 边缘 / 端侧 | Gemma 3 4B · Ministral 3-3B · MiMo 7B · Olmo 3 7B | Apple AFM 端侧 3B |
| 工具调用 / MCP | Kimi K2.5 · GLM-5 · LongCat-Flash-Thinking | Claude Opus 4.7 · GPT-5(默认启用工具) |
| 商用 MoE 性价比 | DeepSeek-V3.2(MIT)· Qwen3(Apache-2.0)· GLM-5(MIT) | — |
| 完全可复现研究 | OLMo 3(数据+代码+检查点全开放) | — |
| 视觉 + 语言多模态 | Kimi K2.5 · STEP3-VL-10B · LongCat-Flash-Omni · MiMo-VL | Gemini 3 Pro · Claude Opus 4.7 · GPT-5 |
| 多语种 / RAG 企业 | Cohere Command A(111B,23 种语言)· Qwen3 | Gemini 3 Pro · Claude Opus 4.7 |
| 中文原生场景 | Qwen3 · DeepSeek-V3.2 · GLM-5 · Kimi K2.5 · ERNIE 4.5-PT | 豆包 1.6 · 混元 · 文心一言 |
| 图像生成(开源) | LongCat-Image(6B) | Midjourney · Runway |
- ✅ Apache-2.0 / MIT(最友好):Qwen3、DeepSeek-V3.2、GLM-5、gpt-oss、Olmo 3、Grok-1、MiMo-V2-Flash、Ministral 3、Ling-1T、LongCat-Flash、Step 3.5 Flash
⚠️ 定制开源许可(需阅读条款):Llama 4(Community License,MAU 限制)、Gemma 3(Gemma Terms)、Kimi K2(Modified MIT)、NVIDIA Nemotron 3- 🚫 非商用 / 研究权重:Cohere Command A(CC-BY-NC 4.0)
- 🔒 完全闭源:Claude、Gemini、GPT-5、Grok 2+、Doubao 闭源线、混元 TurboS
需要训练数据 / 代码 / 检查点 → OLMo 3(档位 S)
↓ No
需要完整 arXiv 技术报告 → DeepSeek / Qwen / Moonshot / GLM-5 / Ant / Meituan / Xiaomi / NVIDIA / StepFun / Apple / Baidu(档位 1)
↓ No
接受 blog / Model Card → Meta Llama 4 / OpenAI gpt-oss / MiniMax M2.5 / GLM-5.1(档位 2-3)
↓ No
仅需 API / 闭源 → Claude / Gemini / GPT-5 / Grok 4+
| 路线 | 代表机构 / 模型 |
|---|---|
| 标准 Transformer 稠密 / MoE | Meta · Alibaba · DeepSeek · Mistral · Moonshot · Xiaomi · Ant · Meituan · Zhipu |
| 线性 / 混合注意力 | MiniMax(Lightning Attention)· NVIDIA(Mamba-Transformer,Nemotron-H / 3)· StepFun(MFA)· Xiaomi(SWA + 全局 5:1)· Ant Group Ring-2.5-1T(混合线性)· AI21 Jamba(Mamba-Transformer)· Tencent Hunyuan-TurboS(Mamba2 + Transformer + FFN) |
| 稀疏注意力(新兴) | DeepSeek V3.2(DSA)· Z.ai GLM-5.1(DSA) |
| Fully-open 学术派 | Allen AI / Ai2(OLMo 1/2/3,含 Dolma 数据集、Tülu 3 后训练) |
| 小尺寸实用派(≤ 30B) | Google Gemma(2B–27B)· Mistral Ministral(3B–14B)· Xiaomi MiMo(7B)· Allen AI OLMo(7B–32B) · StepFun Step3-VL(10B)· Nemotron 3 Nano(30B / 3B A) |
| 工具 / Agent 原生 | Kimi K2 / K2.5(MuonClip + Agent Swarm)· GLM-4.5 / GLM-5(ARC + 异步 RL)· LongCat-Flash-Thinking(DORA + Heavy Thinking)· Claude Opus 4.x |
| 低比特 / 硬件原生训练 | NVIDIA Nemotron 3(NVFP4 + LatentMoE)· Ant Ling 2.0(FP8 训练) · Apple AFM(2-bit QAT 端侧) |
| Model-System Co-design | StepFun Step-3(MFA + AFD)· DeepSeek V3(FP8 训练 + DualPipe) |
| 新型优化器 | Moonshot MuonClip(Muon + QK-clip)· Ant Group Ling Scaling Laws(MoE 专属 scaling) |
- arXiv:所有论文编号、标题、提交日期均核对自 arXiv.org abstract 页面(逐条访问)
- HuggingFace:所有模型仓库 URL 均从对应机构官方 HF 组织页面或论文 / 官方博客内链接获取并访问确认
- 官方博客 / System Card:直接从公司域名(anthropic.com、openai.com、x.ai、z.ai、mistral.ai、microsoft.ai、amazon.science、deepmind.com 等)访问确认
- 时间列规则:
- 有 arXiv 论文的条目:使用 arXiv v1 提交月份
- 仅 blog / System Card:使用官方发布日期
- 产品发布与 arXiv 提交不一致时(例如 GPT-5 产品 2025-08 / arXiv 2025-12),以括号形式并列标注
- 排行榜参考(访问日期 2026-04):
- 访问 arXiv 论文:
https://arxiv.org/abs/<编号>(文档中所有链接均为可点击) - 访问 HuggingFace 模型:直接点击表格中的仓库链接
- HF Papers 聚合(按 arXiv 编号搜索即可):https://huggingface.co/papers
- 本文档收录 基础语言模型主线 论文与最重要的 System / Model Card,不含以下内容:
- 专项模型(如 Qwen-Math、DeepSeek-Coder、DeepSeek-Prover、MiMo-VL、Qwen3-Coder、GLM-4.6V 等专精分支)
- 评估基准论文(如 Tülu、OpenInstruct 等)
- 纯应用类论文(如 Step-GUI、Step Deep Research、Project Mariner 等)
- 语音 / 图像 / 视频独立生成模型的完整历代(仅选代表作,如 LongCat-Image、Qwen3.5-Omni)
- Part B 尚未覆盖:Midjourney、Runway、Stability AI、Suno、11Labs、Perplexity 等以非 LLM 或以产品为核心的 AI 公司
- 非公开技术文档的闭源模型(如部分政府 / 特定行业模型)不在收录范围
- 2026-04-21:完成全量 arXiv 编号与 HuggingFace 链接的二次核对;新增 Claude Opus 4.6 / 4.7 条目;补充 GPT-5 System Card 的 arXiv 提交日期与产品发布日期的错位说明;修正 Step-3 论文标题大小写;完善"数据来源与核对方法"的时间列规则;Anthropic / OpenAI 透明度演化观察新增两行。
如发现链接失效、arXiv 编号错误、遗漏新发布模型,或希望扩充 License 列 / GitHub 列,请在对应表格 PR 中注明:
- 机构 & 系列
- arXiv 编号(若有)或官方 blog URL
- HuggingFace 仓库(若有)
- 核心技术贡献(≤ 1 句)
- 核对日期
按 arXiv ID 升序,便于交叉检索。仅收录 Part A + Part B 正文表格内 arXiv 论文。
| arXiv ID | 标题简写 | 机构 | 时间 |
|---|---|---|---|
| 2005.14165 | GPT-3(Few-Shot Learners) | OpenAI | 2020-05 |
| 2103.10360 | GLM | Zhipu / THUDM | 2021-03 |
| 2203.02155 | InstructGPT | OpenAI | 2022-03 |
| 2210.02414 | GLM-130B | Zhipu | 2022-10 |
| 2212.08073 | Constitutional AI | Anthropic | 2022-12 |
| 2302.13971 | LLaMA 1 | Meta | 2023-02 |
| 2303.08774 | GPT-4 Technical Report | OpenAI | 2023-03 |
| 2307.09288 | Llama 2 | Meta | 2023-07 |
| 2309.16609 | Qwen | Alibaba | 2023-09 |
| 2310.06825 | Mistral 7B | Mistral | 2023-10 |
| 2312.11805 | Gemini 1.0 | 2023-12 | |
| 2401.02954 | DeepSeek LLM | DeepSeek | 2024-01 |
| 2401.04088 | Mixtral of Experts | Mistral | 2024-01 |
| 2402.00838 | OLMo 1 | Ai2 | 2024-02 |
| 2402.16819 | Nemotron-4 15B | NVIDIA | 2024-02 |
| 2403.05530 | Gemini 1.5 | 2024-03 | |
| 2403.08295 | Gemma 1 | 2024-03 | |
| 2403.19887 | Jamba | AI21 Labs | 2024-03 |
| 2404.12387 | Reka Core / Flash / Edge | Reka AI | 2024-04 |
| 2405.04434 | DeepSeek-V2(MLA) | DeepSeek | 2024-05 |
| 2406.11704 | Nemotron-4 340B | NVIDIA | 2024-06 |
| 2406.12793 | ChatGLM | Zhipu | 2024-06 |
| 2407.10671 | Qwen2 | Alibaba | 2024-07 |
| 2407.21075 | Apple AFM 2024 | Apple | 2024-07 |
| 2407.21783 | The Llama 3 Herd | Meta | 2024-07 |
| 2408.00118 | Gemma 2 | 2024-07 | |
| 2411.02265 | Hunyuan-Large | Tencent | 2024-11 |
| 2412.15115 | Qwen2.5 | Alibaba | 2024-12 |
| 2412.16720 | OpenAI o1 System Card | OpenAI | 2024-12 |
| 2412.19437 | DeepSeek-V3 | DeepSeek | 2024-12 |
| 2501.00656 | OLMo 2 | Ai2 | 2025-01 |
| 2501.08313 | MiniMax-01(Lightning Attn) | MiniMax | 2025-01 |
| 2501.12599 | Kimi k1.5 | Moonshot | 2025-01 |
| 2501.12948 | DeepSeek-R1 (Nature 645) | DeepSeek | 2025-01 |
| 2503.05139 | Ling(Every FLOP Counts) | Ant Group | 2025-03 |
| 2503.19786 | Gemma 3 | 2025-03 | |
| 2504.00698 | Command A | Cohere | 2025-04 |
| 2504.03624 | Nemotron-H | NVIDIA | 2025-04 |
| 2504.07158 | Ring-lite(Compact Reasoning) | Ant Group | 2025-04 |
| 2504.13914 | Seed-Thinking v1.5 | ByteDance | 2025-04 |
| 2505.00949 | Llama-Nemotron | NVIDIA | 2025-05 |
| 2505.04519 | Pangu Ultra MoE | Huawei | 2025-05 |
| 2505.07608 | MiMo(Xiaomi 首款) | Xiaomi | 2025-05 |
| 2505.09388 | Qwen3 | Alibaba | 2025-05 |
| 2505.15431 | Hunyuan-TurboS | Tencent | 2025-05 |
| 2506.03569 | MiMo-VL | Xiaomi | 2025-06 |
| 2506.10910 | Magistral | Mistral | 2025-06 |
| 2506.12103 | Amazon Nova(arXiv 版) | Amazon | 2025-06 |
| 2506.13585 | MiniMax-M1 | MiniMax | 2025-06 |
| 2507.06261 | Gemini 2.5 | 2025-07 | |
| 2507.07145 | ERNIE 4.5 | Baidu | 2025-07 |
| 2507.13575 | Apple AFM 2025(PT-MoE) | Apple | 2025-07 |
| 2507.17702 | Ling Scaling Laws | Ant Group | 2025-07 |
| 2507.19427 | Step-3 | StepFun | 2025-07 |
| 2507.20534 | Kimi K2 | Moonshot | 2025-07 |
| 2508.06471 | GLM-4.5(ARC) | Z.ai | 2025-08 |
| 2508.10925 | gpt-oss-120b / 20b Card | OpenAI | 2025-08 |
| 2509.01322 | LongCat-Flash | Meituan | 2025-09 |
| 2510.22115 | Ling-1T / Ling 2.0 | Ant Group | 2025-10 |
| 2511.00279 | LongCat-Flash-Omni | Meituan | 2025-11 |
| 2512.02556 | DeepSeek-V3.2(DSA) | DeepSeek | 2025-12 |
| 2512.07584 | LongCat-Image | Meituan | 2025-12 |
| 2512.13961 | Olmo 3 | Ai2 | 2025-12 |
| 2512.20856 | Nemotron 3 | NVIDIA | 2025-12 |
| 2601.02780 | MiMo-V2-Flash | Xiaomi | 2026-01 |
| 2601.03267 | GPT-5 System Card | OpenAI | 2026-01(产品 2025-08) |
| 2601.08584 | Ministral 3 | Mistral | 2026-01 |
| 2601.09668 | STEP3-VL-10B | StepFun | 2026-01 |
| 2601.16725 | LongCat-Flash-Thinking-2601 | Meituan | 2026-01 |
| 2601.19134 | Nova 2.0 Lite 安全评估 | Amazon | 2026-01 |
| 2602.02276 | Kimi K2.5 | Moonshot | 2026-02 |
| 2602.04705 | ERNIE 5.0 | Baidu | 2026-02 |
| 2602.10604 | Step 3.5 Flash | StepFun | 2026-02 |
| 2602.15763 | GLM-5 | Z.ai | 2026-02 |