Skip to content

Instantly share code, notes, and snippets.

@BIGBALLON
Created April 21, 2026 09:40
Show Gist options
  • Select an option

  • Save BIGBALLON/5b5a4d5a053c7e73484fabea0c0e2466 to your computer and use it in GitHub Desktop.

Select an option

Save BIGBALLON/5b5a4d5a053c7e73484fabea0c0e2466 to your computer and use it in GitHub Desktop.
LLM Technical Reports Landscape (2021–2026): 27 orgs × 70+ arXiv papers, with HuggingFace / GitHub / License / context / benchmarks. Open-weight + closed-API, fully cross-referenced.

主要大语言模型公司历代技术报告汇总(开源 + 闭源)


📖 术语说明

术语 定义
Open-weight(权重开源) 模型权重公开可下载、允许研究与商用,但训练数据 / 代码通常保留
Fully-open(完全开源) 除权重外,训练数据、训练代码、训练日志、中间检查点全部公开(典型代表:OLMo)
Closed / API-first(闭源) 权重不公开,仅通过 API / 产品提供,典型代表:OpenAI GPT 旗舰 / Anthropic Claude / Google Gemini 旗舰
Hybrid(混合路线) 小尺寸 / 上一代权重开源、最新旗舰闭源(典型代表:Baidu ERNIE、Tencent Hunyuan、Cohere Command)
Technical Report 正式发表于 arXiv / 会议 / 期刊的完整技术文档,含架构、数据、训练、评估细节
Model Card / System Card 仅包含模型说明、基本参数、评测与安全信息的简化文档,不包含完整训练细节

🟢 Part A. Open-weight / Fully-open 路线(16 家机构)

📊 总览(16 家机构)

# 公司 系列 论文数 首篇 最新 透明度档位
1 🇺🇸 Meta Llama 3 + 1 Card 2023-02 2025-04 档位 3
2 🇺🇸 Google DeepMind Gemma 3 2024-03 2025-03 档位 1
3 🇨🇳 Alibaba Qwen 4 2023-09 2025-05 档位 1
4 🇫🇷 Mistral AI Mistral / Mixtral / Magistral / Ministral 4 2023-10 2026-01 档位 2
5 🇨🇳 DeepSeek DeepSeek LLM / V2 / V3 / R1 / V3.2 5 2024-01 2025-12 档位 1
6 🇨🇳 Zhipu AI / Z.ai GLM / ChatGLM / GLM-4.5 / GLM-5 5 2021-03 2026-02 档位 1
7 🇨🇳 Moonshot AI Kimi k1.5 / K2 / K2.5 3 2025-01 2026-02 档位 1
8 🇨🇳 MiniMax MiniMax-01 / M1 2 2025-01 2025-06 档位 2
9 🇨🇳 Xiaomi MiMo / MiMo-VL / MiMo-V2-Flash 3 2025-05 2026-01 档位 1
10 🇺🇸 OpenAI gpt-oss-120b / 20b 1 Card 2025-08 2025-08 档位 3
11 🇨🇳 Ant Group (蚂蚁) Ling / Ring / Ling 2.0 / Ling 2.5 4 2025-03 2025-10 档位 1
12 🇨🇳 Meituan (美团) LongCat Flash / Omni / Image / Thinking 4 2025-09 2026-01 档位 1
13 🇺🇸 NVIDIA Nemotron-4 / Nemotron-H / Llama-Nemotron / Nemotron 3 5 2024-02 2025-12 档位 1
14 🇺🇸 xAI Grok-1 0 (仅 Card) 2024-03 2024-03 档位 4
15 🇺🇸 Allen AI / Ai2 OLMo / OLMo 2 / OLMo 3 3 2024-02 2025-12 档位 S
16 🇨🇳 StepFun (阶跃星辰) Step-3 / Step3-VL / Step 3.5 Flash 3 2025-07 2026-02 档位 1

透明度档位说明

  • 档位 S:Fully-open(含训练数据、代码、日志)
  • 档位 1:Open-weight + 每代完整 arXiv 技术报告
  • 档位 2:基础系列有论文,近期旗舰转为 blog 形式
  • 档位 3:仅 Model Card 或 blog,无完整技术报告
  • 档位 4:无正式论文

🎯 Part A 旗舰快查表(License · 规格 · 上下文 · 代码仓库)

每家机构最具代表性的当前旗舰权重。参数列格式:总参数 (T) / 激活 (A);稠密模型只列单个数字。Ctx 为官方声明的最大上下文长度。

# 机构 当前旗舰 架构 参数 (T/A) Ctx License GitHub HuggingFace
1 Meta Llama 4 Maverick MoE × 128E 400B / 17B 1M Llama 4 Community llama-models Maverick-17B-128E
1b Meta Llama 4 Scout MoE × 16E 109B / 17B 10M Llama 4 Community Scout-17B-16E
2 Google Gemma 3 27B IT 稠密 + SWA/全局 27B 128K Gemma Terms gemma gemma-3-27b-it
3 Alibaba Qwen3-235B-A22B MoE 235B / 22B 128K Apache-2.0 Qwen3 Qwen3-235B-A22B
4 Mistral Ministral 3-14B-Reasoning 稠密 14B 128K Apache-2.0 mistral-inference Ministral-3 Collection
5 DeepSeek DeepSeek-V3.2 MoE + DSA 671B / 37B 128K MIT DeepSeek-V3 DeepSeek-V3.2
6 Z.ai GLM-5 MoE 744B / 40B 128K MIT GLM-5 GLM-5
6b Z.ai GLM-5.1(blog) MoE + DSA 754B / 40B 200K MIT GLM-5.1
7 Moonshot Kimi K2.5 MoE (MLA) 1T / 32B 256K Modified MIT Kimi-K2 Kimi-K2.5
8 MiniMax MiniMax-M2.5(blog) MoE + Lightning Attn 230B / 10B 1M MiniMax M Use MiniMax-M1 MiniMax-M2.5
9 Xiaomi MiMo-V2-Flash MoE + SWA 5:1 309B / 15B 256K MIT MiMo MiMo-V2-Flash
10 OpenAI gpt-oss-120b MoE 120B / 5.1B 128K Apache-2.0 gpt-oss gpt-oss-120b
11 Ant Group Ling-1T MoE (1/32 稀疏) + FP8 1T / 50B 128K MIT Ling Ling-1T
12 Meituan LongCat-Flash-Thinking-2601 MoE + Zero-Comp Exp 560B / 18.6–31.3B 128K MIT LongCat-Flash LongCat-Flash-Thinking-2601
13 NVIDIA Nemotron 3 Ultra Mamba-Transformer MoE + NVFP4 未公开 / — 1M NVIDIA Open Model NeMo Nemotron-3-Nano-30B-A3B
14 xAI Grok-1 MoE × 8E 314B / ~86B 8K Apache-2.0 grok-1 grok-1
15 Ai2 Olmo 3 Think 32B 稠密(Fully-open) 32B 64K Apache-2.0 OLMo Olmo-3-32B-Think
16 StepFun Step 3.5 Flash MoE + SWA/全局 3:1 + MTP-3 196B / 11B 128K Apache-2.0 Step3 Step-3.5-Flash

License 速查

  • Apache-2.0 / MIT:商用最友好,无字段限制
  • Llama 4 Community / Gemma Terms:商用前请阅读条款(MAU 7 亿门槛、安全使用条款等)
  • Modified MIT(Kimi K2):基本同 MIT,额外要求 "Kimi K2" 在界面可见
  • MiniMax M Use:MiniMax 自有商业许可,个人研究与商用分级
  • NVIDIA Open Model License:允许商用,要求安全使用与合规披露

📁 各家公司详细信息

1. 🇺🇸 Meta(Llama 系列)

Llama 1–3 公开完整训练细节,是开源生态早期基石;Llama 4 起转为仅发 Model Card。

时间 论文 HuggingFace 关键贡献
2023-02 LLaMA: Open and Efficient Foundation Language Models (arXiv:2302.13971) (首发需申请,非官方转载存在) 首个大规模开源基础模型(7B–65B),13B 超越 GPT-3 175B
2023-07 Llama 2: Open Foundation and Fine-Tuned Chat Models (arXiv:2307.09288) meta-llama/Llama-2-70b-hf 首代可商用 Llama,引入 RLHF Chat 版本
2024-07 The Llama 3 Herd of Models (arXiv:2407.21783) meta-llama/Llama-3.1-405B 405B 旗舰,128K 上下文,多模态扩展
2025-04 ⚠️ Llama 4 Model Card(arXiv v1 已撤稿) meta-llama/Llama-4-Maverick-17B-128E · meta-llama/Llama-4-Scout-17B-16E Llama 首款 MoE + 原生多模态;Scout(109B 总 / 17B 激活 × 16E)支持 10M context;Maverick 400B / 17B × 128E

2. 🇺🇸 Google DeepMind(Gemma 系列)

将 Gemini 研究成果下沉到轻量级开源模型,专注 2B–27B 消费级部署场景。

时间 论文 HuggingFace 关键贡献
2024-03 Gemma: Open Models Based on Gemini Research and Technology (arXiv:2403.08295) google/gemma-7b 首代 Gemma(2B / 7B),Gemini 架构下沉
2024-07 Gemma 2: Improving Open Language Models at a Practical Size (arXiv:2408.00118) google/gemma-2-27b 局部 / 全局注意力交替 + 知识蒸馏(2B / 9B / 27B)
2025-03 Gemma 3 Technical Report (arXiv:2503.19786) google/gemma-3-27b-it 原生视觉输入 + 128K 上下文 + 多语言扩展(1B / 4B / 12B / 27B)

3. 🇨🇳 Alibaba(Qwen 系列)

中国开源模型中发表最密集的谱系之一,规模覆盖 0.5B 至 235B MoE。

时间 论文 HuggingFace 关键贡献
2023-09 Qwen Technical Report (arXiv:2309.16609) Qwen/Qwen-72B Qwen 首代(1.8B / 7B / 14B / 72B),中英双语
2024-07 Qwen2 Technical Report (arXiv:2407.10671) Qwen/Qwen2-72B 规模覆盖 0.5B–72B,首次发布大规模 MoE 变体(57B-A14B)
2024-12 Qwen2.5 Technical Report (arXiv:2412.15115) Qwen/Qwen2.5-72B-Instruct 72B 旗舰在多项基准上与 Llama 3-405B 接近;衍生 Math / Coder 专项
2025-05 Qwen3 Technical Report (arXiv:2505.09388) Qwen/Qwen3-235B-A22B 统一框架内支持 Thinking / Non-thinking 双模式切换

4. 🇫🇷 Mistral AI

欧洲开源主力,擅长 MoE 与小参数高效架构。旗舰 Large 系列仅 blog 发布,子系列保留完整论文。

时间 论文 HuggingFace 关键贡献
2023-10 Mistral 7B (arXiv:2310.06825) mistralai/Mistral-7B-v0.1 SWA(Sliding Window Attention)+ GQA;7B 在多项基准超越 Llama 2 13B
2024-01 Mixtral of Experts (arXiv:2401.04088) mistralai/Mixtral-8x7B-v0.1 首个高影响力开源 SMoE(8×7B),对标 GPT-3.5 / Llama 2 70B
2024-07 ⚠️ Mistral Large 2(blog) mistralai/Mistral-Large-Instruct-2407 123B 稠密模型;MRL 研究许可;数十种自然语言 + 80+ 编程语言
2025-06 Magistral (arXiv:2506.10910) mistralai/Magistral-Small-2506 Mistral 首款推理模型(Small 24B 开源 / Medium 闭源)+ 自研 RL 管线
2026-01 Ministral 3 (arXiv:2601.08584) mistralai/Ministral-3 Collection 级联蒸馏(Cascade Distillation)方法;3B / 8B / 14B 三档,每档含 Base / Instruct / Reasoning 三变体,均支持图像输入,Apache 2.0

5. 🇨🇳 DeepSeek

开源权重阵营中发表最密集的团队之一,每代均附完整技术报告;R1 论文发表于 Nature。

时间 论文 HuggingFace 关键贡献
2024-01 DeepSeek LLM: Scaling Open-Source LM with Longtermism (arXiv:2401.02954) deepseek-ai/deepseek-llm-67b-base Scaling Law 实证修正;67B Base 在多项基准超越 Llama 2 70B
2024-05 DeepSeek-V2: A Strong, Economical and Efficient MoE LM (arXiv:2405.04434) deepseek-ai/DeepSeek-V2 MLA(Multi-head Latent Attention)首次提出,KV Cache 压缩 93.3%
2024-12 DeepSeek-V3 Technical Report (arXiv:2412.19437) deepseek-ai/DeepSeek-V3 671B MoE / 37B 激活,14.8T tokens,总训练用量 2.788M H800 GPU 小时
2025-01 DeepSeek-R1: Incentivizing Reasoning via RL (arXiv:2501.12948) · Nature 645, 633–638 (2025-09-17) deepseek-ai/DeepSeek-R1 论证无需人工推理标注,纯 RL 即可激活 LLM 的链式推理能力;基于 DeepSeek-V3 Base + GRPO
2025-12 DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models (arXiv:2512.02556) deepseek-ai/DeepSeek-V3.2 · deepseek-ai/DeepSeek-V3.2-Exp DSA(DeepSeek Sparse Attention);Speciale 变体在 IMO / IOI 2025 取得金牌

6. 🇨🇳 Zhipu AI / Z.ai(GLM 系列)

中国最早公开发布大语言模型论文的机构之一(2021 年起)。GLM-4.5 之后 GLM-4.6 / 4.7 仅以 blog 发布;2026-02 GLM-5 回归 arXiv 完整技术报告。

时间 论文 HuggingFace 关键贡献
2021-03 GLM: General Language Model Pretraining with Autoregressive Blank Infilling (arXiv:2103.10360) · ACL 2022 THUDM/glm-10b 用自回归空白填充统一 NLU / NLG / 条件生成三类任务
2022-10 GLM-130B: An Open Bilingual Pre-trained Model (arXiv:2210.02414) · ICLR 2023 (权重通过 GitHub 申请下载) 首批 100B+ 规模的中英双语开源预训练模型之一
2024-06 ChatGLM: A Family of LMs from GLM-130B to GLM-4 All Tools (arXiv:2406.12793) THUDM/chatglm3-6b · zai-org/glm-4-9b-chat 三代 ChatGLM + GLM-4 All Tools 工具调用能力
2025-08 GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models (arXiv:2508.06471) zai-org/GLM-4.5 355B MoE / 32B 激活,Hybrid Reasoning 双模式
2025-09 ~ 2025-12 ⚠️ GLM-4.6 / 4.7(blog) zai-org/GLM-4.6 沿用 GLM-4.5 架构增量迭代,未发布独立技术报告
2026-02 GLM-5: from Vibe Coding to Agentic Engineering (arXiv:2602.15763) zai-org/GLM-5 744B MoE / 40B 激活;面向长程 Agentic 工程,预训练语料再翻倍
2026-04 ⚠️ GLM-5.1(blog) 754B MoE + DSA 稀疏注意力;SWE-Bench Pro SOTA(58.4%),支持 8 小时自主执行

7. 🇨🇳 Moonshot AI(Kimi 系列)

2025 年起快速迭代,在优化器、Agent 等方向有独立技术贡献。k1.5 权重未公开,K2 / K2.5 开源。

时间 论文 HuggingFace 关键贡献
2025-01 Kimi k1.5: Scaling Reinforcement Learning with LLMs (arXiv:2501.12599) (GitHub 仅发 paper) Long-CoT RL + 128K 上下文 + 多模态联合训练
2025-07 Kimi K2: Open Agentic Intelligence (arXiv:2507.20534) moonshotai/Kimi-K2-Instruct MuonClip 优化器;1T MoE / 32B 激活,15.5T tokens 零损失尖峰
2026-02 Kimi K2.5: Visual Agentic Intelligence (arXiv:2602.02276) moonshotai/Kimi-K2.5 多模态 Agent;提出 Agent Swarm 自导向并行机制

8. 🇨🇳 MiniMax

线性 / 混合注意力架构的实践者;MiniMax-01 / M1 有完整论文,M2 系列转为 blog。

时间 论文 HuggingFace 关键贡献
2025-01 MiniMax-01: Scaling Foundation Models with Lightning Attention (arXiv:2501.08313) MiniMaxAI/MiniMax-Text-01 首个商业级线性注意力(Lightning Attention);456B MoE,4M context
2025-06 MiniMax-M1: Scaling Test-Time Compute Efficiently (arXiv:2506.13585) MiniMaxAI/MiniMax-M1-80k CISPO RL 算法;1M context,512 张 H800 三周完成 RL(成本约 $534K)
2025-10+ ⚠️ MiniMax M2 / M2.1 / M2.5(blog) MiniMaxAI/MiniMax-M2.5 230B MoE / 10B 激活;Agent-native 设计

9. 🇨🇳 Xiaomi(MiMo 系列)

小米 LLM-Core 团队,聚焦小参数高推理与效率;论文节奏稳定,每代都开源权重。

时间 论文 HuggingFace 关键贡献
2025-05 MiMo: Unlocking the Reasoning Potential of Language Model (arXiv:2505.07608) XiaomiMiMo/MiMo-7B-RL 7B 参数模型在数学 / 代码推理基准上超越多款 32B 模型
2025-06 MiMo-VL Technical Report (arXiv:2506.03569) XiaomiMiMo/MiMo-VL-7B-RL 7B 视觉语言模型;视觉 Agent 能力与 GUI 导航
2026-01 MiMo-V2-Flash Technical Report (arXiv:2601.02780) XiaomiMiMo/MiMo-V2-Flash 309B MoE / 15B 激活;SWA+全局混合注意力(5:1)

10. 🇺🇸 OpenAI(gpt-oss 系列)

OpenAI 自 GPT-2 之后首次开源模型权重。文档形式为 Model Card,非完整技术报告。

时间 论文 HuggingFace 关键贡献
2025-08 ⚠️ gpt-oss-120b & gpt-oss-20b Model Card (arXiv:2508.10925) openai/gpt-oss-120b · openai/gpt-oss-20b MoE 推理模型(120B 总 / 5.1B 激活 · 20B 总 / 3.6B 激活);Apache 2.0;仅 Model Card,无完整训练细节

说明:OpenAI 历史上 GPT-1/2/3/4 论文均非权重开源;自 GPT-2 起直至 gpt-oss 均为闭源。


11. 🇨🇳 Ant Group 蚂蚁集团(inclusionAI / Ling 团队)

蚂蚁集团 AGI 研究品牌为 inclusionAI;Ring 是在 Ling 基础模型上构建的推理分支。

时间 论文 HuggingFace 关键贡献
2025-03 Every FLOP Counts: Scaling a 300B MoE LING LLM without Premium GPUs (arXiv:2503.05139) inclusionAI/Ling-plus · inclusionAI/Ling-lite 在非顶级 GPU 上训练 290B MoE,报告训练成本降低约 20%
2025-04 Holistic Capability Preservation: Compact Reasoning Models (arXiv:2504.07158) inclusionAI/Ring-lite-distill 从 Ling-Lite 蒸馏出紧凑推理模型
2025-07 Towards Greater Leverage: Scaling Laws for Efficient MoE LMs (arXiv:2507.17702) (方法论论文) Ling Scaling Laws:MoE 专用缩放定律研究
2025-10 Every Activation Boosted: Scaling General Reasoner to 1 Trillion Open Language Foundation (arXiv:2510.22115) inclusionAI/Ling-1T · inclusionAI/Ling-flash-2.0 · inclusionAI/Ling-mini-2.0 Ling 2.0 技术报告:Ling-1T 为当前最大规模完全开源推理基座;1/32 稀疏度 + FP8 训练
2026-02 ⚠️ Ling-2.5-1T / Ring-2.5-1T(blog) inclusionAI/Ling-2.5-1T Ling-2.5-1T 1T / 63B 激活,预训练语料扩至 29T tokens;Ring-2.5-1T 采用混合线性注意力,IMO 2025 金牌级

12. 🇨🇳 Meituan 美团(LongCat 团队)

美团 LongCat 团队自 2025-09 起 4 个月内发布 4 篇 arXiv,覆盖语言、全模态、图像、推理四个方向。

时间 论文 HuggingFace 关键贡献
2025-09 LongCat-Flash Technical Report (arXiv:2509.01322) meituan-longcat/LongCat-Flash-Chat 560B MoE;Zero-Computation Experts 动态激活(18.6B–31.3B)
2025-11 LongCat-Flash-Omni Technical Report (arXiv:2511.00279) meituan-longcat/LongCat-Flash-Omni 560B 全模态模型(音频 + 视觉 + 文本实时)
2025-12 LongCat-Image Technical Report (arXiv:2512.07584) meituan-longcat/LongCat-Image 6B 文生图 / 图像编辑;双语文字渲染 SOTA
2026-01 LongCat-Flash-Thinking-2601 Technical Report (arXiv:2601.16725) meituan-longcat/LongCat-Flash-Thinking-2601 560B MoE 推理模型;BrowseComp 73.1%

13. 🇺🇸 NVIDIA(Nemotron 系列)

硬件厂商自研开源路线,强调硬件-算法协同设计(FP8 训练、Mamba 混合、合成数据)。

时间 论文 HuggingFace 关键贡献
2024-02 Nemotron-4 15B Technical Report (arXiv:2402.16819) nvidia/Nemotron-4-15B-Base 15B 稠密模型,8T tokens,多语言覆盖 53 种
2024-06 Nemotron-4 340B Technical Report (arXiv:2406.11704) nvidia/Nemotron-4-340B-Instruct 对齐数据中 98%+ 为合成数据;同步发布 Base / Instruct / Reward
2025-04 Nemotron-H: A Family of Hybrid Mamba-Transformer Models (arXiv:2504.03624) nvidia/Nemotron-H-56B-Base-8K Mamba + Transformer 混合架构;长序列下推理加速约 3×
2025-05 Llama-Nemotron: Efficient Reasoning Models (arXiv:2505.00949) nvidia/Llama-3.1-Nemotron-Ultra-253B-v1 在 Llama 3.1 基础上做推理增强(最大 253B)
2025-12 NVIDIA Nemotron 3: Efficient and Open Intelligence (arXiv:2512.20856) nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16 Nano / Super / Ultra 家族;Mamba-Transformer 混合 MoE,上下文 1M;NVFP4 训练 + LatentMoE

14. 🇺🇸 xAI(Grok 系列)

仅 Grok-1(314B MoE)于 2024-03 公开权重,之后 Grok-2/3/4 全部转为闭源 API。

时间 论文 HuggingFace 关键贡献
2024-03 Grok-1 Model Card(无 arXiv) xai-org/grok-1 314B MoE 权重公开,Apache 2.0;官方仅发布 Model Card

说明:Grok-1 是单次开源事件;Grok-2 起 xAI 转向闭源 API 路线。


15. 🇺🇸 Allen AI / Ai2(OLMo 系列)

Fully-open 路线代表:除权重外,同步开源完整训练数据(Dolma)、代码、训练日志、中间检查点。

时间 论文 HuggingFace 关键贡献
2024-02 OLMo: Accelerating the Science of Language Models (arXiv:2402.00838) allenai/OLMo-7B 首款 fully-open 大语言模型;配套 Dolma 数据集与 OLMo 训练框架
2025-01 2 OLMo 2 Furious (arXiv:2501.00656) allenai/OLMo-2-0325-32B-Instruct 7B / 13B / 32B;引入 Tülu 3 后训练流程与 RLVR
2025-12 Olmo 3 (arXiv:2512.13961) · Ai2 博客首发 2025-11-20 allenai/Olmo-3-32B-Think · allenai/Olmo-3-7B-Instruct 当前最强 fully-open 推理模型(32B Think);完整 model flow:Dolma 3(9.3T tokens)+ 全部中间检查点

说明:Ai2(Allen Institute for AI)是由 Paul Allen 创立的非营利研究机构,OLMo 是学术透明度的代表性项目。


16. 🇨🇳 StepFun 阶跃星辰(Step 系列)

聚焦 Model-System Co-design(模型-系统协同设计),每篇论文都强调硬件感知的架构选择与推理成本。

时间 论文 HuggingFace 关键贡献
2025-07 Step-3 is Large yet Affordable: Model-system Co-design for Cost-effective Decoding (arXiv:2507.19427) stepfun-ai/step3 321B MoE VLM / 38B 激活;MFA(Multi-Matrix Factorization Attention)+ AFD(Attention-FFN Disaggregation)推理架构
2026-01 STEP3-VL-10B Technical Report (arXiv:2601.09668) stepfun-ai/Step3-VL-10B 10B VLM(PE-lang 1.8B 视觉编码器 + Qwen3-8B 解码器);引入 PaCoRe(Parallel Coordinated Reasoning)并行推理
2026-02 Step 3.5 Flash: Open Frontier-Level Intelligence with 11B Active Parameters (arXiv:2602.10604) stepfun-ai/Step-3.5-Flash 196B MoE / 11B 激活;SWA + 全局注意力 3:1 + MTP-3;85.4% IMO-AnswerBench,88.2% τ²-Bench

说明:StepFun 另有 Step-GUI、Step Deep Research 等多个专项论文,本表仅列出基础语言模型主线。


🔒 Part B. 闭源 / API-first / 混合路线前沿 LLM 公司(11 家)

以下公司的旗舰模型以闭源 API 为主,但仍多发布较完整的技术报告或 System Card。其中 Apple / Amazon / Cohere / ByteDance / Baidu / Tencent 属于"混合路线"——小尺寸或上一代权重部分公开,旗舰闭源。

📊 Part B 总览(11 家机构)

# 公司 系列 论文/卡片数 首篇 最新 透明度档位
B1 🇺🇸 OpenAI(旗舰闭源) GPT-3 / GPT-4 / GPT-4o / o1 / GPT-5 5 (含 2 System Card) 2020-05 2026-01 档位 2
B2 🇺🇸 Anthropic Claude 1 → Claude Opus 4.7 1 论文 + 多份 System Card 2022-12 2026-04 档位 3
B3 🇺🇸 Google DeepMind(Gemini 闭源线) Gemini 1 / 1.5 / 2.5 / 3 3 + 1 Model Card 2023-12 2025-11 档位 1
B4 🇺🇸 xAI(Grok-2+ 闭源线) Grok-2 / 3 / 4 / 4.1 / 4 Fast 0 + 多份 Model Card 2024-08 2025-11 档位 3
B5 🇺🇸 Apple AFM 2024 / AFM 2025 2 2024-07 2025-07 档位 1(含端侧开源)
B6 🇺🇸 Amazon Amazon Nova / Nova Premier / Nova 2.0 3 2024-12 2026-01 档位 2
B7 🇨🇦 Cohere Command R / R+ / A / A Reasoning 1 + blog 2024-07 2025-04 档位 1(研究权重 CC-BY-NC)
B8 🇨🇳 ByteDance Seed(豆包 / Doubao) Seed-Thinking-v1.5 / Doubao 1.5 / 1.6 1 + blog 2025-04 2025-10 档位 2
B9 🇨🇳 Baidu 文心(百度 ERNIE) ERNIE 4.5 / ERNIE 5.0 2 2025-07 2026-02 档位 1(含部分开源)
B10 🇨🇳 Tencent 混元(腾讯 Hunyuan) Hunyuan-Large / TurboS 2 2024-11 2025-05 档位 1(含部分开源)
B11 🇺🇸 Microsoft AI(MAI) MAI-1-preview / MAI-Voice-1 0(仅 blog) 2025-08 2025-08 档位 3

更小众 / 已被收购的公司(Reka AI、Inflection AI、AI21 Labs)见"📎 其他值得关注"。


🎯 Part B 旗舰快查表(接入方式 · 规格 · 上下文 · 定价)

闭源 / 混合路线旗舰的访问方式与当前(2026-04)对外报价。价格列为 USD / 1M tokens(输入 / 输出),缓存折扣不纳入。

# 机构 当前旗舰 架构 参数 Ctx License / 权重 访问 价格(I/O)
B1 OpenAI GPT-5(gpt-5-thinking + gpt-5-main) MoE(非公开) 非公开 400K 闭源 ChatGPT · API 官方报价
B2 Anthropic Claude Opus 4.7 非公开 非公开 200K 闭源 Claude.ai · API · Bedrock · Vertex · Foundry $5 / $25
B2b Anthropic Claude Sonnet 4.6 非公开 非公开 1M (beta) 闭源 $3 / $15
B3 Google DeepMind Gemini 3 Pro Sparse MoE 非公开 1M+ 闭源 Gemini App · Vertex AI 官方报价
B4 xAI Grok 4.1 非公开 非公开 256K 闭源 X / Grok API 官方报价
B5 Apple AFM-Server 2025 PT-MoE 非公开(端侧 ~3B) 65K 端侧调用(Foundation Models FW) iOS / macOS 端侧免费
B6 Amazon Nova Premier / 2.0 Lite 非公开 非公开 1M 闭源 AWS Bedrock AWS 报价
B7 Cohere Command A 稠密 Hybrid 111B 256K CC-BY-NC 4.0(研究权重开放) Cohere API · c4ai-command-a 官方报价
B8 ByteDance Seed Doubao 1.6 / Seed-Thinking v1.5 MoE 200B / 20B 256K 闭源(论文权重未开) 火山引擎 火山报价
B9 Baidu ERNIE 5.0(A47B 旗舰) 原生多模态 MoE T / 47B 激活 128K 混合(0.3B / A3B 子档 Apache-2.0) 文心一言 · 千帆 千帆报价
B10 Tencent Hunyuan-TurboS Mamba-Transformer-FFN 非公开 256K 混合(Hunyuan-Large 389B 开源) 腾讯云 腾讯云报价
B11 Microsoft AI MAI-1-preview MoE 非公开(~15k H100 训练) 闭源 Copilot · Foundry Azure 报价

提示:所有闭源厂商的价格、参数与上下文均可能调整,请以官方文档为准。价格列仅展示已公开数字(Claude Opus/Sonnet 明确披露),其余以"官方报价"替代以避免误导。


B1. 🇺🇸 OpenAI(GPT 旗舰闭源线)

自 GPT-2 之后权重转闭源;GPT-3 / GPT-4 / o1 有 arXiv 论文,GPT-4o / o3-mini / DALL·E 等以 System Card 形式发布。本节仅覆盖旗舰闭源线;gpt-oss-120b / 20b 权重开源已列于 Part A #10。

时间 论文 / 卡片 访问方式 关键贡献
2020-05 Language Models are Few-Shot Learners (arXiv:2005.14165) · NeurIPS 2020 API 已下线 GPT-3 首次揭示"规模涌现",175B 稠密 Transformer;首提 In-Context Learning
2022-03 Training language models to follow instructions with human feedback (arXiv:2203.02155) API InstructGPT / RLHF 奠基;PPO + 人类偏好对齐
2023-03 GPT-4 Technical Report (arXiv:2303.08774) ChatGPT / API 多模态(图+文);架构 / 规模 / 数据细节完全保留,是"模糊技术报告"的起点
2024-05 ⚠️ GPT-4o System Card(blog) ChatGPT / API 首个原生多模态(文/图/语音)端到端模型
2024-12 OpenAI o1 System Card (arXiv:2412.16720) ChatGPT / API 大规模 RL 激活 Chain-of-Thought;推理模型范式启动
2025-08 (arXiv v1: 2025-12-19) OpenAI GPT-5 System Card (arXiv:2601.03267) ChatGPT / API 产品 2025-08 发布,arXiv System Card 于 2025-12 补发;统一 fast + deep reasoning 路由

B2. 🇺🇸 Anthropic(Claude 系列)

2022 年 Constitutional AI 论文后,Claude 1–4.6 全部仅发布 System Card(PDF),未再在 arXiv 发表整模型训练细节。

时间 论文 / 卡片 访问方式 关键贡献
2022-12 Constitutional AI: Harmlessness from AI Feedback (arXiv:2212.08073) RLAIF / Constitutional AI 奠基;用模型自评代替人类标注
2024-03 ⚠️ Claude 3 Model Card(PDF) Claude.ai / API Claude 3 Haiku / Sonnet / Opus 三档;Opus 首次明显对标 GPT-4
2024-06 ~ 2025-02 ⚠️ Claude 3.5 / 3.7 Sonnet System Card API 引入 Computer Use、Extended Thinking
2025-05 ⚠️ Claude 4 System Card(PDF) API Opus 4 / Sonnet 4;Hybrid Reasoning;首次标注 ASL-3
2025-09-29 ⚠️ Claude Sonnet 4.5 System Card API 长程 Agentic 编码;OSWorld 61.4%;ASL-3
2025-11-24 ⚠️ Claude Opus 4.5 System Card · Blog API 引入 effort 参数;"最好对齐"的前沿模型
2025-12 ~ 2026-01 ⚠️ Claude Opus 4.6(产品增量,未公开独立 System Card 入口) API 作为 Opus 4.5 之后的内部升级代号,与 Sonnet 4.6 同期存在
2026-02-17 ⚠️ Claude Sonnet 4.6 System Card · Blog API 1M 上下文(beta);计算机使用能力再提升
2026-04-16 ⚠️ Claude Opus 4.7 Blog API / Bedrock / Vertex / Foundry 截至 2026-04 Anthropic 最强通用模型;Cyber Verification Program 同步上线

B3. 🇺🇸 Google DeepMind(Gemini 闭源旗舰线)

与 Part A #2 Gemma(开源)并行的闭源旗舰。Gemini 1 / 1.5 / 2.5 在 arXiv 有完整技术报告,Gemini 2.0 / 3 仅以 Model Card 形式发布。

时间 论文 / 卡片 访问方式 关键贡献
2023-12 Gemini: A Family of Highly Capable Multimodal Models (arXiv:2312.11805) Gemini App / Vertex AI Gemini 1.0(Ultra / Pro / Nano);首个原生多模态 Ultra
2024-03 Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context (arXiv:2403.05530) API 长上下文里程碑:1.5 Pro 支持 10M tokens 召回
2024-12 ⚠️ Gemini 2.0 Model Card(blog) API Gemini 2.0 Flash / Flash-Lite;原生工具使用与 Agentic 能力
2025-07 Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities (arXiv:2507.06261) API 2.5 Pro / Flash;Deep Think;稀疏 MoE
2025-11 ⚠️ Gemini 3 Pro Model Card(PDF) API 目前 Google DeepMind 最强闭源模型

B4. 🇺🇸 xAI(Grok-2 之后的闭源线)

Grok-1(314B MoE)权重开源已列于 Part A #14;Grok-2 起全线闭源,仅发 Model Card。

时间 论文 / 卡片 访问方式 关键贡献
2024-08 ⚠️ Grok-2 blog X / API 首代 xAI 闭源模型
2025-02 ⚠️ Grok 3 blog X / API 首次引入 Think / DeepSearch 能力
2025-07 ⚠️ Grok 4 blog + Grok 4 Model Card (2025-08-20) X / API 工具使用 + 实时搜索原生集成
2025-09 ⚠️ Grok 4 Fast Model Card (2025-09-19) API 低延迟版本
2025-11 ⚠️ Grok 4.1 Model Card API 截至 2026-Q1 xAI 旗舰;Grok 5 在训练中

B5. 🇺🇸 Apple(Apple Intelligence Foundation Models)

端侧 ~3B 模型部分开源(Core ML / Foundation Models framework 供开发者调用),云端 Server 模型闭源;两代均有完整 arXiv 技术报告。

时间 论文 访问方式 关键贡献
2024-07 Apple Intelligence Foundation Language Models (arXiv:2407.21075) iOS / macOS 端侧 + Private Cloud Compute 端侧 3B(2-bit QAT)+ 服务器模型;首次强调隐私保护推理
2025-07 Apple Intelligence Foundation Language Models: Tech Report 2025 (arXiv:2507.13575) iOS / macOS + 开发者 Foundation Models Framework PT-MoE(Parallel-Track MoE)架构;16 种语言;KV-cache sharing 端侧优化

B6. 🇺🇸 Amazon(Nova / Titan)

Nova 于 2024-12 AWS re:Invent 首发,2025-06 发布合并后的 arXiv 技术报告;2026-01 对 Nova 2.0 Lite 发布安全评估。

时间 论文 / 卡片 访问方式 关键贡献
2024-12 ⚠️ Amazon Nova tech report & model card(原始 blog) AWS Bedrock Nova Micro / Lite / Pro / Premier;多模态
2025-06 The Amazon Nova Family of Models: Technical Report and Model Card (arXiv:2506.12103) AWS Bedrock 完整 arXiv 技术报告(含训练 / 评估 / 安全)
2026-01 Evaluating Nova 2.0 Lite under Amazon's Frontier Model Safety Framework (arXiv:2601.19134) AWS Bedrock Nova 2.0 Lite 安全评估;框架级 FMSF

B7. 🇨🇦 Cohere(Command 系列)

企业 RAG / 多语种领先厂商。Command A 起发布完整 arXiv 技术报告,并以 CC-BY-NC 研究许可开源 111B 权重。

时间 论文 / 卡片 访问方式 关键贡献
2024-07 ~ 2024-12 ⚠️ Command R / R+ blog Cohere API 企业 RAG / Tool use 优化;35B / 104B
2025-04 Command A: An Enterprise-Ready Large Language Model (arXiv:2504.00698) CohereLabs/c4ai-command-a-03-2025 (CC-BY-NC) 111B hybrid architecture;23 种商业语言;自精炼 + 模型合并

B8. 🇨🇳 ByteDance Seed(Doubao 豆包)

ByteDance Seed 团队维护 Doubao 产品线;Seed-Thinking-v1.5 论文公开思考模型训练细节,但 Doubao 1.5 / 1.6 / Seed-OSS(闭源 API)与多模态分支(Seed1.6-Vision 等)以 blog 发布。

时间 论文 / 卡片 访问方式 关键贡献
2025-04 Seed-Thinking-v1.5: Advancing Superb Reasoning Models with Reinforcement Learning (arXiv:2504.13914) 火山引擎 / Doubao API 200B MoE / 20B 激活的思考模型;RL 细节披露
2025-06+ ⚠️ Doubao 1.5-pro / 1.6 blog Doubao App / 火山引擎 ByteDance 旗舰产品模型;闭源

B9. 🇨🇳 Baidu 文心(百度 ERNIE)

自 ERNIE 4.5 起小尺寸变体开源(0.3B-PT、A3B-PT 等),旗舰 A47B 仍闭源商业化;ERNIE 5.0 延续混合多模态路线。

时间 论文 HuggingFace / 访问方式 关键贡献
2025-07 ERNIE 4.5 Technical Report (arXiv:2507.07145) baidu/ERNIE-4.5-0.3B-PT(Apache 2.0) 10 个变体;多模态异构 MoE 预训练;A47B / A3B 双档
2026-02 ERNIE 5.0 Technical Report (arXiv:2602.04705) 文心一言 / 千帆平台 原生多模态;基于 ERNIE 4.5 基础设施解决多模态训练挑战

B10. 🇨🇳 Tencent 混元(Hunyuan)

同时运营闭源商业化(混元 API)与开源权重(Hunyuan-Large 等)两条线。

时间 论文 HuggingFace / 访问方式 关键贡献
2024-11 Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent (arXiv:2411.02265) tencent/Tencent-Hunyuan-Large 389B MoE / 52B 激活;当时最大开源 Transformer MoE 之一
2025-05 Hunyuan-TurboS: Advancing Large Language Models through Mamba-Transformer Synergy and Adaptive Chain-of-Thought (arXiv:2505.15431) 腾讯云 API Mamba2 + Transformer + FFN 混合;Adaptive CoT 动态推理

B11. 🇺🇸 Microsoft AI(MAI)

2025-08-28 首次公开发布自研基础模型,摆脱对 OpenAI 单一依赖;目前仅有 blog / Foundry 模型目录,无 arXiv 论文。

时间 论文 / 卡片 访问方式 关键贡献
2025-08 ⚠️ MAI-1-preview & MAI-Voice-1(blog) Copilot / Azure Foundry 首个 MAI 端到端训练的 MoE 基础模型;~15k H100 GPUs;同期 MAI-Voice-1 TTS(1 GPU/1 秒/1 分钟音频)

📎 其他值得关注(非首发 / 已合并 / 数据有限)

公司 代表作 当前状态
🇺🇸 Reka AI Reka Core / Flash / Edge (arXiv:2404.12387) · 2024-04 仍运营 API,关注度下降;最新旗舰未有公开论文
🇺🇸 Inflection AI Inflection-2.5(2024-03 blog) 团队核心已被 Microsoft 收编,Pi 产品停更
🇮🇱 AI21 Labs Jamba (arXiv:2403.19887) · 2024-03 Jamba 为 Mamba-Transformer 混合开源权重;Jurassic 旗舰闭源
🇨🇳 01.AI Yi 系列 主打 open-weight,但 2025 年后论文频率下降
🇨🇳 Huawei 华为盘古 Pangu Ultra MoE (arXiv:2505.04519) · 2025-05 718B 总参数 MoE,端云混合部署;部分权重开源

🔍 分析与观察

📈 透明度四档分布

档位 定义 代表机构
S Fully-open(含训练数据、代码、日志) Allen AI / Ai2(OLMo)
1 Open-weight + 每代完整 arXiv 技术报告 DeepSeek · Alibaba · Google · Moonshot · Xiaomi · Ant Group · Meituan · NVIDIA · StepFun · Zhipu / Z.ai(GLM-5 回归 arXiv)
2 基础系列有论文,旗舰交替采用 blog 发布 Mistral AI · MiniMax
3 仅 Model Card 或 blog,无完整技术报告 Meta(Llama 4)· OpenAI(gpt-oss)
4 无正式论文 xAI(Grok-1)

🕒 发布时间线(2021-03 → 2026-02)

时间 主要事件
2021-03 GLM(Zhipu / THUDM,中国最早的大模型开源论文之一)
2023-02 LLaMA 1(Meta 开源元年)
2023-07 Llama 2(首次允许商用)
2023-09 Qwen 1.0(Alibaba 入场)
2023-10 Mistral 7B(欧洲入场)
2024-01 DeepSeek LLM、Mixtral 8×7B
2024-02 Nemotron-4 15B、OLMo 1(NVIDIA & Ai2 入场)
2024-03 Gemma 1(Google)、Grok-1(xAI 单次开源)
2024-07 Qwen 2、Llama 3、Gemma 2、Mistral Large 2
2024-12 DeepSeek-V3(训练成本 2.788M H800 GPU 小时)、Qwen 2.5
2025-01 DeepSeek-R1(纯 RL 推理范式)、Kimi k1.5、MiniMax-01、OLMo 2
2025-03 Ant Ling(蚂蚁入场)、Gemma 3
2025-04 Nemotron-H(Mamba-Transformer 混合)、Llama 4 Model Card
2025-05 Xiaomi MiMo(小米入场)、Qwen 3、Llama-Nemotron
2025-07 Kimi K2(MuonClip 优化器)、StepFun Step-3(阶跃入场)
2025-08 GLM-4.5、gpt-oss(OpenAI 首次开源权重)
2025-09 ⭐ Meituan LongCat-Flash(美团入场)
2025-10 Ant Ling-1T(当前最大 fully-open 推理基座)
2025-12 DeepSeek-V3.2(DSA 稀疏注意力)、OLMo 3、LongCat-Image、NVIDIA Nemotron 3
2026-01 MiMo-V2-Flash、LongCat-Flash-Thinking-2601、Ministral 3、STEP3-VL-10B
2026-02 Kimi K2.5、Step 3.5 Flash、GLM-5(Z.ai 重回 arXiv)、Ant Ling-2.5-1T / Ring-2.5-1T(blog)、Claude Sonnet 4.6、ERNIE 5.0
2026-04 GLM-5.1(754B MoE,blog)、Claude Opus 4.7

🏆 技术影响力具代表性的论文(按领域)

领域 代表论文 贡献
规模涌现 / ICL OpenAI GPT-3 (2020-05) 175B 稠密 Transformer 首次显露 few-shot / in-context learning
RLHF 奠基 OpenAI InstructGPT (2022-03) 建立"人类反馈 + PPO"标准对齐流程
Constitutional AI / RLAIF Anthropic CAI (2022-12) 用 AI 反馈替代部分人类标注
RL 推理范式 DeepSeek-R1 (2025-01) 首次在大规模 LLM 上验证纯 RL 激活链式推理;Nature 2025
System Card + RL 推理 OpenAI o1 (2024-12) 工业界首个"推理模型"范式样板
长上下文 Gemini 1.5 (2024-03) 10M tokens 级别长上下文精准检索
MoE 架构 Mixtral 8×7B (2024-01) / DeepSeek-V3 (2024-12) 开源 SMoE 的里程碑实现与成本优化范例
线性 / 混合注意力 MiniMax-01 (2025-01) / Nemotron-H (2025-04) / Hunyuan-TurboS (2025-05) 商业级线性注意力与 Mamba 混合架构
稀疏注意力 DeepSeek V3.2 DSA (2025-12) / GLM-5.1 (2026-04) 显著压缩长上下文推理成本
Fully-open 方法论 OLMo 系列 训练数据、代码、日志完全公开的标杆
MoE Scaling Laws Ant Ling Scaling Laws (2025-07) MoE 架构专用缩放定律研究
Model-System Co-design StepFun Step-3 (2025-07) 从硬件约束倒推模型架构设计
Agentic 基础模型 Kimi K2 / GLM-4.5 / LongCat-Flash / Claude 4 Opus 不同路径的 Agent 原生模型设计
生态奠基 Llama 2 / Llama 3 开源社区的参考实现与商业化基础
端侧 / 隐私 Apple AFM (2024-07) 2-bit QAT + 端云协同 Private Cloud Compute
中国早期贡献 GLM / GLM-130B 2021-2022 年中国最早的大规模开源双语模型工作

📊 前沿模型基准速览(2026-Q2)

数据采集自各模型官方技术报告 / 博客 / HuggingFace README(2026-04 访问)。跨家评测受 harness / effort 设置影响,仅作相对比较参考。

模型 发布 SWE-Bench Verified SWE-Bench Pro AIME 2026 HLE(w/ tools) τ²-Bench BrowseComp
GLM-5.1(blog) 2026-04 63.5 58.4 95.3 52.3 70.6 68.0
GLM-5 2026-02 56.2 55.1 95.4 50.4 69.2 62.0
Kimi K2.5 2026-02 70.8 50.7 95.83 51.8 66.0 60.6
DeepSeek-V3.2-Speciale 2025-12 95.1 40.8 69.2 51.4
MiMo-V2-Flash 2026-01
Step 3.5 Flash 2026-02 88.2 69.0
Claude Opus 4.7 2026-04
Claude Opus 4.5 2025-11 ~80 57.3
Claude Sonnet 4.6 2026-02 77 → 82
GPT-5 / GPT-5.4 2025-08 / 2026-Q1 57.7 98.7 39.8 72.9
Gemini 3 Pro 2025-11 54.2 98.2 45.0 67.1
Llama 4 Maverick 2025-04

基准释义:SWE-Bench Verified(真实 GitHub 软件工程问题 500 题,越高越好)· SWE-Bench Pro(工业级难度)· AIME 2026(美国数学邀请赛)· HLE = Humanity's Last Exam(学术前沿多学科推理)· τ²-Bench(客服多轮任务)· BrowseComp(网页浏览代理)。 "—" 表示该模型未正式披露该基准分数,或基准与模型发布时点不重叠。


📉 透明度演化观察(2024–2026)

部分机构的技术披露形式从完整 arXiv 报告逐渐转向 Model Card 或 blog,但也有厂商在旗舰换代时回归完整论文:

公司 演化路径 观察时点
Meta Llama 1–3 完整论文 → Llama 4 仅 Model Card(arXiv v1 已撤稿) 2025-04
Z.ai GLM-4.5 完整论文 → GLM-4.6 / 4.7 blog → GLM-5 重回 arXiv 技术报告 → GLM-5.1 blog 2025-09 → 2026-02
Mistral 7B / Mixtral 完整论文 → 旗舰 Large 系列仅 blog;Ministral 3 / Magistral 系列仍发论文 持续
MiniMax MiniMax-01 / M1 完整论文 → M2 系列 blog 2025-10+
xAI Grok-1 开源权重 + Model Card → Grok-2+ 闭源 2024-08+
Ant Group Ling 2.0 完整论文 → Ling 2.5 / Ring 2.5 blog 2026-02
Anthropic 2022-12 Constitutional AI 论文后,Claude 1 → Opus 4.7 全部仅发 System Card(PDF/HTML),从未再在 arXiv 发表完整训练细节 持续
OpenAI GPT-3 / InstructGPT 完整论文 → GPT-4 "模糊技术报告" → GPT-4o / o3-mini 仅 System Card → o1 / GPT-5 System Card 上 arXiv(但不含训练细节) 持续

💰 公开训练成本对比(可复现)

仅列出官方披露的训练成本。绝大多数厂商未公开此数据;下表按报告值原样摘录,不做归一化换算。

模型 参数 训练 tokens 训练算力 公开成本 来源
DeepSeek-V3 671B MoE / 37B A 14.8T 2.788M H800 小时 ≈ $5.58M(按 $2/h 算) arXiv:2412.19437
MiniMax-M1 456B MoE 512 × H800 × 3 周 ≈ $534K arXiv:2506.13585
Kimi K2 1T MoE / 32B A 15.5T 零 loss spike(MuonClip) arXiv:2507.20534
Ling-plus 290B MoE 非顶级 GPU 较基线降低 ≈ 20% arXiv:2503.05139
Microsoft MAI-1-preview 非公开 ~15k H100 microsoft.ai blog

🌱 2025 年度新进场机构

公司 首次发布 技术定位
Ant Group(蚂蚁 / inclusionAI) 2025-03 非顶级 GPU 训 1T 参数;MoE Scaling Laws 方法论
Xiaomi(小米 / LLM-Core) 2025-05 小参数高推理;快速迭代 LM → VLM → 大 MoE
StepFun(阶跃星辰) 2025-07 Model-System Co-design;MFA 注意力与 AFD 推理
Meituan(美团 / LongCat) 2025-09 4 个月覆盖语言 → 全模态 → 图像 → 推理四方向

🧭 选型决策指南(2026-Q2)

在 30+ 家机构、100+ 个模型中,如何选?以下决策路径基于公开权重可得性 + 许可证友好度 + 公开基准分数给出建议,仅作参考。

按使用场景

场景 首选(开源优先) 闭源替代
通用对话 / 产品接入 Qwen3-235B-A22B · GLM-5 · DeepSeek-V3.2 Claude Sonnet 4.6 · Gemini 3 Pro · GPT-5
长程 Agentic 编码(SWE-Bench Pro) GLM-5.1(58.4%)· Kimi K2.5 · DeepSeek-V3.2 Claude Opus 4.7 · GPT-5 · Gemini 3 Pro
数学 / 科学推理(IMO、AIME) DeepSeek-V3.2-Speciale · Kimi K2.5 · Olmo 3 Think 32B GPT-5-thinking · Gemini 3 Pro Deep Think
长上下文 Llama 4 Scout(10M)· Nemotron 3 Ultra(1M)· MiniMax-M2.5(1M) Gemini 3 Pro(1M+)· Claude Sonnet 4.6(1M beta)
边缘 / 端侧 Gemma 3 4B · Ministral 3-3B · MiMo 7B · Olmo 3 7B Apple AFM 端侧 3B
工具调用 / MCP Kimi K2.5 · GLM-5 · LongCat-Flash-Thinking Claude Opus 4.7 · GPT-5(默认启用工具)
商用 MoE 性价比 DeepSeek-V3.2(MIT)· Qwen3(Apache-2.0)· GLM-5(MIT)
完全可复现研究 OLMo 3(数据+代码+检查点全开放)
视觉 + 语言多模态 Kimi K2.5 · STEP3-VL-10B · LongCat-Flash-Omni · MiMo-VL Gemini 3 Pro · Claude Opus 4.7 · GPT-5
多语种 / RAG 企业 Cohere Command A(111B,23 种语言)· Qwen3 Gemini 3 Pro · Claude Opus 4.7
中文原生场景 Qwen3 · DeepSeek-V3.2 · GLM-5 · Kimi K2.5 · ERNIE 4.5-PT 豆包 1.6 · 混元 · 文心一言
图像生成(开源) LongCat-Image(6B) Midjourney · Runway

按许可证友好度

  • ✅ Apache-2.0 / MIT(最友好):Qwen3、DeepSeek-V3.2、GLM-5、gpt-oss、Olmo 3、Grok-1、MiMo-V2-Flash、Ministral 3、Ling-1T、LongCat-Flash、Step 3.5 Flash
  • ⚠️ 定制开源许可(需阅读条款):Llama 4(Community License,MAU 限制)、Gemma 3(Gemma Terms)、Kimi K2(Modified MIT)、NVIDIA Nemotron 3
  • 🚫 非商用 / 研究权重:Cohere Command A(CC-BY-NC 4.0)
  • 🔒 完全闭源:Claude、Gemini、GPT-5、Grok 2+、Doubao 闭源线、混元 TurboS

按透明度需求

需要训练数据 / 代码 / 检查点 → OLMo 3(档位 S)
               ↓ No
需要完整 arXiv 技术报告     → DeepSeek / Qwen / Moonshot / GLM-5 / Ant / Meituan / Xiaomi / NVIDIA / StepFun / Apple / Baidu(档位 1)
               ↓ No
接受 blog / Model Card      → Meta Llama 4 / OpenAI gpt-oss / MiniMax M2.5 / GLM-5.1(档位 2-3)
               ↓ No
仅需 API / 闭源             → Claude / Gemini / GPT-5 / Grok 4+

🔬 技术路线聚类

路线 代表机构 / 模型
标准 Transformer 稠密 / MoE Meta · Alibaba · DeepSeek · Mistral · Moonshot · Xiaomi · Ant · Meituan · Zhipu
线性 / 混合注意力 MiniMax(Lightning Attention)· NVIDIA(Mamba-Transformer,Nemotron-H / 3)· StepFun(MFA)· Xiaomi(SWA + 全局 5:1)· Ant Group Ring-2.5-1T(混合线性)· AI21 Jamba(Mamba-Transformer)· Tencent Hunyuan-TurboS(Mamba2 + Transformer + FFN)
稀疏注意力(新兴) DeepSeek V3.2(DSA)· Z.ai GLM-5.1(DSA
Fully-open 学术派 Allen AI / Ai2(OLMo 1/2/3,含 Dolma 数据集、Tülu 3 后训练)
小尺寸实用派(≤ 30B) Google Gemma(2B–27B)· Mistral Ministral(3B–14B)· Xiaomi MiMo(7B)· Allen AI OLMo(7B–32B) · StepFun Step3-VL(10B)· Nemotron 3 Nano(30B / 3B A)
工具 / Agent 原生 Kimi K2 / K2.5(MuonClip + Agent Swarm)· GLM-4.5 / GLM-5(ARC + 异步 RL)· LongCat-Flash-Thinking(DORA + Heavy Thinking)· Claude Opus 4.x
低比特 / 硬件原生训练 NVIDIA Nemotron 3(NVFP4 + LatentMoE)· Ant Ling 2.0(FP8 训练) · Apple AFM(2-bit QAT 端侧)
Model-System Co-design StepFun Step-3(MFA + AFD)· DeepSeek V3(FP8 训练 + DualPipe)
新型优化器 Moonshot MuonClip(Muon + QK-clip)· Ant Group Ling Scaling Laws(MoE 专属 scaling)

📚 附录

A. 数据来源与核对方法

  • arXiv:所有论文编号、标题、提交日期均核对自 arXiv.org abstract 页面(逐条访问)
  • HuggingFace:所有模型仓库 URL 均从对应机构官方 HF 组织页面或论文 / 官方博客内链接获取并访问确认
  • 官方博客 / System Card:直接从公司域名(anthropic.com、openai.com、x.ai、z.ai、mistral.ai、microsoft.ai、amazon.science、deepmind.com 等)访问确认
  • 时间列规则
    • 有 arXiv 论文的条目:使用 arXiv v1 提交月份
    • 仅 blog / System Card:使用官方发布日期
    • 产品发布与 arXiv 提交不一致时(例如 GPT-5 产品 2025-08 / arXiv 2025-12),以括号形式并列标注
  • 排行榜参考(访问日期 2026-04):

B. 使用说明

  • 访问 arXiv 论文:https://arxiv.org/abs/<编号>(文档中所有链接均为可点击)
  • 访问 HuggingFace 模型:直接点击表格中的仓库链接
  • HF Papers 聚合(按 arXiv 编号搜索即可):https://huggingface.co/papers

C. 已知范围限制

  • 本文档收录 基础语言模型主线 论文与最重要的 System / Model Card,不含以下内容:
    • 专项模型(如 Qwen-Math、DeepSeek-Coder、DeepSeek-Prover、MiMo-VL、Qwen3-Coder、GLM-4.6V 等专精分支)
    • 评估基准论文(如 Tülu、OpenInstruct 等)
    • 纯应用类论文(如 Step-GUI、Step Deep Research、Project Mariner 等)
    • 语音 / 图像 / 视频独立生成模型的完整历代(仅选代表作,如 LongCat-Image、Qwen3.5-Omni)
  • Part B 尚未覆盖:Midjourney、Runway、Stability AI、Suno、11Labs、Perplexity 等以非 LLM 或以产品为核心的 AI 公司
  • 非公开技术文档的闭源模型(如部分政府 / 特定行业模型)不在收录范围

D. 更新日志

  • 2026-04-21:完成全量 arXiv 编号与 HuggingFace 链接的二次核对;新增 Claude Opus 4.6 / 4.7 条目;补充 GPT-5 System Card 的 arXiv 提交日期与产品发布日期的错位说明;修正 Step-3 论文标题大小写;完善"数据来源与核对方法"的时间列规则;Anthropic / OpenAI 透明度演化观察新增两行。

E. 贡献方式

如发现链接失效、arXiv 编号错误、遗漏新发布模型,或希望扩充 License 列 / GitHub 列,请在对应表格 PR 中注明:

  1. 机构 & 系列
  2. arXiv 编号(若有)或官方 blog URL
  3. HuggingFace 仓库(若有)
  4. 核心技术贡献(≤ 1 句)
  5. 核对日期

F. 按 arXiv 编号一页速查

按 arXiv ID 升序,便于交叉检索。仅收录 Part A + Part B 正文表格内 arXiv 论文。

arXiv ID 标题简写 机构 时间
2005.14165 GPT-3(Few-Shot Learners) OpenAI 2020-05
2103.10360 GLM Zhipu / THUDM 2021-03
2203.02155 InstructGPT OpenAI 2022-03
2210.02414 GLM-130B Zhipu 2022-10
2212.08073 Constitutional AI Anthropic 2022-12
2302.13971 LLaMA 1 Meta 2023-02
2303.08774 GPT-4 Technical Report OpenAI 2023-03
2307.09288 Llama 2 Meta 2023-07
2309.16609 Qwen Alibaba 2023-09
2310.06825 Mistral 7B Mistral 2023-10
2312.11805 Gemini 1.0 Google 2023-12
2401.02954 DeepSeek LLM DeepSeek 2024-01
2401.04088 Mixtral of Experts Mistral 2024-01
2402.00838 OLMo 1 Ai2 2024-02
2402.16819 Nemotron-4 15B NVIDIA 2024-02
2403.05530 Gemini 1.5 Google 2024-03
2403.08295 Gemma 1 Google 2024-03
2403.19887 Jamba AI21 Labs 2024-03
2404.12387 Reka Core / Flash / Edge Reka AI 2024-04
2405.04434 DeepSeek-V2(MLA) DeepSeek 2024-05
2406.11704 Nemotron-4 340B NVIDIA 2024-06
2406.12793 ChatGLM Zhipu 2024-06
2407.10671 Qwen2 Alibaba 2024-07
2407.21075 Apple AFM 2024 Apple 2024-07
2407.21783 The Llama 3 Herd Meta 2024-07
2408.00118 Gemma 2 Google 2024-07
2411.02265 Hunyuan-Large Tencent 2024-11
2412.15115 Qwen2.5 Alibaba 2024-12
2412.16720 OpenAI o1 System Card OpenAI 2024-12
2412.19437 DeepSeek-V3 DeepSeek 2024-12
2501.00656 OLMo 2 Ai2 2025-01
2501.08313 MiniMax-01(Lightning Attn) MiniMax 2025-01
2501.12599 Kimi k1.5 Moonshot 2025-01
2501.12948 DeepSeek-R1 (Nature 645) DeepSeek 2025-01
2503.05139 Ling(Every FLOP Counts) Ant Group 2025-03
2503.19786 Gemma 3 Google 2025-03
2504.00698 Command A Cohere 2025-04
2504.03624 Nemotron-H NVIDIA 2025-04
2504.07158 Ring-lite(Compact Reasoning) Ant Group 2025-04
2504.13914 Seed-Thinking v1.5 ByteDance 2025-04
2505.00949 Llama-Nemotron NVIDIA 2025-05
2505.04519 Pangu Ultra MoE Huawei 2025-05
2505.07608 MiMo(Xiaomi 首款) Xiaomi 2025-05
2505.09388 Qwen3 Alibaba 2025-05
2505.15431 Hunyuan-TurboS Tencent 2025-05
2506.03569 MiMo-VL Xiaomi 2025-06
2506.10910 Magistral Mistral 2025-06
2506.12103 Amazon Nova(arXiv 版) Amazon 2025-06
2506.13585 MiniMax-M1 MiniMax 2025-06
2507.06261 Gemini 2.5 Google 2025-07
2507.07145 ERNIE 4.5 Baidu 2025-07
2507.13575 Apple AFM 2025(PT-MoE) Apple 2025-07
2507.17702 Ling Scaling Laws Ant Group 2025-07
2507.19427 Step-3 StepFun 2025-07
2507.20534 Kimi K2 Moonshot 2025-07
2508.06471 GLM-4.5(ARC) Z.ai 2025-08
2508.10925 gpt-oss-120b / 20b Card OpenAI 2025-08
2509.01322 LongCat-Flash Meituan 2025-09
2510.22115 Ling-1T / Ling 2.0 Ant Group 2025-10
2511.00279 LongCat-Flash-Omni Meituan 2025-11
2512.02556 DeepSeek-V3.2(DSA) DeepSeek 2025-12
2512.07584 LongCat-Image Meituan 2025-12
2512.13961 Olmo 3 Ai2 2025-12
2512.20856 Nemotron 3 NVIDIA 2025-12
2601.02780 MiMo-V2-Flash Xiaomi 2026-01
2601.03267 GPT-5 System Card OpenAI 2026-01(产品 2025-08)
2601.08584 Ministral 3 Mistral 2026-01
2601.09668 STEP3-VL-10B StepFun 2026-01
2601.16725 LongCat-Flash-Thinking-2601 Meituan 2026-01
2601.19134 Nova 2.0 Lite 安全评估 Amazon 2026-01
2602.02276 Kimi K2.5 Moonshot 2026-02
2602.04705 ERNIE 5.0 Baidu 2026-02
2602.10604 Step 3.5 Flash StepFun 2026-02
2602.15763 GLM-5 Z.ai 2026-02
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment