主要大语言模型公司历代技术报告汇总（开源 + 闭源）

📖 术语说明

术语	定义
Open-weight（权重开源）	模型权重公开可下载、允许研究与商用，但训练数据 / 代码通常保留
Fully-open（完全开源）	除权重外，训练数据、训练代码、训练日志、中间检查点全部公开（典型代表：OLMo）
Closed / API-first（闭源）	权重不公开，仅通过 API / 产品提供，典型代表：OpenAI GPT 旗舰 / Anthropic Claude / Google Gemini 旗舰
Hybrid（混合路线）	小尺寸 / 上一代权重开源、最新旗舰闭源（典型代表：Baidu ERNIE、Tencent Hunyuan、Cohere Command）
Technical Report	正式发表于 arXiv / 会议 / 期刊的完整技术文档，含架构、数据、训练、评估细节
Model Card / System Card	仅包含模型说明、基本参数、评测与安全信息的简化文档，不包含完整训练细节

🟢 Part A. Open-weight / Fully-open 路线（16 家机构）

📊 总览（16 家机构）

#	公司	系列	论文数	首篇	最新	透明度档位
1	🇺🇸 Meta	Llama	3 + 1 Card	2023-02	2025-04	档位 3
2	🇺🇸 Google DeepMind	Gemma	3	2024-03	2025-03	档位 1
3	🇨🇳 Alibaba	Qwen	4	2023-09	2025-05	档位 1
4	🇫🇷 Mistral AI	Mistral / Mixtral / Magistral / Ministral	4	2023-10	2026-01	档位 2
5	🇨🇳 DeepSeek	DeepSeek LLM / V2 / V3 / R1 / V3.2	5	2024-01	2025-12	档位 1
6	🇨🇳 Zhipu AI / Z.ai	GLM / ChatGLM / GLM-4.5 / GLM-5	5	2021-03	2026-02	档位 1
7	🇨🇳 Moonshot AI	Kimi k1.5 / K2 / K2.5	3	2025-01	2026-02	档位 1
8	🇨🇳 MiniMax	MiniMax-01 / M1	2	2025-01	2025-06	档位 2
9	🇨🇳 Xiaomi	MiMo / MiMo-VL / MiMo-V2-Flash	3	2025-05	2026-01	档位 1
10	🇺🇸 OpenAI	gpt-oss-120b / 20b	1 Card	2025-08	2025-08	档位 3
11	🇨🇳 Ant Group (蚂蚁)	Ling / Ring / Ling 2.0 / Ling 2.5	4	2025-03	2025-10	档位 1
12	🇨🇳 Meituan (美团)	LongCat Flash / Omni / Image / Thinking	4	2025-09	2026-01	档位 1
13	🇺🇸 NVIDIA	Nemotron-4 / Nemotron-H / Llama-Nemotron / Nemotron 3	5	2024-02	2025-12	档位 1
14	🇺🇸 xAI	Grok-1	0 (仅 Card)	2024-03	2024-03	档位 4
15	🇺🇸 Allen AI / Ai2	OLMo / OLMo 2 / OLMo 3	3	2024-02	2025-12	档位 S
16	🇨🇳 StepFun (阶跃星辰)	Step-3 / Step3-VL / Step 3.5 Flash	3	2025-07	2026-02	档位 1

透明度档位说明：

档位 S：Fully-open（含训练数据、代码、日志）
档位 1：Open-weight + 每代完整 arXiv 技术报告
档位 2：基础系列有论文，近期旗舰转为 blog 形式
档位 3：仅 Model Card 或 blog，无完整技术报告
档位 4：无正式论文

🎯 Part A 旗舰快查表（License · 规格 · 上下文 · 代码仓库）

每家机构最具代表性的当前旗舰权重。参数列格式：总参数 (T) / 激活 (A)；稠密模型只列单个数字。Ctx 为官方声明的最大上下文长度。

#	机构	当前旗舰	架构	参数 (T/A)	Ctx	License	GitHub	HuggingFace
1	Meta	Llama 4 Maverick	MoE × 128E	400B / 17B	1M	Llama 4 Community	llama-models	Maverick-17B-128E
1b	Meta	Llama 4 Scout	MoE × 16E	109B / 17B	10M	Llama 4 Community	↑	Scout-17B-16E
2	Google	Gemma 3 27B IT	稠密 + SWA/全局	27B	128K	Gemma Terms	gemma	gemma-3-27b-it
3	Alibaba	Qwen3-235B-A22B	MoE	235B / 22B	128K	Apache-2.0	Qwen3	Qwen3-235B-A22B
4	Mistral	Ministral 3-14B-Reasoning	稠密	14B	128K	Apache-2.0	mistral-inference	Ministral-3 Collection
5	DeepSeek	DeepSeek-V3.2	MoE + DSA	671B / 37B	128K	MIT	DeepSeek-V3	DeepSeek-V3.2
6	Z.ai	GLM-5	MoE	744B / 40B	128K	MIT	GLM-5	GLM-5
6b	Z.ai	GLM-5.1（blog）	MoE + DSA	754B / 40B	200K	MIT	↑	GLM-5.1
7	Moonshot	Kimi K2.5	MoE (MLA)	1T / 32B	256K	Modified MIT	Kimi-K2	Kimi-K2.5
8	MiniMax	MiniMax-M2.5（blog）	MoE + Lightning Attn	230B / 10B	1M	MiniMax M Use	MiniMax-M1	MiniMax-M2.5
9	Xiaomi	MiMo-V2-Flash	MoE + SWA 5:1	309B / 15B	256K	MIT	MiMo	MiMo-V2-Flash
10	OpenAI	gpt-oss-120b	MoE	120B / 5.1B	128K	Apache-2.0	gpt-oss	gpt-oss-120b
11	Ant Group	Ling-1T	MoE (1/32 稀疏) + FP8	1T / 50B	128K	MIT	Ling	Ling-1T
12	Meituan	LongCat-Flash-Thinking-2601	MoE + Zero-Comp Exp	560B / 18.6–31.3B	128K	MIT	LongCat-Flash	LongCat-Flash-Thinking-2601
13	NVIDIA	Nemotron 3 Ultra	Mamba-Transformer MoE + NVFP4	未公开 / —	1M	NVIDIA Open Model	NeMo	Nemotron-3-Nano-30B-A3B
14	xAI	Grok-1	MoE × 8E	314B / ~86B	8K	Apache-2.0	grok-1	grok-1
15	Ai2	Olmo 3 Think 32B	稠密（Fully-open）	32B	64K	Apache-2.0	OLMo	Olmo-3-32B-Think
16	StepFun	Step 3.5 Flash	MoE + SWA/全局 3:1 + MTP-3	196B / 11B	128K	Apache-2.0	Step3	Step-3.5-Flash

License 速查：

Apache-2.0 / MIT：商用最友好，无字段限制

Llama 4 Community / Gemma Terms：商用前请阅读条款（MAU 7 亿门槛、安全使用条款等）

Modified MIT（Kimi K2）：基本同 MIT，额外要求 "Kimi K2" 在界面可见

MiniMax M Use：MiniMax 自有商业许可，个人研究与商用分级

NVIDIA Open Model License：允许商用，要求安全使用与合规披露

📁 各家公司详细信息

1. 🇺🇸 Meta（Llama 系列）

Llama 1–3 公开完整训练细节，是开源生态早期基石；Llama 4 起转为仅发 Model Card。

时间	论文	HuggingFace	关键贡献
2023-02	LLaMA: Open and Efficient Foundation Language Models (arXiv:2302.13971)	— (首发需申请，非官方转载存在)	首个大规模开源基础模型（7B–65B），13B 超越 GPT-3 175B
2023-07	Llama 2: Open Foundation and Fine-Tuned Chat Models (arXiv:2307.09288)	meta-llama/Llama-2-70b-hf	首代可商用 Llama，引入 RLHF Chat 版本
2024-07	The Llama 3 Herd of Models (arXiv:2407.21783)	meta-llama/Llama-3.1-405B	405B 旗舰，128K 上下文，多模态扩展
2025-04	⚠️ Llama 4 Model Card（arXiv v1 已撤稿）	meta-llama/Llama-4-Maverick-17B-128E · meta-llama/Llama-4-Scout-17B-16E	Llama 首款 MoE + 原生多模态；Scout（109B 总 / 17B 激活 × 16E）支持 10M context；Maverick 400B / 17B × 128E

2. 🇺🇸 Google DeepMind（Gemma 系列）

将 Gemini 研究成果下沉到轻量级开源模型，专注 2B–27B 消费级部署场景。

时间	论文	HuggingFace	关键贡献
2024-03	Gemma: Open Models Based on Gemini Research and Technology (arXiv:2403.08295)	google/gemma-7b	首代 Gemma（2B / 7B），Gemini 架构下沉
2024-07	Gemma 2: Improving Open Language Models at a Practical Size (arXiv:2408.00118)	google/gemma-2-27b	局部 / 全局注意力交替 + 知识蒸馏（2B / 9B / 27B）
2025-03	Gemma 3 Technical Report (arXiv:2503.19786)	google/gemma-3-27b-it	原生视觉输入 + 128K 上下文 + 多语言扩展（1B / 4B / 12B / 27B）

3. 🇨🇳 Alibaba（Qwen 系列）

中国开源模型中发表最密集的谱系之一，规模覆盖 0.5B 至 235B MoE。

时间	论文	HuggingFace	关键贡献
2023-09	Qwen Technical Report (arXiv:2309.16609)	Qwen/Qwen-72B	Qwen 首代（1.8B / 7B / 14B / 72B），中英双语
2024-07	Qwen2 Technical Report (arXiv:2407.10671)	Qwen/Qwen2-72B	规模覆盖 0.5B–72B，首次发布大规模 MoE 变体（57B-A14B）
2024-12	Qwen2.5 Technical Report (arXiv:2412.15115)	Qwen/Qwen2.5-72B-Instruct	72B 旗舰在多项基准上与 Llama 3-405B 接近；衍生 Math / Coder 专项
2025-05	Qwen3 Technical Report (arXiv:2505.09388)	Qwen/Qwen3-235B-A22B	统一框架内支持 Thinking / Non-thinking 双模式切换

4. 🇫🇷 Mistral AI

欧洲开源主力，擅长 MoE 与小参数高效架构。旗舰 Large 系列仅 blog 发布，子系列保留完整论文。

时间	论文	HuggingFace	关键贡献
2023-10	Mistral 7B (arXiv:2310.06825)	mistralai/Mistral-7B-v0.1	SWA（Sliding Window Attention）+ GQA；7B 在多项基准超越 Llama 2 13B
2024-01	Mixtral of Experts (arXiv:2401.04088)	mistralai/Mixtral-8x7B-v0.1	首个高影响力开源 SMoE（8×7B），对标 GPT-3.5 / Llama 2 70B
2024-07	⚠️ Mistral Large 2（blog）	mistralai/Mistral-Large-Instruct-2407	123B 稠密模型；MRL 研究许可；数十种自然语言 + 80+ 编程语言
2025-06	Magistral (arXiv:2506.10910)	mistralai/Magistral-Small-2506	Mistral 首款推理模型（Small 24B 开源 / Medium 闭源）+ 自研 RL 管线
2026-01	Ministral 3 (arXiv:2601.08584)	mistralai/Ministral-3 Collection	级联蒸馏（Cascade Distillation）方法；3B / 8B / 14B 三档，每档含 Base / Instruct / Reasoning 三变体，均支持图像输入，Apache 2.0

5. 🇨🇳 DeepSeek

开源权重阵营中发表最密集的团队之一，每代均附完整技术报告；R1 论文发表于 Nature。

时间	论文	HuggingFace	关键贡献
2024-01	DeepSeek LLM: Scaling Open-Source LM with Longtermism (arXiv:2401.02954)	deepseek-ai/deepseek-llm-67b-base	Scaling Law 实证修正；67B Base 在多项基准超越 Llama 2 70B
2024-05	DeepSeek-V2: A Strong, Economical and Efficient MoE LM (arXiv:2405.04434)	deepseek-ai/DeepSeek-V2	MLA（Multi-head Latent Attention）首次提出，KV Cache 压缩 93.3%
2024-12	DeepSeek-V3 Technical Report (arXiv:2412.19437)	deepseek-ai/DeepSeek-V3	671B MoE / 37B 激活，14.8T tokens，总训练用量 2.788M H800 GPU 小时
2025-01	DeepSeek-R1: Incentivizing Reasoning via RL (arXiv:2501.12948) · Nature 645, 633–638 (2025-09-17)	deepseek-ai/DeepSeek-R1	论证无需人工推理标注，纯 RL 即可激活 LLM 的链式推理能力；基于 DeepSeek-V3 Base + GRPO
2025-12	DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models (arXiv:2512.02556)	deepseek-ai/DeepSeek-V3.2 · deepseek-ai/DeepSeek-V3.2-Exp	DSA（DeepSeek Sparse Attention）；Speciale 变体在 IMO / IOI 2025 取得金牌

6. 🇨🇳 Zhipu AI / Z.ai（GLM 系列）

中国最早公开发布大语言模型论文的机构之一（2021 年起）。GLM-4.5 之后 GLM-4.6 / 4.7 仅以 blog 发布；2026-02 GLM-5 回归 arXiv 完整技术报告。

时间	论文	HuggingFace	关键贡献
2021-03	GLM: General Language Model Pretraining with Autoregressive Blank Infilling (arXiv:2103.10360) · ACL 2022	THUDM/glm-10b	用自回归空白填充统一 NLU / NLG / 条件生成三类任务
2022-10	GLM-130B: An Open Bilingual Pre-trained Model (arXiv:2210.02414) · ICLR 2023	— (权重通过 GitHub 申请下载)	首批 100B+ 规模的中英双语开源预训练模型之一
2024-06	ChatGLM: A Family of LMs from GLM-130B to GLM-4 All Tools (arXiv:2406.12793)	THUDM/chatglm3-6b · zai-org/glm-4-9b-chat	三代 ChatGLM + GLM-4 All Tools 工具调用能力
2025-08	GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models (arXiv:2508.06471)	zai-org/GLM-4.5	355B MoE / 32B 激活，Hybrid Reasoning 双模式
2025-09 ~ 2025-12	⚠️ GLM-4.6 / 4.7（blog）	zai-org/GLM-4.6	沿用 GLM-4.5 架构增量迭代，未发布独立技术报告
2026-02	GLM-5: from Vibe Coding to Agentic Engineering (arXiv:2602.15763)	zai-org/GLM-5	744B MoE / 40B 激活；面向长程 Agentic 工程，预训练语料再翻倍
2026-04	⚠️ GLM-5.1（blog）	—	754B MoE + DSA 稀疏注意力；SWE-Bench Pro SOTA（58.4%），支持 8 小时自主执行

7. 🇨🇳 Moonshot AI（Kimi 系列）

2025 年起快速迭代，在优化器、Agent 等方向有独立技术贡献。k1.5 权重未公开，K2 / K2.5 开源。

时间	论文	HuggingFace	关键贡献
2025-01	Kimi k1.5: Scaling Reinforcement Learning with LLMs (arXiv:2501.12599)	❌ (GitHub 仅发 paper)	Long-CoT RL + 128K 上下文 + 多模态联合训练
2025-07	Kimi K2: Open Agentic Intelligence (arXiv:2507.20534)	moonshotai/Kimi-K2-Instruct	MuonClip 优化器；1T MoE / 32B 激活，15.5T tokens 零损失尖峰
2026-02	Kimi K2.5: Visual Agentic Intelligence (arXiv:2602.02276)	moonshotai/Kimi-K2.5	多模态 Agent；提出 Agent Swarm 自导向并行机制

8. 🇨🇳 MiniMax

线性 / 混合注意力架构的实践者；MiniMax-01 / M1 有完整论文，M2 系列转为 blog。

时间	论文	HuggingFace	关键贡献
2025-01	MiniMax-01: Scaling Foundation Models with Lightning Attention (arXiv:2501.08313)	MiniMaxAI/MiniMax-Text-01	首个商业级线性注意力（Lightning Attention）；456B MoE，4M context
2025-06	MiniMax-M1: Scaling Test-Time Compute Efficiently (arXiv:2506.13585)	MiniMaxAI/MiniMax-M1-80k	CISPO RL 算法；1M context，512 张 H800 三周完成 RL（成本约 $534K）
2025-10+	⚠️ MiniMax M2 / M2.1 / M2.5（blog）	MiniMaxAI/MiniMax-M2.5	230B MoE / 10B 激活；Agent-native 设计

9. 🇨🇳 Xiaomi（MiMo 系列）

小米 LLM-Core 团队，聚焦小参数高推理与效率；论文节奏稳定，每代都开源权重。

时间	论文	HuggingFace	关键贡献
2025-05	MiMo: Unlocking the Reasoning Potential of Language Model (arXiv:2505.07608)	XiaomiMiMo/MiMo-7B-RL	7B 参数模型在数学 / 代码推理基准上超越多款 32B 模型
2025-06	MiMo-VL Technical Report (arXiv:2506.03569)	XiaomiMiMo/MiMo-VL-7B-RL	7B 视觉语言模型；视觉 Agent 能力与 GUI 导航
2026-01	MiMo-V2-Flash Technical Report (arXiv:2601.02780)	XiaomiMiMo/MiMo-V2-Flash	309B MoE / 15B 激活；SWA+全局混合注意力（5:1）

10. 🇺🇸 OpenAI（gpt-oss 系列）

OpenAI 自 GPT-2 之后首次开源模型权重。文档形式为 Model Card，非完整技术报告。

时间	论文	HuggingFace	关键贡献
2025-08	⚠️ gpt-oss-120b & gpt-oss-20b Model Card (arXiv:2508.10925)	openai/gpt-oss-120b · openai/gpt-oss-20b	MoE 推理模型（120B 总 / 5.1B 激活 · 20B 总 / 3.6B 激活）；Apache 2.0；仅 Model Card，无完整训练细节

说明：OpenAI 历史上 GPT-1/2/3/4 论文均非权重开源；自 GPT-2 起直至 gpt-oss 均为闭源。

11. 🇨🇳 Ant Group 蚂蚁集团（inclusionAI / Ling 团队）

蚂蚁集团 AGI 研究品牌为 inclusionAI；Ring 是在 Ling 基础模型上构建的推理分支。

时间	论文	HuggingFace	关键贡献
2025-03	Every FLOP Counts: Scaling a 300B MoE LING LLM without Premium GPUs (arXiv:2503.05139)	inclusionAI/Ling-plus · inclusionAI/Ling-lite	在非顶级 GPU 上训练 290B MoE，报告训练成本降低约 20%
2025-04	Holistic Capability Preservation: Compact Reasoning Models (arXiv:2504.07158)	inclusionAI/Ring-lite-distill	从 Ling-Lite 蒸馏出紧凑推理模型
2025-07	Towards Greater Leverage: Scaling Laws for Efficient MoE LMs (arXiv:2507.17702)	— (方法论论文)	Ling Scaling Laws：MoE 专用缩放定律研究
2025-10	Every Activation Boosted: Scaling General Reasoner to 1 Trillion Open Language Foundation (arXiv:2510.22115)	inclusionAI/Ling-1T · inclusionAI/Ling-flash-2.0 · inclusionAI/Ling-mini-2.0	Ling 2.0 技术报告：Ling-1T 为当前最大规模完全开源推理基座；1/32 稀疏度 + FP8 训练
2026-02	⚠️ Ling-2.5-1T / Ring-2.5-1T（blog）	inclusionAI/Ling-2.5-1T	Ling-2.5-1T 1T / 63B 激活，预训练语料扩至 29T tokens；Ring-2.5-1T 采用混合线性注意力，IMO 2025 金牌级

12. 🇨🇳 Meituan 美团（LongCat 团队）

美团 LongCat 团队自 2025-09 起 4 个月内发布 4 篇 arXiv，覆盖语言、全模态、图像、推理四个方向。

时间	论文	HuggingFace	关键贡献
2025-09	LongCat-Flash Technical Report (arXiv:2509.01322)	meituan-longcat/LongCat-Flash-Chat	560B MoE；Zero-Computation Experts 动态激活（18.6B–31.3B）
2025-11	LongCat-Flash-Omni Technical Report (arXiv:2511.00279)	meituan-longcat/LongCat-Flash-Omni	560B 全模态模型（音频 + 视觉 + 文本实时）
2025-12	LongCat-Image Technical Report (arXiv:2512.07584)	meituan-longcat/LongCat-Image	6B 文生图 / 图像编辑；双语文字渲染 SOTA
2026-01	LongCat-Flash-Thinking-2601 Technical Report (arXiv:2601.16725)	meituan-longcat/LongCat-Flash-Thinking-2601	560B MoE 推理模型；BrowseComp 73.1%

13. 🇺🇸 NVIDIA（Nemotron 系列）

硬件厂商自研开源路线，强调硬件-算法协同设计（FP8 训练、Mamba 混合、合成数据）。

时间	论文	HuggingFace	关键贡献
2024-02	Nemotron-4 15B Technical Report (arXiv:2402.16819)	nvidia/Nemotron-4-15B-Base	15B 稠密模型，8T tokens，多语言覆盖 53 种
2024-06	Nemotron-4 340B Technical Report (arXiv:2406.11704)	nvidia/Nemotron-4-340B-Instruct	对齐数据中 98%+ 为合成数据；同步发布 Base / Instruct / Reward
2025-04	Nemotron-H: A Family of Hybrid Mamba-Transformer Models (arXiv:2504.03624)	nvidia/Nemotron-H-56B-Base-8K	Mamba + Transformer 混合架构；长序列下推理加速约 3×
2025-05	Llama-Nemotron: Efficient Reasoning Models (arXiv:2505.00949)	nvidia/Llama-3.1-Nemotron-Ultra-253B-v1	在 Llama 3.1 基础上做推理增强（最大 253B）
2025-12	NVIDIA Nemotron 3: Efficient and Open Intelligence (arXiv:2512.20856)	nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16	Nano / Super / Ultra 家族；Mamba-Transformer 混合 MoE，上下文 1M；NVFP4 训练 + LatentMoE

14. 🇺🇸 xAI（Grok 系列）

仅 Grok-1（314B MoE）于 2024-03 公开权重，之后 Grok-2/3/4 全部转为闭源 API。

时间	论文	HuggingFace	关键贡献
2024-03	❌ Grok-1 Model Card（无 arXiv）	xai-org/grok-1	314B MoE 权重公开，Apache 2.0；官方仅发布 Model Card

说明：Grok-1 是单次开源事件；Grok-2 起 xAI 转向闭源 API 路线。

15. 🇺🇸 Allen AI / Ai2（OLMo 系列）

Fully-open 路线代表：除权重外，同步开源完整训练数据（Dolma）、代码、训练日志、中间检查点。

时间	论文	HuggingFace	关键贡献
2024-02	OLMo: Accelerating the Science of Language Models (arXiv:2402.00838)	allenai/OLMo-7B	首款 fully-open 大语言模型；配套 Dolma 数据集与 OLMo 训练框架
2025-01	2 OLMo 2 Furious (arXiv:2501.00656)	allenai/OLMo-2-0325-32B-Instruct	7B / 13B / 32B；引入 Tülu 3 后训练流程与 RLVR
2025-12	Olmo 3 (arXiv:2512.13961) · Ai2 博客首发 2025-11-20	allenai/Olmo-3-32B-Think · allenai/Olmo-3-7B-Instruct	当前最强 fully-open 推理模型（32B Think）；完整 model flow：Dolma 3（9.3T tokens）+ 全部中间检查点

说明：Ai2（Allen Institute for AI）是由 Paul Allen 创立的非营利研究机构，OLMo 是学术透明度的代表性项目。

16. 🇨🇳 StepFun 阶跃星辰（Step 系列）

聚焦 Model-System Co-design（模型-系统协同设计），每篇论文都强调硬件感知的架构选择与推理成本。

时间	论文	HuggingFace	关键贡献
2025-07	Step-3 is Large yet Affordable: Model-system Co-design for Cost-effective Decoding (arXiv:2507.19427)	stepfun-ai/step3	321B MoE VLM / 38B 激活；MFA（Multi-Matrix Factorization Attention）+ AFD（Attention-FFN Disaggregation）推理架构
2026-01	STEP3-VL-10B Technical Report (arXiv:2601.09668)	stepfun-ai/Step3-VL-10B	10B VLM（PE-lang 1.8B 视觉编码器 + Qwen3-8B 解码器）；引入 PaCoRe（Parallel Coordinated Reasoning）并行推理
2026-02	Step 3.5 Flash: Open Frontier-Level Intelligence with 11B Active Parameters (arXiv:2602.10604)	stepfun-ai/Step-3.5-Flash	196B MoE / 11B 激活；SWA + 全局注意力 3:1 + MTP-3；85.4% IMO-AnswerBench，88.2% τ²-Bench

说明：StepFun 另有 Step-GUI、Step Deep Research 等多个专项论文，本表仅列出基础语言模型主线。

🔒 Part B. 闭源 / API-first / 混合路线前沿 LLM 公司（11 家）

以下公司的旗舰模型以闭源 API 为主，但仍多发布较完整的技术报告或 System Card。其中 Apple / Amazon / Cohere / ByteDance / Baidu / Tencent 属于"混合路线"——小尺寸或上一代权重部分公开，旗舰闭源。

📊 Part B 总览（11 家机构）

#	公司	系列	论文/卡片数	首篇	最新	透明度档位
B1	🇺🇸 OpenAI（旗舰闭源）	GPT-3 / GPT-4 / GPT-4o / o1 / GPT-5	5 (含 2 System Card)	2020-05	2026-01	档位 2
B2	🇺🇸 Anthropic	Claude 1 → Claude Opus 4.7	1 论文 + 多份 System Card	2022-12	2026-04	档位 3
B3	🇺🇸 Google DeepMind（Gemini 闭源线）	Gemini 1 / 1.5 / 2.5 / 3	3 + 1 Model Card	2023-12	2025-11	档位 1
B4	🇺🇸 xAI（Grok-2+ 闭源线）	Grok-2 / 3 / 4 / 4.1 / 4 Fast	0 + 多份 Model Card	2024-08	2025-11	档位 3
B5	🇺🇸 Apple	AFM 2024 / AFM 2025	2	2024-07	2025-07	档位 1（含端侧开源）
B6	🇺🇸 Amazon	Amazon Nova / Nova Premier / Nova 2.0	3	2024-12	2026-01	档位 2
B7	🇨🇦 Cohere	Command R / R+ / A / A Reasoning	1 + blog	2024-07	2025-04	档位 1（研究权重 CC-BY-NC）
B8	🇨🇳 ByteDance Seed（豆包 / Doubao）	Seed-Thinking-v1.5 / Doubao 1.5 / 1.6	1 + blog	2025-04	2025-10	档位 2
B9	🇨🇳 Baidu 文心（百度 ERNIE）	ERNIE 4.5 / ERNIE 5.0	2	2025-07	2026-02	档位 1（含部分开源）
B10	🇨🇳 Tencent 混元（腾讯 Hunyuan）	Hunyuan-Large / TurboS	2	2024-11	2025-05	档位 1（含部分开源）
B11	🇺🇸 Microsoft AI（MAI）	MAI-1-preview / MAI-Voice-1	0（仅 blog）	2025-08	2025-08	档位 3

更小众 / 已被收购的公司（Reka AI、Inflection AI、AI21 Labs）见"📎 其他值得关注"。

🎯 Part B 旗舰快查表（接入方式 · 规格 · 上下文 · 定价）

闭源 / 混合路线旗舰的访问方式与当前（2026-04）对外报价。价格列为 USD / 1M tokens（输入 / 输出），缓存折扣不纳入。

#	机构	当前旗舰	架构	参数	Ctx	License / 权重	访问	价格（I/O）
B1	OpenAI	GPT-5（gpt-5-thinking + gpt-5-main）	MoE（非公开）	非公开	400K	闭源	ChatGPT · API	官方报价
B2	Anthropic	Claude Opus 4.7	非公开	非公开	200K	闭源	Claude.ai · API · Bedrock · Vertex · Foundry	$5 / $25
B2b	Anthropic	Claude Sonnet 4.6	非公开	非公开	1M (beta)	闭源	↑	$3 / $15
B3	Google DeepMind	Gemini 3 Pro	Sparse MoE	非公开	1M+	闭源	Gemini App · Vertex AI	官方报价
B4	xAI	Grok 4.1	非公开	非公开	256K	闭源	X / Grok API	官方报价
B5	Apple	AFM-Server 2025	PT-MoE	非公开（端侧 ~3B）	65K	端侧调用（Foundation Models FW）	iOS / macOS	端侧免费
B6	Amazon	Nova Premier / 2.0 Lite	非公开	非公开	1M	闭源	AWS Bedrock	AWS 报价
B7	Cohere	Command A	稠密 Hybrid	111B	256K	CC-BY-NC 4.0（研究权重开放）	Cohere API · c4ai-command-a	官方报价
B8	ByteDance Seed	Doubao 1.6 / Seed-Thinking v1.5	MoE	200B / 20B	256K	闭源（论文权重未开）	火山引擎	火山报价
B9	Baidu	ERNIE 5.0（A47B 旗舰）	原生多模态 MoE	T / 47B 激活	128K	混合（0.3B / A3B 子档 Apache-2.0）	文心一言 · 千帆	千帆报价
B10	Tencent	Hunyuan-TurboS	Mamba-Transformer-FFN	非公开	256K	混合（Hunyuan-Large 389B 开源）	腾讯云	腾讯云报价
B11	Microsoft AI	MAI-1-preview	MoE	非公开（~15k H100 训练）	—	闭源	Copilot · Foundry	Azure 报价

提示：所有闭源厂商的价格、参数与上下文均可能调整，请以官方文档为准。价格列仅展示已公开数字（Claude Opus/Sonnet 明确披露），其余以"官方报价"替代以避免误导。

B1. 🇺🇸 OpenAI（GPT 旗舰闭源线）

自 GPT-2 之后权重转闭源；GPT-3 / GPT-4 / o1 有 arXiv 论文，GPT-4o / o3-mini / DALL·E 等以 System Card 形式发布。本节仅覆盖旗舰闭源线；gpt-oss-120b / 20b 权重开源已列于 Part A #10。

时间	论文 / 卡片	访问方式	关键贡献
2020-05	Language Models are Few-Shot Learners (arXiv:2005.14165) · NeurIPS 2020	API 已下线	GPT-3 首次揭示"规模涌现"，175B 稠密 Transformer；首提 In-Context Learning
2022-03	Training language models to follow instructions with human feedback (arXiv:2203.02155)	API	InstructGPT / RLHF 奠基；PPO + 人类偏好对齐
2023-03	GPT-4 Technical Report (arXiv:2303.08774)	ChatGPT / API	多模态（图+文）；架构 / 规模 / 数据细节完全保留，是"模糊技术报告"的起点
2024-05	⚠️ GPT-4o System Card（blog）	ChatGPT / API	首个原生多模态（文/图/语音）端到端模型
2024-12	OpenAI o1 System Card (arXiv:2412.16720)	ChatGPT / API	大规模 RL 激活 Chain-of-Thought；推理模型范式启动
2025-08 (arXiv v1: 2025-12-19)	OpenAI GPT-5 System Card (arXiv:2601.03267)	ChatGPT / API	产品 2025-08 发布，arXiv System Card 于 2025-12 补发；统一 fast + deep reasoning 路由

B2. 🇺🇸 Anthropic（Claude 系列）

2022 年 Constitutional AI 论文后，Claude 1–4.6 全部仅发布 System Card（PDF），未再在 arXiv 发表整模型训练细节。

时间	论文 / 卡片	访问方式	关键贡献
2022-12	Constitutional AI: Harmlessness from AI Feedback (arXiv:2212.08073)	—	RLAIF / Constitutional AI 奠基；用模型自评代替人类标注
2024-03	⚠️ Claude 3 Model Card（PDF）	Claude.ai / API	Claude 3 Haiku / Sonnet / Opus 三档；Opus 首次明显对标 GPT-4
2024-06 ~ 2025-02	⚠️ Claude 3.5 / 3.7 Sonnet System Card	API	引入 Computer Use、Extended Thinking
2025-05	⚠️ Claude 4 System Card（PDF）	API	Opus 4 / Sonnet 4；Hybrid Reasoning；首次标注 ASL-3
2025-09-29	⚠️ Claude Sonnet 4.5 System Card	API	长程 Agentic 编码；OSWorld 61.4%；ASL-3
2025-11-24	⚠️ Claude Opus 4.5 System Card · Blog	API	引入 `effort` 参数；"最好对齐"的前沿模型
2025-12 ~ 2026-01	⚠️ Claude Opus 4.6（产品增量，未公开独立 System Card 入口）	API	作为 Opus 4.5 之后的内部升级代号，与 Sonnet 4.6 同期存在
2026-02-17	⚠️ Claude Sonnet 4.6 System Card · Blog	API	1M 上下文（beta）；计算机使用能力再提升
2026-04-16	⚠️ Claude Opus 4.7 Blog	API / Bedrock / Vertex / Foundry	截至 2026-04 Anthropic 最强通用模型；Cyber Verification Program 同步上线

B3. 🇺🇸 Google DeepMind（Gemini 闭源旗舰线）

与 Part A #2 Gemma（开源）并行的闭源旗舰。Gemini 1 / 1.5 / 2.5 在 arXiv 有完整技术报告，Gemini 2.0 / 3 仅以 Model Card 形式发布。

时间	论文 / 卡片	访问方式	关键贡献
2023-12	Gemini: A Family of Highly Capable Multimodal Models (arXiv:2312.11805)	Gemini App / Vertex AI	Gemini 1.0（Ultra / Pro / Nano）；首个原生多模态 Ultra
2024-03	Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context (arXiv:2403.05530)	API	长上下文里程碑：1.5 Pro 支持 10M tokens 召回
2024-12	⚠️ Gemini 2.0 Model Card（blog）	API	Gemini 2.0 Flash / Flash-Lite；原生工具使用与 Agentic 能力
2025-07	Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities (arXiv:2507.06261)	API	2.5 Pro / Flash；Deep Think；稀疏 MoE
2025-11	⚠️ Gemini 3 Pro Model Card（PDF）	API	目前 Google DeepMind 最强闭源模型

B4. 🇺🇸 xAI（Grok-2 之后的闭源线）

Grok-1（314B MoE）权重开源已列于 Part A #14；Grok-2 起全线闭源，仅发 Model Card。

时间	论文 / 卡片	访问方式	关键贡献
2024-08	⚠️ Grok-2 blog	X / API	首代 xAI 闭源模型
2025-02	⚠️ Grok 3 blog	X / API	首次引入 Think / DeepSearch 能力
2025-07	⚠️ Grok 4 blog + Grok 4 Model Card (2025-08-20)	X / API	工具使用 + 实时搜索原生集成
2025-09	⚠️ Grok 4 Fast Model Card (2025-09-19)	API	低延迟版本
2025-11	⚠️ Grok 4.1 Model Card	API	截至 2026-Q1 xAI 旗舰；Grok 5 在训练中

B5. 🇺🇸 Apple（Apple Intelligence Foundation Models）

端侧 ~3B 模型部分开源（Core ML / Foundation Models framework 供开发者调用），云端 Server 模型闭源；两代均有完整 arXiv 技术报告。

时间	论文	访问方式	关键贡献
2024-07	Apple Intelligence Foundation Language Models (arXiv:2407.21075)	iOS / macOS 端侧 + Private Cloud Compute	端侧 3B（2-bit QAT）+ 服务器模型；首次强调隐私保护推理
2025-07	Apple Intelligence Foundation Language Models: Tech Report 2025 (arXiv:2507.13575)	iOS / macOS + 开发者 Foundation Models Framework	PT-MoE（Parallel-Track MoE）架构；16 种语言；KV-cache sharing 端侧优化

B6. 🇺🇸 Amazon（Nova / Titan）

Nova 于 2024-12 AWS re:Invent 首发，2025-06 发布合并后的 arXiv 技术报告；2026-01 对 Nova 2.0 Lite 发布安全评估。

时间	论文 / 卡片	访问方式	关键贡献
2024-12	⚠️ Amazon Nova tech report & model card（原始 blog）	AWS Bedrock	Nova Micro / Lite / Pro / Premier；多模态
2025-06	The Amazon Nova Family of Models: Technical Report and Model Card (arXiv:2506.12103)	AWS Bedrock	完整 arXiv 技术报告（含训练 / 评估 / 安全）
2026-01	Evaluating Nova 2.0 Lite under Amazon's Frontier Model Safety Framework (arXiv:2601.19134)	AWS Bedrock	Nova 2.0 Lite 安全评估；框架级 FMSF

B7. 🇨🇦 Cohere（Command 系列）

企业 RAG / 多语种领先厂商。Command A 起发布完整 arXiv 技术报告，并以 CC-BY-NC 研究许可开源 111B 权重。

时间	论文 / 卡片	访问方式	关键贡献
2024-07 ~ 2024-12	⚠️ Command R / R+ blog	Cohere API	企业 RAG / Tool use 优化；35B / 104B
2025-04	Command A: An Enterprise-Ready Large Language Model (arXiv:2504.00698)	CohereLabs/c4ai-command-a-03-2025 (CC-BY-NC)	111B hybrid architecture；23 种商业语言；自精炼 + 模型合并

B8. 🇨🇳 ByteDance Seed（Doubao 豆包）

ByteDance Seed 团队维护 Doubao 产品线；Seed-Thinking-v1.5 论文公开思考模型训练细节，但 Doubao 1.5 / 1.6 / Seed-OSS（闭源 API）与多模态分支（Seed1.6-Vision 等）以 blog 发布。

时间	论文 / 卡片	访问方式	关键贡献
2025-04	Seed-Thinking-v1.5: Advancing Superb Reasoning Models with Reinforcement Learning (arXiv:2504.13914)	火山引擎 / Doubao API	200B MoE / 20B 激活的思考模型；RL 细节披露
2025-06+	⚠️ Doubao 1.5-pro / 1.6 blog	Doubao App / 火山引擎	ByteDance 旗舰产品模型；闭源

B9. 🇨🇳 Baidu 文心（百度 ERNIE）

自 ERNIE 4.5 起小尺寸变体开源（0.3B-PT、A3B-PT 等），旗舰 A47B 仍闭源商业化；ERNIE 5.0 延续混合多模态路线。

时间	论文	HuggingFace / 访问方式	关键贡献
2025-07	ERNIE 4.5 Technical Report (arXiv:2507.07145)	baidu/ERNIE-4.5-0.3B-PT（Apache 2.0）	10 个变体；多模态异构 MoE 预训练；A47B / A3B 双档
2026-02	ERNIE 5.0 Technical Report (arXiv:2602.04705)	文心一言 / 千帆平台	原生多模态；基于 ERNIE 4.5 基础设施解决多模态训练挑战

B10. 🇨🇳 Tencent 混元（Hunyuan）

同时运营闭源商业化（混元 API）与开源权重（Hunyuan-Large 等）两条线。

时间	论文	HuggingFace / 访问方式	关键贡献
2024-11	Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent (arXiv:2411.02265)	tencent/Tencent-Hunyuan-Large	389B MoE / 52B 激活；当时最大开源 Transformer MoE 之一
2025-05	Hunyuan-TurboS: Advancing Large Language Models through Mamba-Transformer Synergy and Adaptive Chain-of-Thought (arXiv:2505.15431)	腾讯云 API	Mamba2 + Transformer + FFN 混合；Adaptive CoT 动态推理

B11. 🇺🇸 Microsoft AI（MAI）

2025-08-28 首次公开发布自研基础模型，摆脱对 OpenAI 单一依赖；目前仅有 blog / Foundry 模型目录，无 arXiv 论文。

时间	论文 / 卡片	访问方式	关键贡献
2025-08	⚠️ MAI-1-preview & MAI-Voice-1（blog）	Copilot / Azure Foundry	首个 MAI 端到端训练的 MoE 基础模型；~15k H100 GPUs；同期 MAI-Voice-1 TTS（1 GPU/1 秒/1 分钟音频）

📎 其他值得关注（非首发 / 已合并 / 数据有限）

公司	代表作	当前状态
🇺🇸 Reka AI	Reka Core / Flash / Edge (arXiv:2404.12387) · 2024-04	仍运营 API，关注度下降；最新旗舰未有公开论文
🇺🇸 Inflection AI	Inflection-2.5（2024-03 blog）	团队核心已被 Microsoft 收编，Pi 产品停更
🇮🇱 AI21 Labs	Jamba (arXiv:2403.19887) · 2024-03	Jamba 为 Mamba-Transformer 混合开源权重；Jurassic 旗舰闭源
🇨🇳 01.AI	Yi 系列	主打 open-weight，但 2025 年后论文频率下降
🇨🇳 Huawei 华为盘古	Pangu Ultra MoE (arXiv:2505.04519) · 2025-05	718B 总参数 MoE，端云混合部署；部分权重开源

🔍 分析与观察

📈 透明度四档分布

档位	定义	代表机构
S	Fully-open（含训练数据、代码、日志）	Allen AI / Ai2（OLMo）
1	Open-weight + 每代完整 arXiv 技术报告	DeepSeek · Alibaba · Google · Moonshot · Xiaomi · Ant Group · Meituan · NVIDIA · StepFun · Zhipu / Z.ai（GLM-5 回归 arXiv）
2	基础系列有论文，旗舰交替采用 blog 发布	Mistral AI · MiniMax
3	仅 Model Card 或 blog，无完整技术报告	Meta（Llama 4）· OpenAI（gpt-oss）
4	无正式论文	xAI（Grok-1）

🕒 发布时间线（2021-03 → 2026-02）

时间	主要事件
2021-03	GLM（Zhipu / THUDM，中国最早的大模型开源论文之一）
2023-02	LLaMA 1（Meta 开源元年）
2023-07	Llama 2（首次允许商用）
2023-09	Qwen 1.0（Alibaba 入场）
2023-10	Mistral 7B（欧洲入场）
2024-01	DeepSeek LLM、Mixtral 8×7B
2024-02	Nemotron-4 15B、OLMo 1（NVIDIA & Ai2 入场）
2024-03	Gemma 1（Google）、Grok-1（xAI 单次开源）
2024-07	Qwen 2、Llama 3、Gemma 2、Mistral Large 2
2024-12	DeepSeek-V3（训练成本 2.788M H800 GPU 小时）、Qwen 2.5
2025-01	⭐ DeepSeek-R1（纯 RL 推理范式）、Kimi k1.5、MiniMax-01、OLMo 2
2025-03	Ant Ling（蚂蚁入场）、Gemma 3
2025-04	Nemotron-H（Mamba-Transformer 混合）、Llama 4 Model Card
2025-05	Xiaomi MiMo（小米入场）、Qwen 3、Llama-Nemotron
2025-07	Kimi K2（MuonClip 优化器）、StepFun Step-3（阶跃入场）
2025-08	GLM-4.5、gpt-oss（OpenAI 首次开源权重）
2025-09	⭐ Meituan LongCat-Flash（美团入场）
2025-10	Ant Ling-1T（当前最大 fully-open 推理基座）
2025-12	DeepSeek-V3.2（DSA 稀疏注意力）、OLMo 3、LongCat-Image、NVIDIA Nemotron 3
2026-01	MiMo-V2-Flash、LongCat-Flash-Thinking-2601、Ministral 3、STEP3-VL-10B
2026-02	Kimi K2.5、Step 3.5 Flash、GLM-5（Z.ai 重回 arXiv）、Ant Ling-2.5-1T / Ring-2.5-1T（blog）、Claude Sonnet 4.6、ERNIE 5.0
2026-04	GLM-5.1（754B MoE，blog）、Claude Opus 4.7

🏆 技术影响力具代表性的论文（按领域）

领域	代表论文	贡献
规模涌现 / ICL	OpenAI GPT-3 (2020-05)	175B 稠密 Transformer 首次显露 few-shot / in-context learning
RLHF 奠基	OpenAI InstructGPT (2022-03)	建立"人类反馈 + PPO"标准对齐流程
Constitutional AI / RLAIF	Anthropic CAI (2022-12)	用 AI 反馈替代部分人类标注
RL 推理范式	DeepSeek-R1 (2025-01)	首次在大规模 LLM 上验证纯 RL 激活链式推理；Nature 2025
System Card + RL 推理	OpenAI o1 (2024-12)	工业界首个"推理模型"范式样板
长上下文	Gemini 1.5 (2024-03)	10M tokens 级别长上下文精准检索
MoE 架构	Mixtral 8×7B (2024-01) / DeepSeek-V3 (2024-12)	开源 SMoE 的里程碑实现与成本优化范例
线性 / 混合注意力	MiniMax-01 (2025-01) / Nemotron-H (2025-04) / Hunyuan-TurboS (2025-05)	商业级线性注意力与 Mamba 混合架构
稀疏注意力	DeepSeek V3.2 DSA (2025-12) / GLM-5.1 (2026-04)	显著压缩长上下文推理成本
Fully-open 方法论	OLMo 系列	训练数据、代码、日志完全公开的标杆
MoE Scaling Laws	Ant Ling Scaling Laws (2025-07)	MoE 架构专用缩放定律研究
Model-System Co-design	StepFun Step-3 (2025-07)	从硬件约束倒推模型架构设计
Agentic 基础模型	Kimi K2 / GLM-4.5 / LongCat-Flash / Claude 4 Opus	不同路径的 Agent 原生模型设计
生态奠基	Llama 2 / Llama 3	开源社区的参考实现与商业化基础
端侧 / 隐私	Apple AFM (2024-07)	2-bit QAT + 端云协同 Private Cloud Compute
中国早期贡献	GLM / GLM-130B	2021-2022 年中国最早的大规模开源双语模型工作

📊 前沿模型基准速览（2026-Q2）

数据采集自各模型官方技术报告 / 博客 / HuggingFace README（2026-04 访问）。跨家评测受 harness / effort 设置影响，仅作相对比较参考。

模型	发布	SWE-Bench Verified	SWE-Bench Pro	AIME 2026	HLE（w/ tools）	τ²-Bench	BrowseComp
GLM-5.1（blog）	2026-04	63.5	58.4	95.3	52.3	70.6	68.0
GLM-5	2026-02	56.2	55.1	95.4	50.4	69.2	62.0
Kimi K2.5	2026-02	70.8	50.7	95.83	51.8	66.0	60.6
DeepSeek-V3.2-Speciale	2025-12	—	—	95.1	40.8	69.2	51.4
MiMo-V2-Flash	2026-01	—	—	—	—	—	—
Step 3.5 Flash	2026-02	—	—	—	—	88.2	69.0
Claude Opus 4.7	2026-04	—	—	—	—	—	—
Claude Opus 4.5	2025-11	~80	57.3	—	—	—	—
Claude Sonnet 4.6	2026-02	77 → 82	—	—	—	—	—
GPT-5 / GPT-5.4	2025-08 / 2026-Q1	—	57.7	98.7	39.8	72.9	—
Gemini 3 Pro	2025-11	—	54.2	98.2	45.0	67.1	—
Llama 4 Maverick	2025-04	—	—	—	—	—	—

基准释义：SWE-Bench Verified（真实 GitHub 软件工程问题 500 题，越高越好）· SWE-Bench Pro（工业级难度）· AIME 2026（美国数学邀请赛）· HLE = Humanity's Last Exam（学术前沿多学科推理）· τ²-Bench（客服多轮任务）· BrowseComp（网页浏览代理）。 "—" 表示该模型未正式披露该基准分数，或基准与模型发布时点不重叠。

📉 透明度演化观察（2024–2026）

部分机构的技术披露形式从完整 arXiv 报告逐渐转向 Model Card 或 blog，但也有厂商在旗舰换代时回归完整论文：

公司	演化路径	观察时点
Meta	Llama 1–3 完整论文 → Llama 4 仅 Model Card（arXiv v1 已撤稿）	2025-04
Z.ai	GLM-4.5 完整论文 → GLM-4.6 / 4.7 blog → GLM-5 重回 arXiv 技术报告 → GLM-5.1 blog	2025-09 → 2026-02
Mistral	7B / Mixtral 完整论文 → 旗舰 Large 系列仅 blog；Ministral 3 / Magistral 系列仍发论文	持续
MiniMax	MiniMax-01 / M1 完整论文 → M2 系列 blog	2025-10+
xAI	Grok-1 开源权重 + Model Card → Grok-2+ 闭源	2024-08+
Ant Group	Ling 2.0 完整论文 → Ling 2.5 / Ring 2.5 blog	2026-02
Anthropic	2022-12 Constitutional AI 论文后，Claude 1 → Opus 4.7 全部仅发 System Card（PDF/HTML），从未再在 arXiv 发表完整训练细节	持续
OpenAI	GPT-3 / InstructGPT 完整论文 → GPT-4 "模糊技术报告" → GPT-4o / o3-mini 仅 System Card → o1 / GPT-5 System Card 上 arXiv（但不含训练细节）	持续

💰 公开训练成本对比（可复现）

仅列出官方披露的训练成本。绝大多数厂商未公开此数据；下表按报告值原样摘录，不做归一化换算。

模型	参数	训练 tokens	训练算力	公开成本	来源
DeepSeek-V3	671B MoE / 37B A	14.8T	2.788M H800 小时	≈ $5.58M（按 $2/h 算）	arXiv:2412.19437
MiniMax-M1	456B MoE	—	512 × H800 × 3 周	≈ $534K	arXiv:2506.13585
Kimi K2	1T MoE / 32B A	15.5T	—	零 loss spike（MuonClip）	arXiv:2507.20534
Ling-plus	290B MoE	—	非顶级 GPU	较基线降低 ≈ 20%	arXiv:2503.05139
Microsoft MAI-1-preview	非公开	—	~15k H100	—	microsoft.ai blog

🌱 2025 年度新进场机构

公司	首次发布	技术定位
Ant Group（蚂蚁 / inclusionAI）	2025-03	非顶级 GPU 训 1T 参数；MoE Scaling Laws 方法论
Xiaomi（小米 / LLM-Core）	2025-05	小参数高推理；快速迭代 LM → VLM → 大 MoE
StepFun（阶跃星辰）	2025-07	Model-System Co-design；MFA 注意力与 AFD 推理
Meituan（美团 / LongCat）	2025-09	4 个月覆盖语言 → 全模态 → 图像 → 推理四方向

🧭 选型决策指南（2026-Q2）

在 30+ 家机构、100+ 个模型中，如何选？以下决策路径基于公开权重可得性 + 许可证友好度 + 公开基准分数给出建议，仅作参考。

按使用场景

场景	首选（开源优先）	闭源替代
通用对话 / 产品接入	Qwen3-235B-A22B · GLM-5 · DeepSeek-V3.2	Claude Sonnet 4.6 · Gemini 3 Pro · GPT-5
长程 Agentic 编码（SWE-Bench Pro）	GLM-5.1（58.4%）· Kimi K2.5 · DeepSeek-V3.2	Claude Opus 4.7 · GPT-5 · Gemini 3 Pro
数学 / 科学推理（IMO、AIME）	DeepSeek-V3.2-Speciale · Kimi K2.5 · Olmo 3 Think 32B	GPT-5-thinking · Gemini 3 Pro Deep Think
长上下文	Llama 4 Scout（10M）· Nemotron 3 Ultra（1M）· MiniMax-M2.5（1M）	Gemini 3 Pro（1M+）· Claude Sonnet 4.6（1M beta）
边缘 / 端侧	Gemma 3 4B · Ministral 3-3B · MiMo 7B · Olmo 3 7B	Apple AFM 端侧 3B
工具调用 / MCP	Kimi K2.5 · GLM-5 · LongCat-Flash-Thinking	Claude Opus 4.7 · GPT-5（默认启用工具）
商用 MoE 性价比	DeepSeek-V3.2（MIT）· Qwen3（Apache-2.0）· GLM-5（MIT）	—
完全可复现研究	OLMo 3（数据+代码+检查点全开放）	—
视觉 + 语言多模态	Kimi K2.5 · STEP3-VL-10B · LongCat-Flash-Omni · MiMo-VL	Gemini 3 Pro · Claude Opus 4.7 · GPT-5
多语种 / RAG 企业	Cohere Command A（111B，23 种语言）· Qwen3	Gemini 3 Pro · Claude Opus 4.7
中文原生场景	Qwen3 · DeepSeek-V3.2 · GLM-5 · Kimi K2.5 · ERNIE 4.5-PT	豆包 1.6 · 混元 · 文心一言
图像生成（开源）	LongCat-Image（6B）	Midjourney · Runway

按许可证友好度

✅ Apache-2.0 / MIT（最友好）：Qwen3、DeepSeek-V3.2、GLM-5、gpt-oss、Olmo 3、Grok-1、MiMo-V2-Flash、Ministral 3、Ling-1T、LongCat-Flash、Step 3.5 Flash
⚠️ 定制开源许可（需阅读条款）：Llama 4（Community License，MAU 限制）、Gemma 3（Gemma Terms）、Kimi K2（Modified MIT）、NVIDIA Nemotron 3
🚫 非商用 / 研究权重：Cohere Command A（CC-BY-NC 4.0）
🔒 完全闭源：Claude、Gemini、GPT-5、Grok 2+、Doubao 闭源线、混元 TurboS

按透明度需求

需要训练数据 / 代码 / 检查点 → OLMo 3（档位 S）
               ↓ No
需要完整 arXiv 技术报告     → DeepSeek / Qwen / Moonshot / GLM-5 / Ant / Meituan / Xiaomi / NVIDIA / StepFun / Apple / Baidu（档位 1）
               ↓ No
接受 blog / Model Card      → Meta Llama 4 / OpenAI gpt-oss / MiniMax M2.5 / GLM-5.1（档位 2-3）
               ↓ No
仅需 API / 闭源             → Claude / Gemini / GPT-5 / Grok 4+

🔬 技术路线聚类

路线	代表机构 / 模型
标准 Transformer 稠密 / MoE	Meta · Alibaba · DeepSeek · Mistral · Moonshot · Xiaomi · Ant · Meituan · Zhipu
线性 / 混合注意力	MiniMax（Lightning Attention）· NVIDIA（Mamba-Transformer，Nemotron-H / 3）· StepFun（MFA）· Xiaomi（SWA + 全局 5:1）· Ant Group Ring-2.5-1T（混合线性）· AI21 Jamba（Mamba-Transformer）· Tencent Hunyuan-TurboS（Mamba2 + Transformer + FFN）
稀疏注意力（新兴）	DeepSeek V3.2（DSA）· Z.ai GLM-5.1（DSA）
Fully-open 学术派	Allen AI / Ai2（OLMo 1/2/3，含 Dolma 数据集、Tülu 3 后训练）
小尺寸实用派（≤ 30B）	Google Gemma（2B–27B）· Mistral Ministral（3B–14B）· Xiaomi MiMo（7B）· Allen AI OLMo（7B–32B） · StepFun Step3-VL（10B）· Nemotron 3 Nano（30B / 3B A）
工具 / Agent 原生	Kimi K2 / K2.5（MuonClip + Agent Swarm）· GLM-4.5 / GLM-5（ARC + 异步 RL）· LongCat-Flash-Thinking（DORA + Heavy Thinking）· Claude Opus 4.x
低比特 / 硬件原生训练	NVIDIA Nemotron 3（NVFP4 + LatentMoE）· Ant Ling 2.0（FP8 训练） · Apple AFM（2-bit QAT 端侧）
Model-System Co-design	StepFun Step-3（MFA + AFD）· DeepSeek V3（FP8 训练 + DualPipe）
新型优化器	Moonshot MuonClip（Muon + QK-clip）· Ant Group Ling Scaling Laws（MoE 专属 scaling）

📚 附录

A. 数据来源与核对方法

arXiv：所有论文编号、标题、提交日期均核对自 arXiv.org abstract 页面（逐条访问）
HuggingFace：所有模型仓库 URL 均从对应机构官方 HF 组织页面或论文 / 官方博客内链接获取并访问确认
官方博客 / System Card：直接从公司域名（anthropic.com、openai.com、x.ai、z.ai、mistral.ai、microsoft.ai、amazon.science、deepmind.com 等）访问确认
时间列规则：
- 有 arXiv 论文的条目：使用 arXiv v1 提交月份
- 仅 blog / System Card：使用官方发布日期
- 产品发布与 arXiv 提交不一致时（例如 GPT-5 产品 2025-08 / arXiv 2025-12），以括号形式并列标注
排行榜参考（访问日期 2026-04）：

B. 使用说明

访问 arXiv 论文：https://arxiv.org/abs/<编号>（文档中所有链接均为可点击）
访问 HuggingFace 模型：直接点击表格中的仓库链接
HF Papers 聚合（按 arXiv 编号搜索即可）：https://huggingface.co/papers

C. 已知范围限制

本文档收录 基础语言模型主线 论文与最重要的 System / Model Card，不含以下内容：
- 专项模型（如 Qwen-Math、DeepSeek-Coder、DeepSeek-Prover、MiMo-VL、Qwen3-Coder、GLM-4.6V 等专精分支）
- 评估基准论文（如 Tülu、OpenInstruct 等）
- 纯应用类论文（如 Step-GUI、Step Deep Research、Project Mariner 等）
- 语音 / 图像 / 视频独立生成模型的完整历代（仅选代表作，如 LongCat-Image、Qwen3.5-Omni）
Part B 尚未覆盖：Midjourney、Runway、Stability AI、Suno、11Labs、Perplexity 等以非 LLM 或以产品为核心的 AI 公司
非公开技术文档的闭源模型（如部分政府 / 特定行业模型）不在收录范围

D. 更新日志

2026-04-21：完成全量 arXiv 编号与 HuggingFace 链接的二次核对；新增 Claude Opus 4.6 / 4.7 条目；补充 GPT-5 System Card 的 arXiv 提交日期与产品发布日期的错位说明；修正 Step-3 论文标题大小写；完善"数据来源与核对方法"的时间列规则；Anthropic / OpenAI 透明度演化观察新增两行。

E. 贡献方式

如发现链接失效、arXiv 编号错误、遗漏新发布模型，或希望扩充 License 列 / GitHub 列，请在对应表格 PR 中注明：

机构 & 系列
arXiv 编号（若有）或官方 blog URL
HuggingFace 仓库（若有）
核心技术贡献（≤ 1 句）
核对日期

F. 按 arXiv 编号一页速查

按 arXiv ID 升序，便于交叉检索。仅收录 Part A + Part B 正文表格内 arXiv 论文。

arXiv ID	标题简写	机构	时间
2005.14165	GPT-3（Few-Shot Learners）	OpenAI	2020-05
2103.10360	GLM	Zhipu / THUDM	2021-03
2203.02155	InstructGPT	OpenAI	2022-03
2210.02414	GLM-130B	Zhipu	2022-10
2212.08073	Constitutional AI	Anthropic	2022-12
2302.13971	LLaMA 1	Meta	2023-02
2303.08774	GPT-4 Technical Report	OpenAI	2023-03
2307.09288	Llama 2	Meta	2023-07
2309.16609	Qwen	Alibaba	2023-09
2310.06825	Mistral 7B	Mistral	2023-10
2312.11805	Gemini 1.0	Google	2023-12
2401.02954	DeepSeek LLM	DeepSeek	2024-01
2401.04088	Mixtral of Experts	Mistral	2024-01
2402.00838	OLMo 1	Ai2	2024-02
2402.16819	Nemotron-4 15B	NVIDIA	2024-02
2403.05530	Gemini 1.5	Google	2024-03
2403.08295	Gemma 1	Google	2024-03
2403.19887	Jamba	AI21 Labs	2024-03
2404.12387	Reka Core / Flash / Edge	Reka AI	2024-04
2405.04434	DeepSeek-V2（MLA）	DeepSeek	2024-05
2406.11704	Nemotron-4 340B	NVIDIA	2024-06
2406.12793	ChatGLM	Zhipu	2024-06
2407.10671	Qwen2	Alibaba	2024-07
2407.21075	Apple AFM 2024	Apple	2024-07
2407.21783	The Llama 3 Herd	Meta	2024-07
2408.00118	Gemma 2	Google	2024-07
2411.02265	Hunyuan-Large	Tencent	2024-11
2412.15115	Qwen2.5	Alibaba	2024-12
2412.16720	OpenAI o1 System Card	OpenAI	2024-12
2412.19437	DeepSeek-V3	DeepSeek	2024-12
2501.00656	OLMo 2	Ai2	2025-01
2501.08313	MiniMax-01（Lightning Attn）	MiniMax	2025-01
2501.12599	Kimi k1.5	Moonshot	2025-01
2501.12948	DeepSeek-R1 （Nature 645）	DeepSeek	2025-01
2503.05139	Ling（Every FLOP Counts）	Ant Group	2025-03
2503.19786	Gemma 3	Google	2025-03
2504.00698	Command A	Cohere	2025-04
2504.03624	Nemotron-H	NVIDIA	2025-04
2504.07158	Ring-lite（Compact Reasoning）	Ant Group	2025-04
2504.13914	Seed-Thinking v1.5	ByteDance	2025-04
2505.00949	Llama-Nemotron	NVIDIA	2025-05
2505.04519	Pangu Ultra MoE	Huawei	2025-05
2505.07608	MiMo（Xiaomi 首款）	Xiaomi	2025-05
2505.09388	Qwen3	Alibaba	2025-05
2505.15431	Hunyuan-TurboS	Tencent	2025-05
2506.03569	MiMo-VL	Xiaomi	2025-06
2506.10910	Magistral	Mistral	2025-06
2506.12103	Amazon Nova（arXiv 版）	Amazon	2025-06
2506.13585	MiniMax-M1	MiniMax	2025-06
2507.06261	Gemini 2.5	Google	2025-07
2507.07145	ERNIE 4.5	Baidu	2025-07
2507.13575	Apple AFM 2025（PT-MoE）	Apple	2025-07
2507.17702	Ling Scaling Laws	Ant Group	2025-07
2507.19427	Step-3	StepFun	2025-07
2507.20534	Kimi K2	Moonshot	2025-07
2508.06471	GLM-4.5（ARC）	Z.ai	2025-08
2508.10925	gpt-oss-120b / 20b Card	OpenAI	2025-08
2509.01322	LongCat-Flash	Meituan	2025-09
2510.22115	Ling-1T / Ling 2.0	Ant Group	2025-10
2511.00279	LongCat-Flash-Omni	Meituan	2025-11
2512.02556	DeepSeek-V3.2（DSA）	DeepSeek	2025-12
2512.07584	LongCat-Image	Meituan	2025-12
2512.13961	Olmo 3	Ai2	2025-12
2512.20856	Nemotron 3	NVIDIA	2025-12
2601.02780	MiMo-V2-Flash	Xiaomi	2026-01
2601.03267	GPT-5 System Card	OpenAI	2026-01（产品 2025-08）
2601.08584	Ministral 3	Mistral	2026-01
2601.09668	STEP3-VL-10B	StepFun	2026-01
2601.16725	LongCat-Flash-Thinking-2601	Meituan	2026-01
2601.19134	Nova 2.0 Lite 安全评估	Amazon	2026-01
2602.02276	Kimi K2.5	Moonshot	2026-02
2602.04705	ERNIE 5.0	Baidu	2026-02
2602.10604	Step 3.5 Flash	StepFun	2026-02
2602.15763	GLM-5	Z.ai	2026-02

BIGBALLON/llm-technical-reports-2026.md

主要大语言模型公司历代技术报告汇总（开源 + 闭源）

📖 术语说明

🟢 Part A. Open-weight / Fully-open 路线（16 家机构）

📊 总览（16 家机构）

🎯 Part A 旗舰快查表（License · 规格 · 上下文 · 代码仓库）

📁 各家公司详细信息

1. 🇺🇸 Meta（Llama 系列）

2. 🇺🇸 Google DeepMind（Gemma 系列）

3. 🇨🇳 Alibaba（Qwen 系列）

4. 🇫🇷 Mistral AI

5. 🇨🇳 DeepSeek

6. 🇨🇳 Zhipu AI / Z.ai（GLM 系列）

7. 🇨🇳 Moonshot AI（Kimi 系列）

8. 🇨🇳 MiniMax

9. 🇨🇳 Xiaomi（MiMo 系列）

10. 🇺🇸 OpenAI（gpt-oss 系列）

11. 🇨🇳 Ant Group 蚂蚁集团（inclusionAI / Ling 团队）

12. 🇨🇳 Meituan 美团（LongCat 团队）

13. 🇺🇸 NVIDIA（Nemotron 系列）

14. 🇺🇸 xAI（Grok 系列）

15. 🇺🇸 Allen AI / Ai2（OLMo 系列）

16. 🇨🇳 StepFun 阶跃星辰（Step 系列）

🔒 Part B. 闭源 / API-first / 混合路线前沿 LLM 公司（11 家）

📊 Part B 总览（11 家机构）

🎯 Part B 旗舰快查表（接入方式 · 规格 · 上下文 · 定价）

B1. 🇺🇸 OpenAI（GPT 旗舰闭源线）

B2. 🇺🇸 Anthropic（Claude 系列）

B3. 🇺🇸 Google DeepMind（Gemini 闭源旗舰线）

B4. 🇺🇸 xAI（Grok-2 之后的闭源线）

B5. 🇺🇸 Apple（Apple Intelligence Foundation Models）

B6. 🇺🇸 Amazon（Nova / Titan）

B7. 🇨🇦 Cohere（Command 系列）

B8. 🇨🇳 ByteDance Seed（Doubao 豆包）

B9. 🇨🇳 Baidu 文心（百度 ERNIE）

B10. 🇨🇳 Tencent 混元（Hunyuan）

B11. 🇺🇸 Microsoft AI（MAI）

📎 其他值得关注（非首发 / 已合并 / 数据有限）

🔍 分析与观察

📈 透明度四档分布

🕒 发布时间线（2021-03 → 2026-02）

🏆 技术影响力具代表性的论文（按领域）

📊 前沿模型基准速览（2026-Q2）

📉 透明度演化观察（2024–2026）

💰 公开训练成本对比（可复现）

🌱 2025 年度新进场机构

🧭 选型决策指南（2026-Q2）

按使用场景

按许可证友好度

按透明度需求

🔬 技术路线聚类

📚 附录

A. 数据来源与核对方法

B. 使用说明

C. 已知范围限制

D. 更新日志

E. 贡献方式

F. 按 arXiv 编号一页速查