Grandes Modelos de Linguagem

Um Panorama Técnico e Comparativo dos LLMs em 2025–2026

Modelos abertos e fechados · Arquiteturas · Custos · Multimodalidade · Treinamento

Sumário

Introdução
Fundamentos: O que Diferencia um LLM do Outro
Modelos de Pesos Abertos (Open-Weight)
- 3.1 Llama — Meta AI
- 3.2 DeepSeek — DeepSeek AI
- 3.3 Qwen — Alibaba
- 3.4 Gemma — Google DeepMind
- 3.5 Phi — Microsoft Research
- 3.6 GLM — Z.ai (ex-Zhipu AI)
- 3.7 Kimi — Moonshot AI
- 3.8 MiniMax
- 3.9 Outros Modelos Open-Weight Notáveis
Modelos Fechados (Proprietários)
- 4.1 Claude — Anthropic
- 4.2 GPT e Codex — OpenAI
- 4.3 Gemini — Google DeepMind
- 4.4 Grok — xAI
- 4.5 Nota sobre "Composer"
Tabela Comparativa Geral
Dimensões de Diferenciação em Detalhe
Guia Prático de Seleção
Tendências e Perspectivas para 2026–2027
Conclusão
Referências

1. Introdução

O termo Large Language Model (LLM) designa sistemas de inteligência artificial treinados em enormes corpora textuais para compreender, gerar e raciocinar em linguagem natural. Desde o lançamento do GPT-3 em 2020 e, sobretudo, a explosão do ChatGPT em novembro de 2022, o mercado passou por uma compressão de ciclos de inovação sem precedentes: modelos que seriam considerados de última geração em 2023 tornaram-se referências intermediárias em 2025, e o que antes custava centenas de dólares por milhão de tokens agora se aproxima de frações de centavo.

Este artigo cataloga e compara os modelos mais relevantes da atualidade, organizados em duas grandes categorias: modelos de pesos abertos (open-weight) e modelos fechados (closed-source ou proprietários). Para cada família são detalhados empresa de origem, arquitetura interna, uso de Mixture of Experts (MoE), janela de contexto, multimodalidade, estratégia de treinamento, custos de API e casos de uso recomendados.

Como pano de fundo técnico, a galeria de arquiteturas de Sebastian Raschka (sebastianraschka.com/llm-architecture-gallery) serve como referência visual para as decisões de design que diferenciam cada família.

Os dados aqui apresentados refletem o estado do ecossistema em abril de 2026 e devem ser verificados contra documentação oficial antes de decisões de produção.

2. Fundamentos: O que Diferencia um LLM do Outro

2.1 Arquitetura Transformer e suas Variações

Todos os modelos relevantes deste artigo derivam da arquitetura Transformer (Vaswani et al., 2017). O design canônico combina camadas de atenção multi-cabeça com redes feed-forward (FFN). As variações modernas concentram-se em três pontos críticos: normalização (LayerNorm vs. RMSNorm), mecanismo de atenção (MHA vs. GQA vs. MLA) e a camada FFN (densa vs. esparsa com MoE).

A adoção do RMSNorm no lugar do LayerNorm convencional reduziu o custo computacional da normalização sem degradar qualidade. O Grouped-Query Attention (GQA), presente no Llama 3 e no Gemma, diminui a memória do cache KV durante inferência ao compartilhar cabeças de chave e valor entre grupos de cabeças de consulta. O Multi-Head Latent Attention (MLA), introduzido pelo DeepSeek V2, vai além: comprime os tensores K e V para um espaço de menor dimensão antes do armazenamento no cache, resultando em economia de memória ainda maior, especialmente em contextos longos.

Comparação de mecanismos de atenção:

MHA  (padrão)  → n_heads × d_head × 2  tensores no cache KV por token
GQA            → n_groups × d_head × 2  tensores (grupos compartilhados)
MLA (DeepSeek) → d_latent << n_heads × d_head  (compressão joint K+V)

2.2 Mixture of Experts (MoE)

O MoE é talvez a inovação arquitetural de maior impacto no ciclo 2024–2026. Em vez de ativar toda a FFN para cada token, um roteador seleciona um subconjunto de "especialistas" (MLPs menores). O modelo DeepSeek V3, por exemplo, possui 671 bilhões de parâmetros totais, mas apenas ~37 bilhões são ativados por token. O resultado é qualidade próxima a um modelo denso de tamanho equivalente, mas com custo de inferência e treinamento correspondente ao número de parâmetros ativos, não ao total.

O principal desafio do MoE é o colapso de roteamento: se todos os tokens forem roteados para os mesmos especialistas, a diversidade é perdida. Abordagens recentes incluem perdas auxiliares de balanceamento de carga (Mixtral, Llama 4) e o mecanismo sem perda auxiliar do DeepSeek V3, que utiliza termos de viés por especialista ajustados manualmente ao longo do treinamento.

Anatomia do DeepSeek MoE (por camada FFN):

┌─────────────────────────────────────────────────────────────┐
│  Token →  Router  →  Top-8 de 256 especialistas roteados   │
│                  →  1 especialista compartilhado (sempre)   │
│                                                              │
│  Custo ativo ≈ 9 × d_expert_hidden × 2  (SwiGLU)           │
│  vs. custo total = 257 × d_expert_hidden × 2                │
└─────────────────────────────────────────────────────────────┘

2.3 Janela de Contexto

A janela de contexto define quantos tokens um modelo pode processar em uma única passagem.

Época	Padrão de mercado
2023	4.096 tokens
2024	128.000 tokens
2026	1M–10M tokens

Contextos longos permitem analisar bases de código completas, livros, transcrições jurídicas extensas ou sessões de agentes autônomos — mas têm custo de processamento proporcional ao quadrado do comprimento em atenção densa padrão, razão pela qual mecanismos como atenção deslizante (sliding window) e compressão KV são cruciais.

2.4 Treinamento: Pré-treino, SFT e RLHF/GRPO

O ciclo de treinamento moderno possui três estágios:

Pré-treino: o modelo aprende a prever o próximo token sobre trilhões de tokens de texto cru (web, livros, código, artigos científicos).
Ajuste fino supervisionado (SFT): o modelo é exposto a pares instrução-resposta de alta qualidade para adquirir o comportamento de seguir instruções.
Alinhamento por reforço: RLHF clássico com modelo de recompensa treinado em preferências humanas, ou variantes como GRPO e RLAIF. Molda o estilo, a segurança e a utilidade da resposta.

O DeepSeek R1 demonstrou que o raciocínio em cadeia de pensamento (chain-of-thought) pode emergir puramente de RLVR (RL com verificador de resposta) sem necessidade de dados de CoT curados — um marco técnico relevante.

2.5 Aberto versus Fechado: O que Significa na Prática

A distinção "open-source" é mais gradual do que binária:

Nível de abertura	Exemplo	O que está público
Totalmente aberto	OLMo 3	Pesos + dados + código + logs
Apache 2.0	Qwen 3.5, Gemma 4	Pesos + código (sem dados)
Licença comunitária	Llama 4	Pesos (restrições comerciais)
Pesos apenas	Grok (parcial)	Pesos sem dados ou código
Totalmente fechado	GPT, Claude	Nenhum acesso aos internos

3. Modelos de Pesos Abertos (Open-Weight)

Os modelos abertos transformaram o acesso à IA generativa. Em 2024, a narrativa dominante era que eles estavam dois anos atrás da fronteira fechada. Em abril de 2026, essa distância colapsou para zero em vários benchmarks de codificação e raciocínio.

3.1 Llama — Meta AI

Tipo: Open-Weight | Licença: Llama Community License (gratuita até 700M MAU)

A família Llama é a mais influente da história dos LLMs abertos. Desde o vazamento não intencional do Llama 1 em 2023, que acelerou toda a comunidade open-source, até o Llama 4 de 2025–2026, a Meta estabeleceu o padrão arquitetural que dezenas de projetos derivados seguiram.

Evolução da família:

Llama 1 (2023) — Modelos de 7B a 65B parâmetros, treinados em 1,4T tokens de dados públicos. Base para Alpaca, Vicuna e centenas de fine-tunes da comunidade.
Llama 2 (jul/2023) — Contexto de 4.096 tokens, fine-tune de chat com RLHF, versões de 7B, 13B e 70B. Primeira versão com licença comercial explícita.
Llama 3 (abr/2024) — Janela de 128.000 tokens, vocabulário de 128.256 tokens, treinamento em 15T tokens, GQA para eficiência de KV cache.
Llama 3.2 (set/2024) — Modelos leves (1B, 3B) para uso em dispositivos edge e primeiros modelos com capacidade de visão da família (11B-VL, 90B-VL).
Llama 4 Scout / Maverick (abr/2025) — Salto arquitetural para MoE nativo. O Scout possui 109B parâmetros totais (17B ativos) e janela de contexto recorde de 10 milhões de tokens. O Maverick escala para 400B totais, mantendo 17B ativos, e suporta entradas de texto e imagem.

Especificações (Llama 4):

Atributo	Valor
Empresa	Meta AI
Última versão	Llama 4 Scout / Maverick (abr/2025)
Parâmetros	17B ativos / 109B–400B totais (MoE)
Janela de contexto	10M tokens (Scout) \| 1M tokens (Maverick)
Arquitetura	Transformer decoder, MoE, RoPE, RMSNorm, GQA
MoE	Sim — alternância de blocos densos e MoE
Multimodal	Texto + imagem (Llama 4)
Treinamento	~20T tokens; SFT + RLHF; destilação do Behemoth
Custo de API	~US$ 0,19–0,49/M tokens (via providers terceiros)
Licença	Llama Community License
Uso recomendado	Soberania de dados, self-host, contextos longos

3.2 DeepSeek — DeepSeek AI (China)

Tipo: Open-Weight | Licença: MIT / DeepSeek License

Nenhum modelo da história recente gerou tanto impacto econômico e técnico quanto o DeepSeek V3, lançado em dezembro de 2024. Ao demonstrar que era possível treinar um modelo de fronteira com apenas 2,788 milhões de horas de GPU H800 — cerca de dez vezes menos do que o Llama 3.1 405B de desempenho equivalente — o DeepSeek abanou as premissas do mercado sobre custo de treinamento.

Inovações arquiteturais principais:

Multi-Head Latent Attention (MLA): Comprime os tensores K e V para um espaço de menor dimensão antes do armazenamento no cache KV, reduzindo dramaticamente o consumo de memória durante inferência em contextos longos. A DeepSeek afirma que a MLA supera a atenção padrão em várias configurações — não é apenas uma otimização de memória, mas uma melhoria de qualidade.

DeepSeekMoE com especialistas granulares: Em vez de poucos especialistas grandes, o DeepSeek usa 256 especialistas roteados por camada, com apenas 8 ativados por token, mais 1 especialista compartilhado sempre ativo. Especialistas menores permitem maior especialização do conhecimento.

Balanceamento sem perda auxiliar: Em vez de impor uma perda de balanceamento (que compete com a perda de linguagem principal), o V3 ajusta manualmente termos de viés por especialista ao longo do treinamento. Resultado: melhor balanceamento e melhor desempenho geral.

Multi-Token Prediction (MTP): O modelo é treinado para prever múltiplos tokens futuros em cada passagem, melhorando o aprendizado e habilitando decodificação especulativa para maior throughput.

FP8 Mixed Precision Training: Primeira validação em larga escala de treinamento em precisão FP8 para um modelo desta magnitude.

Arquitetura DeepSeek V3 (simplificada):

Cada camada:
  ┌─ Multi-Head Latent Attention (MLA)
  │    K,V → comprime para d_c << d_h × n_h → armazena no cache
  │    na inferência: projeta de volta para dimensão original
  │
  └─ DeepSeekMoE FFN
       ├─ 1 especialista compartilhado (sempre ativado)
       └─ 256 especialistas roteados → top-8 selecionados por token
          via sigmoid affinity + bias de balanceamento

Atributo	Valor
Empresa	DeepSeek AI (Hangzhou, China)
Última versão	DeepSeek V3.2 (dez/2025); V4 em desenvolvimento
Parâmetros	671B totais / ~37B ativos por token
Janela de contexto	128.000 tokens
Arquitetura	MoE + MLA + RoPE + RMSNorm + SwiGLU; FP8 training
MoE	Sim — 256 especialistas + 1 compartilhado; top-8
Multimodal	Texto; V4 com suporte nativo a imagens
Treinamento	14,8T tokens; SFT + GRPO; destilação de raciocínio
Custo de API	US$ 0,28/M input \| US$ 0,42/M output (mínimo da classe)
Licença	MIT (pesos) + DeepSeek License
Uso recomendado	Alto volume, custo crítico, raciocínio científico

Nota sobre o DeepSeek R1: Derivado da mesma arquitetura V3, foi treinado puramente via RLVR (Reinforcement Learning with Verifiable Rewards) para desenvolver capacidade de raciocínio em cadeia de pensamento. Sem dados curados de CoT, o modelo aprendeu a "pensar em voz alta" de forma emergente — uma demonstração marcante de que raciocínio explícito pode ser induzido por RL puro. O R1 atingiu paridade com o o1 da OpenAI em benchmarks matemáticos e de código na época do lançamento.

3.3 Qwen — Alibaba Group (China)

Tipo: Open-Weight | Licença: Apache 2.0

A família Qwen, desenvolvida pelo Alibaba, é o ecossistema de modelos abertos mais completo disponível sob licença totalmente permissiva (Apache 2.0) em abril de 2026. Cobre desde modelos de 0,6B para dispositivos IoT até o Qwen 3.5 de 397B parâmetros com MoE. O portfólio inclui variantes de texto, código, matemática, visão, áudio e raciocínio.

Marcos técnicos:

Qwen 2.5 (set/2024) — Família de 0,5B a 72B, GQA, vocabulário de 151.936 tokens com cobertura multilingual expandida, contexto de 128K. Qwen2.5-Max afirma superar o DeepSeek V3 em alguns benchmarks.
Qwen 3 (2025) — Introdução de MoE em escala (235B total, 22B ativos), modo dual de raciocínio (thinking/non-thinking), QK-Norm para estabilidade de treinamento.
Qwen 3.5 Small (fev-mar/2026) — Série de 0,8B a 9B, todas Apache 2.0, multimodal nativo. O modelo de 9B supera modelos 13x maiores em GPQA Diamond. O 2B roda em iPhone sem conexão de rede.
Qwen 3.5 grande (397B MoE) — Modelo de servidor de máximo desempenho, ainda o mais capaz da linha aberta Alibaba.
Qwen 3-Coder (jul/2025) — Variante especializada em geração e análise de código, posicionada diretamente contra o GPT-4 em tarefas de engenharia de software.

Atributo	Valor
Empresa	Alibaba Group / Tongyi Lab (Hangzhou, China)
Última versão	Qwen 3.5 / Qwen 3.6 Plus (mar/2026)
Parâmetros	0,6B–397B; flagships MoE: 235B total / 22B ativos
Janela de contexto	128K–1M tokens (varia por variante)
Arquitetura	Transformer decoder, GQA, QK-Norm, RoPE, SwiGLU
MoE	Sim nos modelos grandes — sem especialista compartilhado
Multimodal	Texto, imagem, áudio, vídeo (Qwen2.5-VL, Qwen-Audio)
Treinamento	Pré-treino multilingual (100+ idiomas); SFT + RLHF
Custo de API	~US$ 0,10/M (9B) até ~US$ 0,50/M (flagships)
Licença	Apache 2.0 (uso comercial irrestrito)
Uso recomendado	Multilingual, borda/edge, custo/performance otimizado

3.4 Gemma — Google DeepMind

Tipo: Open-Weight | Licença: Apache 2.0 (a partir da Gemma 4)

A família Gemma é a representação open-weight das escolhas técnicas do Google para modelos compactos. O salto da Gemma 3 para a Gemma 4 (abr/2026) foi o maior salto de benchmark em geração única já observado no espaço open, acompanhado de mudança de licença para Apache 2.0 — eliminando a última desvantagem competitiva em relação ao Qwen.

Características técnicas distintivas:

Atenção local-global alternada: Camadas de atenção deslizante (local) alternadas com atenção global completa. Reduz o custo quadrático da atenção em contextos longos enquanto mantém dependências de longo alcance.

Vocabulário de 262K tokens: Um dos maiores vocabulários de qualquer modelo aberto, cobrindo 140 idiomas e conjuntos de caracteres especiais para código.

Variantes MoE na Gemma 4: A Gemma 4 26B-A4B (26B total, 4B ativos) oferece velocidade de inferência MoE com qualidade de modelo grande — 3x mais rápida que sua contraparte densa.

Per-Layer Embeddings (PLE) nos modelos E2B/E4B: As variantes de borda maximizam a eficiência de parâmetros, rodando em smartphones com 5GB de RAM.

Benchmarks Gemma 4 31B:

Benchmark	Score
AIME 2026 (math)	89,2%
LiveCodeBench v6	80,0%
GPQA Diamond	84,3%
MMLU Pro	85,2%
MMMU Pro (vision)	76,9%

Atributo	Valor
Empresa	Google DeepMind
Última versão	Gemma 4 (abr/2026): E2B, E4B, 8B, 26B-MoE, 31B
Parâmetros	270M (nano) a 31B (dense); 26B total / 4B ativos (MoE)
Janela de contexto	256K tokens (Gemma 4 31B)
Arquitetura	Atenção local-global, GQA, RMSNorm, SwiGLU
MoE	Sim na variante 26B-A4B; densos nos demais
Multimodal	Texto + imagem nativo em todos os modelos Gemma 4
Treinamento	Destilação de técnicas Gemini; SFT + RLHF
Custo de API	Gratuito via Google AI Studio; PAYG via Vertex AI
Licença	Apache 2.0
Uso recomendado	STEM, código, borda/mobile, integração Google Cloud

3.5 Phi — Microsoft Research

Tipo: Open-Weight | Licença: MIT

A família Phi representa a aposta da Microsoft em small language models (SLMs): modelos que, apesar do tamanho reduzido, competem com modelos 5 a 50 vezes maiores em tarefas estruturadas. A filosofia central é a curadoria extrema de dados de treinamento em vez de escala bruta de parâmetros — o que a Microsoft chama de "textbook quality" data.

Variantes:

Modelo	Params	Contexto	Destaque
Phi-4	14B	16K	Base; supera 70B em STEM e raciocínio
Phi-4-mini	3,8B	128K	GQA; vocabulário 200K; edge/dispositivo
Phi-4-multimodal	5,6B	128K	Texto + visão + fala (mixture-of-LoRAs)
Phi-4-reasoning	14B	128K	Thinking block; supera DeepSeek R1 e o1-mini

O Phi-4-reasoning, com apenas 14B parâmetros, supera o DeepSeek R1 original e o Claude 3.7 Sonnet em raciocínio matemático e científico — rodando em laptops com GPU de consumidor.

Atributo	Valor
Empresa	Microsoft Research AI Frontiers
Última versão	Phi-4-reasoning / Phi-4-multimodal (2025)
Parâmetros	3,8B (mini) a 14B (base, reasoning)
Janela de contexto	128K tokens (mini, multimodal); 16K (base)
Arquitetura	Dense decoder, GQA (mini), mixture-of-LoRAs (mm)
MoE	Não — denso; LoRA mixing no multimodal
Multimodal	Texto + imagem + áudio (Phi-4-multimodal)
Treinamento	"Textbook quality" data; SFT STEM; RL para reasoning
Custo de API	Gratuito via Azure AI Foundry (limitado)
Licença	MIT — totalmente permissivo
Uso recomendado	Edge, on-premise com GPU modesta, STEM, código

3.6 GLM — Z.ai (ex-Zhipu AI, China)

Tipo: Open-Weight | Licença: Apache 2.0 (GLM-5.1)

A série GLM (General Language Model) nasceu nos laboratórios da Universidade Tsinghua e foi comercializada pela Zhipu AI, rebatizada como Z.ai em 2025. É um dos modelos bilíngues (chinês-inglês) de maior adoção na Ásia, e a versão GLM-5 (fevereiro de 2026) representa a chegada ao nível de fronteira global.

Linha do tempo:

ChatGLM (2021–2023) — Modelos de 6B parâmetros, bilíngues, Apache 2.0. Primeiros LLMs abertos verdadeiramente competitivos para o idioma chinês.
GLM-4.5 (355B, jul/2025) — MoE com 32B ativos. Roda em oito chips NVIDIA H20. Primeiro modelo chinês open-source de escala MoE comparável ao DeepSeek.
GLM-4.7 (355B, dez/2025) — SWE-bench acima de 70% — primeiro modelo aberto chinês a alcançar esse marco.
GLM-5 (744B, fev/2026) — 744B totais / 40B ativos. SWE-bench: 77,8%. Treinado inteiramente em chips Huawei Ascend — independência total do NVIDIA para um modelo de fronteira.
GLM-5.1 (744B, abr/2026) — Refinamento focado em codificação. 45,3 no Claude Code Evaluation (vs. 47,9 do Claude Opus 4.6) — 94,6% do desempenho do Opus por uma fração do custo.

Atributo	Valor
Empresa	Z.ai (Zhipu AI), Universidade Tsinghua — Beijing
Última versão	GLM-5.1 (abr/2026, open-source)
Parâmetros	355B (4.5) → 744B totais / 40B ativos (GLM-5/5.1)
Janela de contexto	128.000 tokens
Arquitetura	MoE própria; DeepSeek Sparse Attention no GLM-5
MoE	Sim — GLM-4.5+ são todos MoE
Multimodal	GLM-V para visão; foco em texto+código no GLM-5
Treinamento	Dados bilíngues ZH/EN; RLHF; destilação de raciocínio
Custo de API	~US$ 3/mês (GLM Coding Plan) vs Claude Max US$100+
Licença	Apache 2.0
Uso recomendado	Codificação custo-eficiência máxima, bilíngue ZH/EN

3.7 Kimi — Moonshot AI (China)

Tipo: Open-Weight | Licença: Apache 2.0

O Moonshot AI, fundado em 2023 e sediado em Beijing, ganhou notoriedade por ser o primeiro laboratório a oferecer contexto de 1 milhão de tokens em produto comercial — antes que qualquer modelo ocidental chegasse a essa marca.

Versões principais:

Kimi K1.5 (jan/2025) — Multimodal, 128K tokens, integração de pesquisa web em tempo real.
Kimi K2 (mid-2025) — ~1 trilhão de parâmetros totais. Mecanismo de atenção novel para contextos ultra-longos. Lidera o open-source SWE-rebench Pass@1 em alguns marcos.
Kimi K2.5 (mar/2026) — Multimodalidade nativa (texto + imagem), melhor seguimento de instruções, disponível como modelo aberto.
Kimi Linear — 48B total / 3B ativos com atenção linear-transformer híbrida — substitui a maior parte das camadas de atenção completa por mecanismos lineares, aumentando throughput em contextos longos.

Atributo	Valor
Empresa	Moonshot AI — Beijing, China
Última versão	Kimi K2.5 (mar/2026)
Parâmetros	~1T (K2/K2.5); 48B-A3B (Kimi Linear)
Janela de contexto	1M tokens (K2/K2.5); 128K (K1.5)
Arquitetura	Atenção especializada para ultra-long context
MoE	Sim nos modelos grandes K2/K2.5
Multimodal	Texto + imagem (K2.5 nativo); busca web integrada
Treinamento	Foco em long-context; dados de análise de documentos
Licença	Apache 2.0 (pesos liberados)
Uso recomendado	Análise de documentos longos, pesquisa, bases de código

3.8 MiniMax (China)

Tipo: Open-Weight | Licença: Apache 2.0

A MiniMax, fundada em 2021, é um dos modelos mais subestimados do ecossistema global. O MiniMax M2.5, lançado no início de 2026, atingiu 80,2% no SWE-bench Verified — apenas 0,6 ponto abaixo do Claude Opus 4.6, a aproximadamente 1/20 do custo. Ao contrário da tendência MoE dominante, o M2 retornou à atenção completa em sua arquitetura.

A galeria de Raschka descreve o MiniMax M2 como "primo mais esparso do Qwen3" — atenção completa, roteamento esparso, sem especialista compartilhado, QK-Norm por camada. A combinação resulta em um modelo que prioriza qualidade de atenção sobre eficiência de roteamento.

Atributo	Valor
Empresa	MiniMax AI — Shanghai, China
Última versão	MiniMax M2.5 (mar/2026)
Parâmetros	~230B
Janela de contexto	Não divulgado oficialmente
Arquitetura	Atenção completa; QK-Norm; roteamento esparso
MoE	Roteamento esparso; atenção completa (não MoE clássico)
Multimodal	Texto; MiniMax-VL para visão; Speech-02 para síntese
Treinamento	RLHF; forte em linguagens múltiplas (Java, Rust, Go)
Custo de API	US$ 0,30/M input \| US$ 1,20/M output
Licença	Apache 2.0
Uso recomendado	Codificação multi-linguagem, workflows profissionais

3.9 Outros Modelos Open-Weight Notáveis

Mistral (Mistral AI, França) A Mistral AI, fundada por ex-pesquisadores do Google DeepMind e Meta, popularizou Sliding Window Attention e MoE eficiente com o Mixtral 8x7B em 2023. O Mistral Small 4 (119B, 2026) usa Apache 2.0 e consolida a posição da empresa como alternativa europeia de fronteira para implantação self-hosted.

OLMo (Allen Institute for AI) Primeiro modelo realmente "full open": pesos, dados de treinamento, código e logs de treinamento todos publicados. O OLMo 3 (32B) é o modelo de pesquisa mais transparente disponível, essencial para estudos de interpretabilidade e viés.

Nemotron (NVIDIA) A NVIDIA entrou no espaço de modelos com o Nemotron 3 Super (120B-A12B) e Nano (30B-A3B), otimizados para a stack TensorRT. Roteamento extremamente esparso que se aproxima da eficiência de SSMs sem abandonar o transformer.

4. Modelos Fechados (Proprietários)

Os modelos fechados oferecem o que os abertos ainda não conseguem garantir de forma consistente: SLA, segurança empresarial, evolução contínua gerenciada e, em vários casos, a margem de desempenho em raciocínio multimodal complexo. O acesso se dá exclusivamente via API ou produto de consumo, sem acesso aos pesos.

4.1 Claude — Anthropic

Tipo: Fechado | Acesso: API + claude.ai

A Anthropic foi fundada em 2021 por ex-líderes da OpenAI com foco explícito em segurança de IA. A família Claude, hoje na versão 4.6, distingue-se por sua arquitetura de treinamento centrada em Constitutional AI (CAI) e foco em comportamento de agentes auditáveis. O Claude Opus 4.6 lidera o SWE-bench Verified com 80,9% em codificação.

Variantes da família Claude 4.x:

Variante	Posicionamento	Custo (input/output, US$/M)
Haiku 4.5	Alta velocidade, alto volume, baixo custo	US$ 1 / US$ 5
Sonnet 4.6	Equilíbrio qualidade/custo; Opus-level em benchmarks	US$ 3 / US$ 15
Opus 4.6	Flagship — codificação complexa, agents longos	US$ 5 / US$ 25

Características técnicas distintivas:

A Anthropic não divulga arquitetura interna, contagem de parâmetros ou detalhes do conjunto de treinamento. O que é documentado externamente:

Contexto de 200.000 tokens em todos os modelos atuais
Constitutional AI (CAI): o modelo é treinado para autocriticar suas respostas contra princípios constitucionais, reduzindo dependência de grandes volumes de anotação humana
Forte suporte a tool use, agentic tasks e análise de documentos (PDFs, imagens)
Liderança em SWE-bench Verified — métrica de resolução real de issues GitHub

Atributo	Valor
Empresa	Anthropic — San Francisco, EUA
Modelos ativos	Haiku 4.5 \| Sonnet 4.6 \| Opus 4.6 (abr/2026)
Parâmetros	Não divulgados
Janela de contexto	200.000 tokens (todos os modelos 4.x)
Arquitetura	Transformer decoder; detalhes internos não publicados
MoE	Não confirmado publicamente
Multimodal	Texto + imagem; análise de documentos
Treinamento	Constitutional AI (CAI); RLHF com preferências humanas
Custo de API	Haiku: 1/5 \| Sonnet: 3/15 \| Opus: 5/25 US$/M
Licença	Proprietária
Uso recomendado	Agentes de produção auditáveis, codificação complexa

4.2 GPT e Codex — OpenAI

Tipo: Fechado | Acesso: API + ChatGPT

A OpenAI é a empresa que iniciou o ciclo atual com o GPT-3 (2020) e lançou o produto de IA mais adotado da história com o ChatGPT (nov/2022). A linha GPT passou por uma aceleração radical em 2025–2026.

Evolução recente:

GPT-4o (mai/2024) — Primeiro modelo com áudio, visão e texto em um único modelo nativo (omni). Contexto de 128K.
GPT-4.1 (2025) — Contexto de 1M tokens; variantes mini e nano com custo dramaticamente reduzido.
GPT-5 / 5.2 (2025) — Roteamento inteligente de raciocínio — ajusta automaticamente a profundidade com base na complexidade. Alucinações reduzidas ~80% vs. GPT-4. Taxa de inferência: 187 tokens/segundo.
GPT-5.3 Codex (mar/2026) — Unifica a linha Codex com a série GPT, integrando computer use nativo e contexto de 1M tokens em um modelo unificado para engenharia de software autônoma.

Série de raciocínio "o": Paralela à linha GPT, focada em raciocínio deliberado de alta precisão. Os modelos "pensam" por mais tempo antes de responder (o1, o3, o4-mini), trocando latência por acurácia em problemas de lógica complexa.

Atributo	Valor
Empresa	OpenAI — San Francisco, EUA
Modelos ativos	GPT-5.3 Codex, GPT-5.2, GPT-5 mini/nano, o3, o4-mini
Parâmetros	Não divulgados (estimados >175B para modelos grandes)
Janela de contexto	128K (GPT-4o) a 1M tokens (GPT-4.1 / GPT-5.3)
Arquitetura	Transformer decoder; roteamento de raciocínio adaptativo
MoE	Não confirmado publicamente
Multimodal	Texto + imagem + áudio + vídeo (GPT-4o e posteriores)
Treinamento	RLHF + RLAIF; raciocínio emergente (série o)
Custo de API	GPT-5.2: 1,75/14 \| mini: 0,25/2 \| nano: 0,05/0,40 US$/M
Licença	Proprietária
Uso recomendado	Aplicações multimodais, chatbots, codificação autônoma

4.3 Gemini — Google DeepMind

Tipo: Fechado | Acesso: API + Aplicações Google

O Gemini representa a integração da inteligência de modelos ao ecossistema Google — Search, Workspace, Android, Cloud. A arquitetura interna é construída nativamente para multimodalidade desde o início. O Gemini 3 Pro (nov/2025), com contexto de 1 milhão de tokens e suporte a texto, código, imagens, áudio, vídeo e PDFs simultaneamente, atingiu 1501 Elo no LMArena — primeiro modelo a superar a marca de 1500.

Hierarquia da linha Gemini:

Variante	Posicionamento	Contexto	Custo input US$/M
Flash Lite	Máxima eficiência, mínimo custo	1M	~US$ 0,25
Flash	Alta velocidade, bom custo	1M	US$ 0,50
Pro	Fronteira; raciocínio STEM, multimodal	1M	US$ 2,00
Deep Think	Raciocínio estendido (tipo o3)	1M	Não publicado

Atributo	Valor
Empresa	Google DeepMind — Mountain View, EUA
Modelos ativos	Gemini 3.1 Pro, Flash, Flash Lite (abr/2026)
Parâmetros	Não divulgados (estimativa: 1,2T para Pro/Ultra)
Janela de contexto	1M tokens (Pro / Flash)
Arquitetura	Multimodal-native transformer; atenção eficiente
MoE	Não confirmado publicamente
Multimodal	Texto + imagem + áudio + vídeo + código + PDFs
Treinamento	Dados multimodais nativos; RLHF
Custo de API	Pro: 2/12 \| Flash: 0,50/3 \| Flash Lite: 0,25/x US$/M
Licença	Proprietária; Google AI Studio gratuito com limites
Uso recomendado	Google Cloud, análise multimodal, contexto ultra-longo

4.4 Grok — xAI (Elon Musk)

Tipo: Fechado | Acesso: API + X (Twitter)

O Grok, desenvolvido pela xAI fundada por Elon Musk em 2023, diferencia-se pela integração com dados em tempo real da plataforma X e por uma postura de personalidade menos filtrada. O Grok 4 (jul/2025) introduziu reinforcement learning em larga escala para raciocínio deliberado, atingindo 38,6% no Humanity's Last Exam (2.500 questões PhD-level).

O Grok 4.20 (fev/2026) representa uma aposta arquitetural diferente: em vez de um único modelo maior, usa quatro agentes paralelos especializados que colaboram antes de consolidar a resposta. Diferentemente do scaling vertical (modelo único maior), a xAI apostou no scaling horizontal.

Atributo	Valor
Empresa	xAI — Austin, Texas, EUA
Modelos ativos	Grok 4.20 (abr/2026)
Parâmetros	Não divulgados; treinado no Colossus (100K+ GPUs)
Janela de contexto	Não divulgado oficialmente
Arquitetura	RL-heavy transformer; multi-agent paralelo
MoE	Não confirmado
Multimodal	Texto + imagem; dados ao vivo do X
Treinamento	Large-scale RL; dados plataforma X em tempo real
Custo de API	~US$ 3/15/M (alinhado com Claude Sonnet 4.6)
Licença	Proprietária — xAI API / X Premium+
Uso recomendado	Raciocínio matemático avançado, análise tempo real X

4.5 Nota sobre "Composer"

O nome "Composer" não corresponde a um modelo de IA independente com identidade pública estabelecida até abril de 2026. Pode referir-se ao Cursor Composer (ferramenta de edição de código integrada ao editor Cursor, que usa Claude/GPT como backend), ao GitHub Copilot Workspace com agentes de composição, ou a um produto interno de laboratório não lançado publicamente.

Se a referência for ao stack de agentes de composição de código, o backend é tipicamente um dos modelos Claude, GPT ou DeepSeek com ferramentas de scaffolding específicas para refatoração multi-arquivo.

5. Tabela Comparativa Geral

Custos são aproximações de abril de 2026 e variam conforme provider, volume e configuração de cache. Input/output em US$ por milhão de tokens.

Modelo / Família	Tipo	MoE	Contexto	Multimodal	Custo Input US$/M	Caso de Uso Principal
Llama 4 Scout	Aberto	Sim	10M	Texto + Img	0,19–0,49	Self-host, contexto longo, soberania
Llama 4 Maverick	Aberto	Sim	1M	Texto + Img	0,19–0,49	Self-host multimodal, larga escala
DeepSeek V3.2	Aberto	Sim	128K	Texto	0,28	Alto volume, custo mínimo, STEM
DeepSeek R1	Aberto	Sim	128K	Texto	0,55	Raciocínio cadeia de pensamento
Qwen 3.5 (9B)	Aberto	Não	128K	Texto + Img + Áudio	~0,10	Edge, multilingual, Apache 2.0
Qwen 3.5 (397B MoE)	Aberto	Sim	1M	Texto + Img + Áudio	~0,50	Máximo desempenho open, servidor
Gemma 4 31B	Aberto	Não	256K	Texto + Img	Gratuito/PAYG	STEM, código, Google Cloud
Gemma 4 26B-A4B	Aberto	Sim	256K	Texto + Img	Gratuito/PAYG	Velocidade MoE + qualidade dense
Gemma 4 E2B/E4B	Aberto	Não	128K	Texto + Img	Gratuito	Smartphones, IoT, edge
Phi-4-mini (3,8B)	Aberto	Não	128K	Texto	Gratuito/PAYG	Edge, on-premise com GPU modesta
Phi-4-multimodal	Aberto	Não	128K	Texto + Img + Fala	Gratuito/PAYG	Aplicações multimodais edge
Phi-4-reasoning	Aberto	Não	128K	Texto	Gratuito/PAYG	STEM, raciocínio, laptop/edge
GLM-5.1 (744B)	Aberto	Sim	128K	Texto + Código	Baixo (~$3/mês)	Codificação bilíngue ZH/EN
Kimi K2.5	Aberto	Sim	1M	Texto + Img	N/D	Análise de documentos longos
MiniMax M2.5	Aberto	Esp	N/D	Texto	0,30	Codificação, custo próximo à fronteira
Mistral Small 4	Aberto	Não	N/D	Texto	~0,10	Europa, baixa latência, PAYG
Claude Haiku 4.5	Fechado	N/D	200K	Texto + Img	1,00	Alto volume com qualidade Anthropic
Claude Sonnet 4.6	Fechado	N/D	200K	Texto + Img	3,00	Equilíbrio custo/qualidade
Claude Opus 4.6	Fechado	N/D	200K	Texto + Img	5,00	Agentes produção, codificação complexa
GPT-5 nano	Fechado	N/D	32K	Texto + Img	0,05	Custo mínimo OpenAI
GPT-5 mini	Fechado	N/D	128K	Texto + Img + Áudio	0,25	Volume médio, multimodal
GPT-5.2	Fechado	N/D	400K	Texto + Img + Áudio	1,75	Geral, alta qualidade, velocidade
GPT-5.3 Codex	Fechado	N/D	1M	Texto + Img + Código	N/D	Engenharia de software autônoma
Gemini 3.1 Flash Lite	Fechado	N/D	1M	Texto + Img	0,25	Contexto longo barato
Gemini 3.1 Flash	Fechado	N/D	1M	Texto + Img + Áudio	0,50	Velocidade + multimodal
Gemini 3.1 Pro	Fechado	N/D	1M	Texto + Img + Áudio + Vídeo	2,00	Google Cloud, análise multimodal
Grok 4.20	Fechado	N/D	N/D	Texto + Img	~3,00	Raciocínio matemático, tempo real X

6. Dimensões de Diferenciação em Detalhe

6.1 Custo por Token: A Compressão de Preços

Em 2023, processar 1 milhão de tokens com o GPT-4 custava cerca de US$ 60. Em abril de 2026, o DeepSeek V3.2 cobra US$ 0,28 pelo mesmo volume de entrada. Isso representa uma redução de mais de 99% em três anos — uma deflação sem precedentes na história de qualquer tecnologia computacional massivamente adotada.

Evolução do custo de input (US$ por 1M tokens):

2023  GPT-4             ████████████████████████████████  US$ 60,00
2024  GPT-4o            ████████                           US$ 5,00
2024  GPT-4o mini       ▌                                  US$ 0,15
2025  DeepSeek V3       ▌                                  US$ 0,27
2026  DeepSeek V3.2     ▌                                  US$ 0,28
2026  GPT-5 nano        ▌                                  US$ 0,05

A curva de deflação de custo tem implicações diretas na estratégia: modelos que eram "impossíveis de justificar economicamente" para aplicações de alto volume tornaram-se triviais. O que mudou a estrutura de custo foi a combinação de MoE (menos FLOPS por token), otimizações de hardware (FP8, kernels otimizados) e competição acirrada de laboratórios chineses.

6.2 Raciocínio Estendido: O Emergente Mercado de "Pensar Mais"

Uma das dicotomias mais relevantes de 2025–2026 é entre modelos de resposta rápida e modelos de raciocínio estendido. Os modelos "thinking" (Claude com extended thinking, o3/o4, Gemini Deep Think, DeepSeek R1) trocam latência por precisão, gerando tokens internos de cadeia de pensamento antes da resposta final.

Em problemas matemáticos de olimpíada e questões PhD-level, esses modelos superam em 20-40 pontos percentuais seus equivalentes de resposta rápida. A decisão de quando usar raciocínio estendido tem implicações de custo: os tokens de pensamento são cobrados como tokens normais, podendo tornar o custo 3-10x maior sem benefício equivalente para tarefas simples.

6.3 Multimodalidade: Convergência em Andamento

Modelo	Texto	Imagem	Áudio	Vídeo	Código
Gemini 3.1 Pro	✓	✓	✓	✓	✓
GPT-5.2	✓	✓	✓	—	✓
Claude Opus 4.6	✓	✓	—	—	✓
Llama 4	✓	✓	—	—	✓
Qwen 3.5	✓	✓	✓	—	✓
Phi-4-mm	✓	✓	✓	—	✓
Gemma 4	✓	✓	—	—	✓
DeepSeek V3.2	✓	—	—	—	✓
GLM-5.1	✓	—	—	—	✓
Grok 4.20	✓	✓	—	—	✓

6.4 Janela de Contexto: A Corrida ao Infinito

O Llama 4 Scout, com 10 milhões de tokens, tornou possível carregar um repositório de código completo, toda a correspondência de um projeto, ou múltiplos livros em uma única sessão de inferência.

A ressalva crítica é o custo: preencher 1M de tokens custa ~US$ 2 com o Gemini 3.1 Flash e US$ 5 com o Claude Opus 4.6. RAG continua relevante para casos de alto volume mesmo com janelas maiores.

Janela de contexto por modelo (tokens):

Llama 4 Scout    ██████████████████████████████████████████████  10.000.000
Gemini 3.1 Pro   █████████████████████████████████████████████    1.000.000
Kimi K2.5        █████████████████████████████████████████████    1.000.000
Qwen 3.5 MoE     █████████████████████████████████████████████    1.000.000
Llama 4 Maverick █████████████████████████████████████████████    1.000.000
Claude 4.x       █████████████████████████                          200.000
GPT-5.2          ████████████████████████████████████               400.000
Gemma 4 31B      ██████████████████████                             256.000
DeepSeek V3.2    ████████████████                                   128.000
GLM-5.1          ████████████████                                   128.000

6.5 Arquitetura MoE: O Padrão Dominante de 2025–2026

O MoE dominou os lançamentos de 2025–2026. A separação entre "parâmetros de conhecimento" (totais) e "parâmetros de computação" (ativos por token) permite escalar a capacidade sem escalar o custo de inferência proporcionalmente.

Modelo	Parâmetros Totais	Parâmetros Ativos	Ratio
DeepSeek V3.2	671B	37B	5,5%
Llama 4 Scout	109B	17B	15,6%
Llama 4 Maverick	400B	17B	4,3%
Qwen 3.5 (235B)	235B	22B	9,4%
Gemma 4 (26B)	26B	4B	15,4%
GLM-5.1	744B	40B	5,4%
Kimi K2.5	~1T	N/D	—

A galeria de arquiteturas de Raschka documenta pelo menos 15 variantes diferentes de roteamento MoE no último ano, cada uma com trade-offs distintos entre balanceamento de carga, custo de comunicação inter-nó e qualidade de resposta.

7. Guia Prático de Seleção

A estratégia mais eficaz observada em deployments de produção usa roteamento por tipo de tarefa:

Cenário	Recomendação Principal	Alternativa de Custo
Codificação complexa de produção	Claude Opus 4.6	GLM-5.1, MiniMax M2.5
Alto volume simples / triagem	DeepSeek V3.2	Qwen 3.5-9B, Gemma 4 E4B
Análise de documentos longos	Kimi K2.5 / Llama 4 Scout	Gemini 3.1 Flash
Aplicações multimodais	Gemini 3.1 Pro / GPT-5.2	Llama 4 Maverick
Self-host / soberania de dados	Llama 4 / Qwen 3.5	Mistral Small 4, Gemma 4
Dispositivo edge / mobile	Phi-4-mini / Qwen 3.5-2B	Gemma 4 E2B
Raciocínio matemático avançado	Gemini Deep Think / o3	DeepSeek R1, GLM-5
Bilíngue Chinês-Inglês	Qwen 3.5 / GLM-5.1	DeepSeek V3.2
Custo mínimo absoluto	DeepSeek V3.2	Qwen 3.5-9B via API
Agentes autônomos de produção	Claude Sonnet 4.6 / Opus 4.6	GPT-5.2
Pesquisa e due diligence	Gemini 3.1 Pro (1M ctx)	Kimi K2.5, Llama 4 Scout

Regra geral para roteamento multi-modelo:

Tarefas simples e previsíveis → DeepSeek ou Qwen 3.5 pequeno
Interações de usuário voltadas ao público → GPT-5.2 ou Claude Sonnet
Decisões críticas e codificação complexa → Claude Opus ou Gemini 3.1 Pro
Análise multimodal e contexto longo → Gemini 3.1 Pro
Processamento on-premise / edge → Phi-4, Gemma 4 E2B/E4B, Qwen 3.5-2B

8. Tendências e Perspectivas para 2026–2027

8.1 O Colapso da Fronteira Aberto-Fechado

A distinção de capacidade entre modelos abertos e fechados, que em 2023 era uma lacuna de geração, em 2026 é uma vantagem marginal em dimensões específicas. O GLM-5.1 atinge 94,6% do desempenho do Claude Opus em codificação por ~1/30 do custo. O Qwen 3.5 9B supera modelos fechados 13x maiores em raciocínio científico.

As vantagens remanescentes dos modelos fechados em 2026:

Safety fine-tuning e confiabilidade de políticas de conteúdo — Anthropic e OpenAI investem mais
Maturidade multimodal — GPT-5.4 e Gemini 3.1 Pro ainda lideram em imagem, vídeo e áudio
SLA e suporte empresarial — garantias contratuais que modelos abertos não oferecem

8.2 Inteligência por Parâmetro: O Fim do Scaling Simples

A era em que mais parâmetros equivalia diretamente a melhor desempenho chegou ao fim. A combinação de MoE, curadoria de dados de alta qualidade (Phi), destilação de modelos professores, e RL especializado permitiu que modelos de 9B–14B superassem modelos densos de 70B+ em tarefas específicas.

O vetor de otimização deslocou-se de "quantos parâmetros" para "quantos parâmetros ativos por token e qual a qualidade dos dados de treinamento".

8.3 IA em Dispositivo: A Próxima Fronteira

Com o Qwen 3.5 2B rodando offline em iPhones recentes e o Gemma 4 E2B necessitando apenas de 5GB de RAM quantizado, a inferência em dispositivo está se tornando viável para uma classe crescente de aplicações. O impacto esperado:

Aplicações que dependem de API cloud migrando para processamento local
Privacidade, latência e custo operacional radicalmente melhores para casos específicos
Divisão de mercado entre modelo grande na nuvem (tarefas complexas) + modelo pequeno local (tarefas rotineiras)

8.4 Agentes e o Problema do Longo Horizonte

O próximo problema não resolvido não é capacidade bruta de tokens — é a confiabilidade em tarefas de longo horizonte com múltiplos passos, ferramentas e estados. A métrica que importa não é benchmark estático, mas taxa de sucesso em workflows reais com verificação automática — exatamente o que o SWE-bench Verified tenta medir.

Laboratório	Abordagem para agents
Anthropic	Modelo auditável com tool use; agent stability foco
OpenAI	Computer use nativo no GPT-5.3 Codex
xAI	Arquitetura multi-agent paralela (Grok 4.20)
Google	Gemini Agents com grounding e memória externa
DeepSeek	R1 para raciocínio; V3 como executor de ferramentas

8.5 Independência de Hardware: Além do NVIDIA

O fato de o GLM-5 ter sido treinado inteiramente em chips Huawei Ascend, sem dependência de NVIDIA, é um marco técnico e geopolítico. O DeepSeek V4 demonstra um novo design de arquitetura que reduz 40% a memória necessária e acelera em 1,8x vs. V3 — em parte viabilizado por co-design com hardware não-NVIDIA.

O ecossistema está migrando de uma dependência de fato nos chips A100/H100/H800 para um modelo onde a diversificação de silicon é tecnicamente viável para modelos de fronteira.

9. Conclusão

O ecossistema de LLMs em abril de 2026 é o mais diversificado, competitivo e tecnicamente sofisticado da história. A narrativa de cinco anos atrás — "LLMs são coisa de OpenAI e Google" — foi substituída por um campo onde laboratórios chineses (DeepSeek, Alibaba, Zhipu, Moonshot, MiniMax) competem no mesmo nível que os incumbentes ocidentais, frequentemente a uma fração do custo, e com pesos públicos.

Do ponto de vista arquitetural, o MoE se estabeleceu como o padrão dominante para modelos de grande escala. A Multi-Head Latent Attention do DeepSeek provavelmente influenciará designs de atenção por anos. A curadoria extrema de dados da Microsoft para o Phi demonstrou que qualidade supera quantidade. E o treinamento por RL puro para induzir raciocínio em cadeia de pensamento, demonstrado pelo DeepSeek R1, abriu uma linha de pesquisa que todos os laboratórios estão agora perseguindo.

Para profissionais e organizações tomando decisões de deployment: o modelo certo não é o mais poderoso disponível — é o que maximiza a relação entre qualidade, custo, latência e requisitos de controle para o seu caso de uso específico. A estratégia de roteamento multi-modelo é hoje a abordagem com melhor ROI comprovado.

Referências

Sebastian Raschka — LLM Architecture Gallery: https://sebastianraschka.com/llm-architecture-gallery/
Vellum AI — LLM Leaderboard: https://www.vellum.ai/llm-leaderboard
DeepSeek V3 Technical Report (arXiv 2412.19437): https://arxiv.org/abs/2412.19437
DeepSeek R1 Technical Report (arXiv 2501.12948): https://arxiv.org/abs/2501.12948
Anthropic API Pricing & Models: https://docs.anthropic.com/en/docs/about-claude/models/
OpenAI API Pricing: https://openai.com/api/pricing/
Meta Llama 4 Technical Blog: https://ai.meta.com/blog/llama-4/
Alibaba Qwen Technical Reports: https://qwenlm.github.io/
Microsoft Phi-4 Technical Report: https://www.microsoft.com/en-us/research/publication/phi-4-technical-report/
Google Gemma 4: https://blog.google/technology/google-deepmind/gemma-4/
Z.ai (Zhipu AI) — Wikipedia: https://en.wikipedia.org/wiki/Z.ai
IntuitionLabs — Chinese Open-Source LLMs Overview (2025): https://intuitionlabs.ai/articles/chinese-open-source-llms-2025
Build Fast With AI — Best AI Models April 2026: https://www.buildfastwithai.com/blogs/best-ai-models-april-2026

Última atualização: abril de 2026. Os dados de benchmarks, custos e versões de modelos evoluem rapidamente. Verifique sempre a documentação oficial dos fornecedores antes de decisões de produção.

marcelgsantos/llms-um-panorama-tecnico-e-comparativo-dos-llms-em-2025-2026.md

Grandes Modelos de Linguagem

Um Panorama Técnico e Comparativo dos LLMs em 2025–2026

Sumário

1. Introdução

2. Fundamentos: O que Diferencia um LLM do Outro

2.1 Arquitetura Transformer e suas Variações

2.2 Mixture of Experts (MoE)

2.3 Janela de Contexto

2.4 Treinamento: Pré-treino, SFT e RLHF/GRPO

2.5 Aberto versus Fechado: O que Significa na Prática

3. Modelos de Pesos Abertos (Open-Weight)

3.1 Llama — Meta AI

3.2 DeepSeek — DeepSeek AI (China)

3.3 Qwen — Alibaba Group (China)

3.4 Gemma — Google DeepMind

3.5 Phi — Microsoft Research

3.6 GLM — Z.ai (ex-Zhipu AI, China)

3.7 Kimi — Moonshot AI (China)

3.8 MiniMax (China)

3.9 Outros Modelos Open-Weight Notáveis

4. Modelos Fechados (Proprietários)

4.1 Claude — Anthropic

4.2 GPT e Codex — OpenAI

4.3 Gemini — Google DeepMind

4.4 Grok — xAI (Elon Musk)

4.5 Nota sobre "Composer"

5. Tabela Comparativa Geral

6. Dimensões de Diferenciação em Detalhe

6.1 Custo por Token: A Compressão de Preços

6.2 Raciocínio Estendido: O Emergente Mercado de "Pensar Mais"

6.3 Multimodalidade: Convergência em Andamento

6.4 Janela de Contexto: A Corrida ao Infinito

6.5 Arquitetura MoE: O Padrão Dominante de 2025–2026

7. Guia Prático de Seleção

8. Tendências e Perspectivas para 2026–2027

8.1 O Colapso da Fronteira Aberto-Fechado

8.2 Inteligência por Parâmetro: O Fim do Scaling Simples

8.3 IA em Dispositivo: A Próxima Fronteira

8.4 Agentes e o Problema do Longo Horizonte

8.5 Independência de Hardware: Além do NVIDIA

9. Conclusão

Referências