Skip to content

Instantly share code, notes, and snippets.

Show Gist options
  • Select an option

  • Save marcelgsantos/4694d56c618f46886dea9bf043adda01 to your computer and use it in GitHub Desktop.

Select an option

Save marcelgsantos/4694d56c618f46886dea9bf043adda01 to your computer and use it in GitHub Desktop.
LLMs - Um Panorama Técnico e Comparativo dos LLMs em 2025–2026

Grandes Modelos de Linguagem

Um Panorama Técnico e Comparativo dos LLMs em 2025–2026

Modelos abertos e fechados · Arquiteturas · Custos · Multimodalidade · Treinamento


Sumário

  1. Introdução
  2. Fundamentos: O que Diferencia um LLM do Outro
  3. Modelos de Pesos Abertos (Open-Weight)
  4. Modelos Fechados (Proprietários)
  5. Tabela Comparativa Geral
  6. Dimensões de Diferenciação em Detalhe
  7. Guia Prático de Seleção
  8. Tendências e Perspectivas para 2026–2027
  9. Conclusão
  10. Referências

1. Introdução

O termo Large Language Model (LLM) designa sistemas de inteligência artificial treinados em enormes corpora textuais para compreender, gerar e raciocinar em linguagem natural. Desde o lançamento do GPT-3 em 2020 e, sobretudo, a explosão do ChatGPT em novembro de 2022, o mercado passou por uma compressão de ciclos de inovação sem precedentes: modelos que seriam considerados de última geração em 2023 tornaram-se referências intermediárias em 2025, e o que antes custava centenas de dólares por milhão de tokens agora se aproxima de frações de centavo.

Este artigo cataloga e compara os modelos mais relevantes da atualidade, organizados em duas grandes categorias: modelos de pesos abertos (open-weight) e modelos fechados (closed-source ou proprietários). Para cada família são detalhados empresa de origem, arquitetura interna, uso de Mixture of Experts (MoE), janela de contexto, multimodalidade, estratégia de treinamento, custos de API e casos de uso recomendados.

Como pano de fundo técnico, a galeria de arquiteturas de Sebastian Raschka (sebastianraschka.com/llm-architecture-gallery) serve como referência visual para as decisões de design que diferenciam cada família.

Os dados aqui apresentados refletem o estado do ecossistema em abril de 2026 e devem ser verificados contra documentação oficial antes de decisões de produção.


2. Fundamentos: O que Diferencia um LLM do Outro

2.1 Arquitetura Transformer e suas Variações

Todos os modelos relevantes deste artigo derivam da arquitetura Transformer (Vaswani et al., 2017). O design canônico combina camadas de atenção multi-cabeça com redes feed-forward (FFN). As variações modernas concentram-se em três pontos críticos: normalização (LayerNorm vs. RMSNorm), mecanismo de atenção (MHA vs. GQA vs. MLA) e a camada FFN (densa vs. esparsa com MoE).

A adoção do RMSNorm no lugar do LayerNorm convencional reduziu o custo computacional da normalização sem degradar qualidade. O Grouped-Query Attention (GQA), presente no Llama 3 e no Gemma, diminui a memória do cache KV durante inferência ao compartilhar cabeças de chave e valor entre grupos de cabeças de consulta. O Multi-Head Latent Attention (MLA), introduzido pelo DeepSeek V2, vai além: comprime os tensores K e V para um espaço de menor dimensão antes do armazenamento no cache, resultando em economia de memória ainda maior, especialmente em contextos longos.

Comparação de mecanismos de atenção:

MHA  (padrão)  → n_heads × d_head × 2  tensores no cache KV por token
GQA            → n_groups × d_head × 2  tensores (grupos compartilhados)
MLA (DeepSeek) → d_latent << n_heads × d_head  (compressão joint K+V)

2.2 Mixture of Experts (MoE)

O MoE é talvez a inovação arquitetural de maior impacto no ciclo 2024–2026. Em vez de ativar toda a FFN para cada token, um roteador seleciona um subconjunto de "especialistas" (MLPs menores). O modelo DeepSeek V3, por exemplo, possui 671 bilhões de parâmetros totais, mas apenas ~37 bilhões são ativados por token. O resultado é qualidade próxima a um modelo denso de tamanho equivalente, mas com custo de inferência e treinamento correspondente ao número de parâmetros ativos, não ao total.

O principal desafio do MoE é o colapso de roteamento: se todos os tokens forem roteados para os mesmos especialistas, a diversidade é perdida. Abordagens recentes incluem perdas auxiliares de balanceamento de carga (Mixtral, Llama 4) e o mecanismo sem perda auxiliar do DeepSeek V3, que utiliza termos de viés por especialista ajustados manualmente ao longo do treinamento.

Anatomia do DeepSeek MoE (por camada FFN):

┌─────────────────────────────────────────────────────────────┐
│  Token →  Router  →  Top-8 de 256 especialistas roteados   │
│                  →  1 especialista compartilhado (sempre)   │
│                                                              │
│  Custo ativo ≈ 9 × d_expert_hidden × 2  (SwiGLU)           │
│  vs. custo total = 257 × d_expert_hidden × 2                │
└─────────────────────────────────────────────────────────────┘

2.3 Janela de Contexto

A janela de contexto define quantos tokens um modelo pode processar em uma única passagem.

Época Padrão de mercado
2023 4.096 tokens
2024 128.000 tokens
2026 1M–10M tokens

Contextos longos permitem analisar bases de código completas, livros, transcrições jurídicas extensas ou sessões de agentes autônomos — mas têm custo de processamento proporcional ao quadrado do comprimento em atenção densa padrão, razão pela qual mecanismos como atenção deslizante (sliding window) e compressão KV são cruciais.

2.4 Treinamento: Pré-treino, SFT e RLHF/GRPO

O ciclo de treinamento moderno possui três estágios:

  1. Pré-treino: o modelo aprende a prever o próximo token sobre trilhões de tokens de texto cru (web, livros, código, artigos científicos).
  2. Ajuste fino supervisionado (SFT): o modelo é exposto a pares instrução-resposta de alta qualidade para adquirir o comportamento de seguir instruções.
  3. Alinhamento por reforço: RLHF clássico com modelo de recompensa treinado em preferências humanas, ou variantes como GRPO e RLAIF. Molda o estilo, a segurança e a utilidade da resposta.

O DeepSeek R1 demonstrou que o raciocínio em cadeia de pensamento (chain-of-thought) pode emergir puramente de RLVR (RL com verificador de resposta) sem necessidade de dados de CoT curados — um marco técnico relevante.

2.5 Aberto versus Fechado: O que Significa na Prática

A distinção "open-source" é mais gradual do que binária:

Nível de abertura Exemplo O que está público
Totalmente aberto OLMo 3 Pesos + dados + código + logs
Apache 2.0 Qwen 3.5, Gemma 4 Pesos + código (sem dados)
Licença comunitária Llama 4 Pesos (restrições comerciais)
Pesos apenas Grok (parcial) Pesos sem dados ou código
Totalmente fechado GPT, Claude Nenhum acesso aos internos

3. Modelos de Pesos Abertos (Open-Weight)

Os modelos abertos transformaram o acesso à IA generativa. Em 2024, a narrativa dominante era que eles estavam dois anos atrás da fronteira fechada. Em abril de 2026, essa distância colapsou para zero em vários benchmarks de codificação e raciocínio.


3.1 Llama — Meta AI

Tipo: Open-Weight | Licença: Llama Community License (gratuita até 700M MAU)

A família Llama é a mais influente da história dos LLMs abertos. Desde o vazamento não intencional do Llama 1 em 2023, que acelerou toda a comunidade open-source, até o Llama 4 de 2025–2026, a Meta estabeleceu o padrão arquitetural que dezenas de projetos derivados seguiram.

Evolução da família:

  • Llama 1 (2023) — Modelos de 7B a 65B parâmetros, treinados em 1,4T tokens de dados públicos. Base para Alpaca, Vicuna e centenas de fine-tunes da comunidade.
  • Llama 2 (jul/2023) — Contexto de 4.096 tokens, fine-tune de chat com RLHF, versões de 7B, 13B e 70B. Primeira versão com licença comercial explícita.
  • Llama 3 (abr/2024) — Janela de 128.000 tokens, vocabulário de 128.256 tokens, treinamento em 15T tokens, GQA para eficiência de KV cache.
  • Llama 3.2 (set/2024) — Modelos leves (1B, 3B) para uso em dispositivos edge e primeiros modelos com capacidade de visão da família (11B-VL, 90B-VL).
  • Llama 4 Scout / Maverick (abr/2025) — Salto arquitetural para MoE nativo. O Scout possui 109B parâmetros totais (17B ativos) e janela de contexto recorde de 10 milhões de tokens. O Maverick escala para 400B totais, mantendo 17B ativos, e suporta entradas de texto e imagem.

Especificações (Llama 4):

Atributo Valor
Empresa Meta AI
Última versão Llama 4 Scout / Maverick (abr/2025)
Parâmetros 17B ativos / 109B–400B totais (MoE)
Janela de contexto 10M tokens (Scout) | 1M tokens (Maverick)
Arquitetura Transformer decoder, MoE, RoPE, RMSNorm, GQA
MoE Sim — alternância de blocos densos e MoE
Multimodal Texto + imagem (Llama 4)
Treinamento ~20T tokens; SFT + RLHF; destilação do Behemoth
Custo de API ~US$ 0,19–0,49/M tokens (via providers terceiros)
Licença Llama Community License
Uso recomendado Soberania de dados, self-host, contextos longos

3.2 DeepSeek — DeepSeek AI (China)

Tipo: Open-Weight | Licença: MIT / DeepSeek License

Nenhum modelo da história recente gerou tanto impacto econômico e técnico quanto o DeepSeek V3, lançado em dezembro de 2024. Ao demonstrar que era possível treinar um modelo de fronteira com apenas 2,788 milhões de horas de GPU H800 — cerca de dez vezes menos do que o Llama 3.1 405B de desempenho equivalente — o DeepSeek abanou as premissas do mercado sobre custo de treinamento.

Inovações arquiteturais principais:

Multi-Head Latent Attention (MLA): Comprime os tensores K e V para um espaço de menor dimensão antes do armazenamento no cache KV, reduzindo dramaticamente o consumo de memória durante inferência em contextos longos. A DeepSeek afirma que a MLA supera a atenção padrão em várias configurações — não é apenas uma otimização de memória, mas uma melhoria de qualidade.

DeepSeekMoE com especialistas granulares: Em vez de poucos especialistas grandes, o DeepSeek usa 256 especialistas roteados por camada, com apenas 8 ativados por token, mais 1 especialista compartilhado sempre ativo. Especialistas menores permitem maior especialização do conhecimento.

Balanceamento sem perda auxiliar: Em vez de impor uma perda de balanceamento (que compete com a perda de linguagem principal), o V3 ajusta manualmente termos de viés por especialista ao longo do treinamento. Resultado: melhor balanceamento e melhor desempenho geral.

Multi-Token Prediction (MTP): O modelo é treinado para prever múltiplos tokens futuros em cada passagem, melhorando o aprendizado e habilitando decodificação especulativa para maior throughput.

FP8 Mixed Precision Training: Primeira validação em larga escala de treinamento em precisão FP8 para um modelo desta magnitude.

Arquitetura DeepSeek V3 (simplificada):

Cada camada:
  ┌─ Multi-Head Latent Attention (MLA)
  │    K,V → comprime para d_c << d_h × n_h → armazena no cache
  │    na inferência: projeta de volta para dimensão original
  │
  └─ DeepSeekMoE FFN
       ├─ 1 especialista compartilhado (sempre ativado)
       └─ 256 especialistas roteados → top-8 selecionados por token
          via sigmoid affinity + bias de balanceamento
Atributo Valor
Empresa DeepSeek AI (Hangzhou, China)
Última versão DeepSeek V3.2 (dez/2025); V4 em desenvolvimento
Parâmetros 671B totais / ~37B ativos por token
Janela de contexto 128.000 tokens
Arquitetura MoE + MLA + RoPE + RMSNorm + SwiGLU; FP8 training
MoE Sim — 256 especialistas + 1 compartilhado; top-8
Multimodal Texto; V4 com suporte nativo a imagens
Treinamento 14,8T tokens; SFT + GRPO; destilação de raciocínio
Custo de API US$ 0,28/M input | US$ 0,42/M output (mínimo da classe)
Licença MIT (pesos) + DeepSeek License
Uso recomendado Alto volume, custo crítico, raciocínio científico

Nota sobre o DeepSeek R1: Derivado da mesma arquitetura V3, foi treinado puramente via RLVR (Reinforcement Learning with Verifiable Rewards) para desenvolver capacidade de raciocínio em cadeia de pensamento. Sem dados curados de CoT, o modelo aprendeu a "pensar em voz alta" de forma emergente — uma demonstração marcante de que raciocínio explícito pode ser induzido por RL puro. O R1 atingiu paridade com o o1 da OpenAI em benchmarks matemáticos e de código na época do lançamento.


3.3 Qwen — Alibaba Group (China)

Tipo: Open-Weight | Licença: Apache 2.0

A família Qwen, desenvolvida pelo Alibaba, é o ecossistema de modelos abertos mais completo disponível sob licença totalmente permissiva (Apache 2.0) em abril de 2026. Cobre desde modelos de 0,6B para dispositivos IoT até o Qwen 3.5 de 397B parâmetros com MoE. O portfólio inclui variantes de texto, código, matemática, visão, áudio e raciocínio.

Marcos técnicos:

  • Qwen 2.5 (set/2024) — Família de 0,5B a 72B, GQA, vocabulário de 151.936 tokens com cobertura multilingual expandida, contexto de 128K. Qwen2.5-Max afirma superar o DeepSeek V3 em alguns benchmarks.
  • Qwen 3 (2025) — Introdução de MoE em escala (235B total, 22B ativos), modo dual de raciocínio (thinking/non-thinking), QK-Norm para estabilidade de treinamento.
  • Qwen 3.5 Small (fev-mar/2026) — Série de 0,8B a 9B, todas Apache 2.0, multimodal nativo. O modelo de 9B supera modelos 13x maiores em GPQA Diamond. O 2B roda em iPhone sem conexão de rede.
  • Qwen 3.5 grande (397B MoE) — Modelo de servidor de máximo desempenho, ainda o mais capaz da linha aberta Alibaba.
  • Qwen 3-Coder (jul/2025) — Variante especializada em geração e análise de código, posicionada diretamente contra o GPT-4 em tarefas de engenharia de software.
Atributo Valor
Empresa Alibaba Group / Tongyi Lab (Hangzhou, China)
Última versão Qwen 3.5 / Qwen 3.6 Plus (mar/2026)
Parâmetros 0,6B–397B; flagships MoE: 235B total / 22B ativos
Janela de contexto 128K–1M tokens (varia por variante)
Arquitetura Transformer decoder, GQA, QK-Norm, RoPE, SwiGLU
MoE Sim nos modelos grandes — sem especialista compartilhado
Multimodal Texto, imagem, áudio, vídeo (Qwen2.5-VL, Qwen-Audio)
Treinamento Pré-treino multilingual (100+ idiomas); SFT + RLHF
Custo de API ~US$ 0,10/M (9B) até ~US$ 0,50/M (flagships)
Licença Apache 2.0 (uso comercial irrestrito)
Uso recomendado Multilingual, borda/edge, custo/performance otimizado

3.4 Gemma — Google DeepMind

Tipo: Open-Weight | Licença: Apache 2.0 (a partir da Gemma 4)

A família Gemma é a representação open-weight das escolhas técnicas do Google para modelos compactos. O salto da Gemma 3 para a Gemma 4 (abr/2026) foi o maior salto de benchmark em geração única já observado no espaço open, acompanhado de mudança de licença para Apache 2.0 — eliminando a última desvantagem competitiva em relação ao Qwen.

Características técnicas distintivas:

Atenção local-global alternada: Camadas de atenção deslizante (local) alternadas com atenção global completa. Reduz o custo quadrático da atenção em contextos longos enquanto mantém dependências de longo alcance.

Vocabulário de 262K tokens: Um dos maiores vocabulários de qualquer modelo aberto, cobrindo 140 idiomas e conjuntos de caracteres especiais para código.

Variantes MoE na Gemma 4: A Gemma 4 26B-A4B (26B total, 4B ativos) oferece velocidade de inferência MoE com qualidade de modelo grande — 3x mais rápida que sua contraparte densa.

Per-Layer Embeddings (PLE) nos modelos E2B/E4B: As variantes de borda maximizam a eficiência de parâmetros, rodando em smartphones com 5GB de RAM.

Benchmarks Gemma 4 31B:

Benchmark Score
AIME 2026 (math) 89,2%
LiveCodeBench v6 80,0%
GPQA Diamond 84,3%
MMLU Pro 85,2%
MMMU Pro (vision) 76,9%
Atributo Valor
Empresa Google DeepMind
Última versão Gemma 4 (abr/2026): E2B, E4B, 8B, 26B-MoE, 31B
Parâmetros 270M (nano) a 31B (dense); 26B total / 4B ativos (MoE)
Janela de contexto 256K tokens (Gemma 4 31B)
Arquitetura Atenção local-global, GQA, RMSNorm, SwiGLU
MoE Sim na variante 26B-A4B; densos nos demais
Multimodal Texto + imagem nativo em todos os modelos Gemma 4
Treinamento Destilação de técnicas Gemini; SFT + RLHF
Custo de API Gratuito via Google AI Studio; PAYG via Vertex AI
Licença Apache 2.0
Uso recomendado STEM, código, borda/mobile, integração Google Cloud

3.5 Phi — Microsoft Research

Tipo: Open-Weight | Licença: MIT

A família Phi representa a aposta da Microsoft em small language models (SLMs): modelos que, apesar do tamanho reduzido, competem com modelos 5 a 50 vezes maiores em tarefas estruturadas. A filosofia central é a curadoria extrema de dados de treinamento em vez de escala bruta de parâmetros — o que a Microsoft chama de "textbook quality" data.

Variantes:

Modelo Params Contexto Destaque
Phi-4 14B 16K Base; supera 70B em STEM e raciocínio
Phi-4-mini 3,8B 128K GQA; vocabulário 200K; edge/dispositivo
Phi-4-multimodal 5,6B 128K Texto + visão + fala (mixture-of-LoRAs)
Phi-4-reasoning 14B 128K Thinking block; supera DeepSeek R1 e o1-mini

O Phi-4-reasoning, com apenas 14B parâmetros, supera o DeepSeek R1 original e o Claude 3.7 Sonnet em raciocínio matemático e científico — rodando em laptops com GPU de consumidor.

Atributo Valor
Empresa Microsoft Research AI Frontiers
Última versão Phi-4-reasoning / Phi-4-multimodal (2025)
Parâmetros 3,8B (mini) a 14B (base, reasoning)
Janela de contexto 128K tokens (mini, multimodal); 16K (base)
Arquitetura Dense decoder, GQA (mini), mixture-of-LoRAs (mm)
MoE Não — denso; LoRA mixing no multimodal
Multimodal Texto + imagem + áudio (Phi-4-multimodal)
Treinamento "Textbook quality" data; SFT STEM; RL para reasoning
Custo de API Gratuito via Azure AI Foundry (limitado)
Licença MIT — totalmente permissivo
Uso recomendado Edge, on-premise com GPU modesta, STEM, código

3.6 GLM — Z.ai (ex-Zhipu AI, China)

Tipo: Open-Weight | Licença: Apache 2.0 (GLM-5.1)

A série GLM (General Language Model) nasceu nos laboratórios da Universidade Tsinghua e foi comercializada pela Zhipu AI, rebatizada como Z.ai em 2025. É um dos modelos bilíngues (chinês-inglês) de maior adoção na Ásia, e a versão GLM-5 (fevereiro de 2026) representa a chegada ao nível de fronteira global.

Linha do tempo:

  • ChatGLM (2021–2023) — Modelos de 6B parâmetros, bilíngues, Apache 2.0. Primeiros LLMs abertos verdadeiramente competitivos para o idioma chinês.
  • GLM-4.5 (355B, jul/2025) — MoE com 32B ativos. Roda em oito chips NVIDIA H20. Primeiro modelo chinês open-source de escala MoE comparável ao DeepSeek.
  • GLM-4.7 (355B, dez/2025) — SWE-bench acima de 70% — primeiro modelo aberto chinês a alcançar esse marco.
  • GLM-5 (744B, fev/2026) — 744B totais / 40B ativos. SWE-bench: 77,8%. Treinado inteiramente em chips Huawei Ascend — independência total do NVIDIA para um modelo de fronteira.
  • GLM-5.1 (744B, abr/2026) — Refinamento focado em codificação. 45,3 no Claude Code Evaluation (vs. 47,9 do Claude Opus 4.6) — 94,6% do desempenho do Opus por uma fração do custo.
Atributo Valor
Empresa Z.ai (Zhipu AI), Universidade Tsinghua — Beijing
Última versão GLM-5.1 (abr/2026, open-source)
Parâmetros 355B (4.5) → 744B totais / 40B ativos (GLM-5/5.1)
Janela de contexto 128.000 tokens
Arquitetura MoE própria; DeepSeek Sparse Attention no GLM-5
MoE Sim — GLM-4.5+ são todos MoE
Multimodal GLM-V para visão; foco em texto+código no GLM-5
Treinamento Dados bilíngues ZH/EN; RLHF; destilação de raciocínio
Custo de API ~US$ 3/mês (GLM Coding Plan) vs Claude Max US$100+
Licença Apache 2.0
Uso recomendado Codificação custo-eficiência máxima, bilíngue ZH/EN

3.7 Kimi — Moonshot AI (China)

Tipo: Open-Weight | Licença: Apache 2.0

O Moonshot AI, fundado em 2023 e sediado em Beijing, ganhou notoriedade por ser o primeiro laboratório a oferecer contexto de 1 milhão de tokens em produto comercial — antes que qualquer modelo ocidental chegasse a essa marca.

Versões principais:

  • Kimi K1.5 (jan/2025) — Multimodal, 128K tokens, integração de pesquisa web em tempo real.
  • Kimi K2 (mid-2025) — ~1 trilhão de parâmetros totais. Mecanismo de atenção novel para contextos ultra-longos. Lidera o open-source SWE-rebench Pass@1 em alguns marcos.
  • Kimi K2.5 (mar/2026) — Multimodalidade nativa (texto + imagem), melhor seguimento de instruções, disponível como modelo aberto.
  • Kimi Linear — 48B total / 3B ativos com atenção linear-transformer híbrida — substitui a maior parte das camadas de atenção completa por mecanismos lineares, aumentando throughput em contextos longos.
Atributo Valor
Empresa Moonshot AI — Beijing, China
Última versão Kimi K2.5 (mar/2026)
Parâmetros ~1T (K2/K2.5); 48B-A3B (Kimi Linear)
Janela de contexto 1M tokens (K2/K2.5); 128K (K1.5)
Arquitetura Atenção especializada para ultra-long context
MoE Sim nos modelos grandes K2/K2.5
Multimodal Texto + imagem (K2.5 nativo); busca web integrada
Treinamento Foco em long-context; dados de análise de documentos
Licença Apache 2.0 (pesos liberados)
Uso recomendado Análise de documentos longos, pesquisa, bases de código

3.8 MiniMax (China)

Tipo: Open-Weight | Licença: Apache 2.0

A MiniMax, fundada em 2021, é um dos modelos mais subestimados do ecossistema global. O MiniMax M2.5, lançado no início de 2026, atingiu 80,2% no SWE-bench Verified — apenas 0,6 ponto abaixo do Claude Opus 4.6, a aproximadamente 1/20 do custo. Ao contrário da tendência MoE dominante, o M2 retornou à atenção completa em sua arquitetura.

A galeria de Raschka descreve o MiniMax M2 como "primo mais esparso do Qwen3" — atenção completa, roteamento esparso, sem especialista compartilhado, QK-Norm por camada. A combinação resulta em um modelo que prioriza qualidade de atenção sobre eficiência de roteamento.

Atributo Valor
Empresa MiniMax AI — Shanghai, China
Última versão MiniMax M2.5 (mar/2026)
Parâmetros ~230B
Janela de contexto Não divulgado oficialmente
Arquitetura Atenção completa; QK-Norm; roteamento esparso
MoE Roteamento esparso; atenção completa (não MoE clássico)
Multimodal Texto; MiniMax-VL para visão; Speech-02 para síntese
Treinamento RLHF; forte em linguagens múltiplas (Java, Rust, Go)
Custo de API US$ 0,30/M input | US$ 1,20/M output
Licença Apache 2.0
Uso recomendado Codificação multi-linguagem, workflows profissionais

3.9 Outros Modelos Open-Weight Notáveis

Mistral (Mistral AI, França) A Mistral AI, fundada por ex-pesquisadores do Google DeepMind e Meta, popularizou Sliding Window Attention e MoE eficiente com o Mixtral 8x7B em 2023. O Mistral Small 4 (119B, 2026) usa Apache 2.0 e consolida a posição da empresa como alternativa europeia de fronteira para implantação self-hosted.

OLMo (Allen Institute for AI) Primeiro modelo realmente "full open": pesos, dados de treinamento, código e logs de treinamento todos publicados. O OLMo 3 (32B) é o modelo de pesquisa mais transparente disponível, essencial para estudos de interpretabilidade e viés.

Nemotron (NVIDIA) A NVIDIA entrou no espaço de modelos com o Nemotron 3 Super (120B-A12B) e Nano (30B-A3B), otimizados para a stack TensorRT. Roteamento extremamente esparso que se aproxima da eficiência de SSMs sem abandonar o transformer.


4. Modelos Fechados (Proprietários)

Os modelos fechados oferecem o que os abertos ainda não conseguem garantir de forma consistente: SLA, segurança empresarial, evolução contínua gerenciada e, em vários casos, a margem de desempenho em raciocínio multimodal complexo. O acesso se dá exclusivamente via API ou produto de consumo, sem acesso aos pesos.


4.1 Claude — Anthropic

Tipo: Fechado | Acesso: API + claude.ai

A Anthropic foi fundada em 2021 por ex-líderes da OpenAI com foco explícito em segurança de IA. A família Claude, hoje na versão 4.6, distingue-se por sua arquitetura de treinamento centrada em Constitutional AI (CAI) e foco em comportamento de agentes auditáveis. O Claude Opus 4.6 lidera o SWE-bench Verified com 80,9% em codificação.

Variantes da família Claude 4.x:

Variante Posicionamento Custo (input/output, US$/M)
Haiku 4.5 Alta velocidade, alto volume, baixo custo US$ 1 / US$ 5
Sonnet 4.6 Equilíbrio qualidade/custo; Opus-level em benchmarks US$ 3 / US$ 15
Opus 4.6 Flagship — codificação complexa, agents longos US$ 5 / US$ 25

Características técnicas distintivas:

A Anthropic não divulga arquitetura interna, contagem de parâmetros ou detalhes do conjunto de treinamento. O que é documentado externamente:

  • Contexto de 200.000 tokens em todos os modelos atuais
  • Constitutional AI (CAI): o modelo é treinado para autocriticar suas respostas contra princípios constitucionais, reduzindo dependência de grandes volumes de anotação humana
  • Forte suporte a tool use, agentic tasks e análise de documentos (PDFs, imagens)
  • Liderança em SWE-bench Verified — métrica de resolução real de issues GitHub
Atributo Valor
Empresa Anthropic — San Francisco, EUA
Modelos ativos Haiku 4.5 | Sonnet 4.6 | Opus 4.6 (abr/2026)
Parâmetros Não divulgados
Janela de contexto 200.000 tokens (todos os modelos 4.x)
Arquitetura Transformer decoder; detalhes internos não publicados
MoE Não confirmado publicamente
Multimodal Texto + imagem; análise de documentos
Treinamento Constitutional AI (CAI); RLHF com preferências humanas
Custo de API Haiku: 1/5 | Sonnet: 3/15 | Opus: 5/25 US$/M
Licença Proprietária
Uso recomendado Agentes de produção auditáveis, codificação complexa

4.2 GPT e Codex — OpenAI

Tipo: Fechado | Acesso: API + ChatGPT

A OpenAI é a empresa que iniciou o ciclo atual com o GPT-3 (2020) e lançou o produto de IA mais adotado da história com o ChatGPT (nov/2022). A linha GPT passou por uma aceleração radical em 2025–2026.

Evolução recente:

  • GPT-4o (mai/2024) — Primeiro modelo com áudio, visão e texto em um único modelo nativo (omni). Contexto de 128K.
  • GPT-4.1 (2025) — Contexto de 1M tokens; variantes mini e nano com custo dramaticamente reduzido.
  • GPT-5 / 5.2 (2025) — Roteamento inteligente de raciocínio — ajusta automaticamente a profundidade com base na complexidade. Alucinações reduzidas ~80% vs. GPT-4. Taxa de inferência: 187 tokens/segundo.
  • GPT-5.3 Codex (mar/2026) — Unifica a linha Codex com a série GPT, integrando computer use nativo e contexto de 1M tokens em um modelo unificado para engenharia de software autônoma.

Série de raciocínio "o": Paralela à linha GPT, focada em raciocínio deliberado de alta precisão. Os modelos "pensam" por mais tempo antes de responder (o1, o3, o4-mini), trocando latência por acurácia em problemas de lógica complexa.

Atributo Valor
Empresa OpenAI — San Francisco, EUA
Modelos ativos GPT-5.3 Codex, GPT-5.2, GPT-5 mini/nano, o3, o4-mini
Parâmetros Não divulgados (estimados >175B para modelos grandes)
Janela de contexto 128K (GPT-4o) a 1M tokens (GPT-4.1 / GPT-5.3)
Arquitetura Transformer decoder; roteamento de raciocínio adaptativo
MoE Não confirmado publicamente
Multimodal Texto + imagem + áudio + vídeo (GPT-4o e posteriores)
Treinamento RLHF + RLAIF; raciocínio emergente (série o)
Custo de API GPT-5.2: 1,75/14 | mini: 0,25/2 | nano: 0,05/0,40 US$/M
Licença Proprietária
Uso recomendado Aplicações multimodais, chatbots, codificação autônoma

4.3 Gemini — Google DeepMind

Tipo: Fechado | Acesso: API + Aplicações Google

O Gemini representa a integração da inteligência de modelos ao ecossistema Google — Search, Workspace, Android, Cloud. A arquitetura interna é construída nativamente para multimodalidade desde o início. O Gemini 3 Pro (nov/2025), com contexto de 1 milhão de tokens e suporte a texto, código, imagens, áudio, vídeo e PDFs simultaneamente, atingiu 1501 Elo no LMArena — primeiro modelo a superar a marca de 1500.

Hierarquia da linha Gemini:

Variante Posicionamento Contexto Custo input US$/M
Flash Lite Máxima eficiência, mínimo custo 1M ~US$ 0,25
Flash Alta velocidade, bom custo 1M US$ 0,50
Pro Fronteira; raciocínio STEM, multimodal 1M US$ 2,00
Deep Think Raciocínio estendido (tipo o3) 1M Não publicado
Atributo Valor
Empresa Google DeepMind — Mountain View, EUA
Modelos ativos Gemini 3.1 Pro, Flash, Flash Lite (abr/2026)
Parâmetros Não divulgados (estimativa: 1,2T para Pro/Ultra)
Janela de contexto 1M tokens (Pro / Flash)
Arquitetura Multimodal-native transformer; atenção eficiente
MoE Não confirmado publicamente
Multimodal Texto + imagem + áudio + vídeo + código + PDFs
Treinamento Dados multimodais nativos; RLHF
Custo de API Pro: 2/12 | Flash: 0,50/3 | Flash Lite: 0,25/x US$/M
Licença Proprietária; Google AI Studio gratuito com limites
Uso recomendado Google Cloud, análise multimodal, contexto ultra-longo

4.4 Grok — xAI (Elon Musk)

Tipo: Fechado | Acesso: API + X (Twitter)

O Grok, desenvolvido pela xAI fundada por Elon Musk em 2023, diferencia-se pela integração com dados em tempo real da plataforma X e por uma postura de personalidade menos filtrada. O Grok 4 (jul/2025) introduziu reinforcement learning em larga escala para raciocínio deliberado, atingindo 38,6% no Humanity's Last Exam (2.500 questões PhD-level).

O Grok 4.20 (fev/2026) representa uma aposta arquitetural diferente: em vez de um único modelo maior, usa quatro agentes paralelos especializados que colaboram antes de consolidar a resposta. Diferentemente do scaling vertical (modelo único maior), a xAI apostou no scaling horizontal.

Atributo Valor
Empresa xAI — Austin, Texas, EUA
Modelos ativos Grok 4.20 (abr/2026)
Parâmetros Não divulgados; treinado no Colossus (100K+ GPUs)
Janela de contexto Não divulgado oficialmente
Arquitetura RL-heavy transformer; multi-agent paralelo
MoE Não confirmado
Multimodal Texto + imagem; dados ao vivo do X
Treinamento Large-scale RL; dados plataforma X em tempo real
Custo de API ~US$ 3/15/M (alinhado com Claude Sonnet 4.6)
Licença Proprietária — xAI API / X Premium+
Uso recomendado Raciocínio matemático avançado, análise tempo real X

4.5 Nota sobre "Composer"

O nome "Composer" não corresponde a um modelo de IA independente com identidade pública estabelecida até abril de 2026. Pode referir-se ao Cursor Composer (ferramenta de edição de código integrada ao editor Cursor, que usa Claude/GPT como backend), ao GitHub Copilot Workspace com agentes de composição, ou a um produto interno de laboratório não lançado publicamente.

Se a referência for ao stack de agentes de composição de código, o backend é tipicamente um dos modelos Claude, GPT ou DeepSeek com ferramentas de scaffolding específicas para refatoração multi-arquivo.


5. Tabela Comparativa Geral

Custos são aproximações de abril de 2026 e variam conforme provider, volume e configuração de cache. Input/output em US$ por milhão de tokens.

Modelo / Família Tipo MoE Contexto Multimodal Custo Input US$/M Caso de Uso Principal
Llama 4 Scout Aberto Sim 10M Texto + Img 0,19–0,49 Self-host, contexto longo, soberania
Llama 4 Maverick Aberto Sim 1M Texto + Img 0,19–0,49 Self-host multimodal, larga escala
DeepSeek V3.2 Aberto Sim 128K Texto 0,28 Alto volume, custo mínimo, STEM
DeepSeek R1 Aberto Sim 128K Texto 0,55 Raciocínio cadeia de pensamento
Qwen 3.5 (9B) Aberto Não 128K Texto + Img + Áudio ~0,10 Edge, multilingual, Apache 2.0
Qwen 3.5 (397B MoE) Aberto Sim 1M Texto + Img + Áudio ~0,50 Máximo desempenho open, servidor
Gemma 4 31B Aberto Não 256K Texto + Img Gratuito/PAYG STEM, código, Google Cloud
Gemma 4 26B-A4B Aberto Sim 256K Texto + Img Gratuito/PAYG Velocidade MoE + qualidade dense
Gemma 4 E2B/E4B Aberto Não 128K Texto + Img Gratuito Smartphones, IoT, edge
Phi-4-mini (3,8B) Aberto Não 128K Texto Gratuito/PAYG Edge, on-premise com GPU modesta
Phi-4-multimodal Aberto Não 128K Texto + Img + Fala Gratuito/PAYG Aplicações multimodais edge
Phi-4-reasoning Aberto Não 128K Texto Gratuito/PAYG STEM, raciocínio, laptop/edge
GLM-5.1 (744B) Aberto Sim 128K Texto + Código Baixo (~$3/mês) Codificação bilíngue ZH/EN
Kimi K2.5 Aberto Sim 1M Texto + Img N/D Análise de documentos longos
MiniMax M2.5 Aberto Esp N/D Texto 0,30 Codificação, custo próximo à fronteira
Mistral Small 4 Aberto Não N/D Texto ~0,10 Europa, baixa latência, PAYG
Claude Haiku 4.5 Fechado N/D 200K Texto + Img 1,00 Alto volume com qualidade Anthropic
Claude Sonnet 4.6 Fechado N/D 200K Texto + Img 3,00 Equilíbrio custo/qualidade
Claude Opus 4.6 Fechado N/D 200K Texto + Img 5,00 Agentes produção, codificação complexa
GPT-5 nano Fechado N/D 32K Texto + Img 0,05 Custo mínimo OpenAI
GPT-5 mini Fechado N/D 128K Texto + Img + Áudio 0,25 Volume médio, multimodal
GPT-5.2 Fechado N/D 400K Texto + Img + Áudio 1,75 Geral, alta qualidade, velocidade
GPT-5.3 Codex Fechado N/D 1M Texto + Img + Código N/D Engenharia de software autônoma
Gemini 3.1 Flash Lite Fechado N/D 1M Texto + Img 0,25 Contexto longo barato
Gemini 3.1 Flash Fechado N/D 1M Texto + Img + Áudio 0,50 Velocidade + multimodal
Gemini 3.1 Pro Fechado N/D 1M Texto + Img + Áudio + Vídeo 2,00 Google Cloud, análise multimodal
Grok 4.20 Fechado N/D N/D Texto + Img ~3,00 Raciocínio matemático, tempo real X

6. Dimensões de Diferenciação em Detalhe

6.1 Custo por Token: A Compressão de Preços

Em 2023, processar 1 milhão de tokens com o GPT-4 custava cerca de US$ 60. Em abril de 2026, o DeepSeek V3.2 cobra US$ 0,28 pelo mesmo volume de entrada. Isso representa uma redução de mais de 99% em três anos — uma deflação sem precedentes na história de qualquer tecnologia computacional massivamente adotada.

Evolução do custo de input (US$ por 1M tokens):

2023  GPT-4             ████████████████████████████████  US$ 60,00
2024  GPT-4o            ████████                           US$ 5,00
2024  GPT-4o mini       ▌                                  US$ 0,15
2025  DeepSeek V3       ▌                                  US$ 0,27
2026  DeepSeek V3.2     ▌                                  US$ 0,28
2026  GPT-5 nano        ▌                                  US$ 0,05

A curva de deflação de custo tem implicações diretas na estratégia: modelos que eram "impossíveis de justificar economicamente" para aplicações de alto volume tornaram-se triviais. O que mudou a estrutura de custo foi a combinação de MoE (menos FLOPS por token), otimizações de hardware (FP8, kernels otimizados) e competição acirrada de laboratórios chineses.

6.2 Raciocínio Estendido: O Emergente Mercado de "Pensar Mais"

Uma das dicotomias mais relevantes de 2025–2026 é entre modelos de resposta rápida e modelos de raciocínio estendido. Os modelos "thinking" (Claude com extended thinking, o3/o4, Gemini Deep Think, DeepSeek R1) trocam latência por precisão, gerando tokens internos de cadeia de pensamento antes da resposta final.

Em problemas matemáticos de olimpíada e questões PhD-level, esses modelos superam em 20-40 pontos percentuais seus equivalentes de resposta rápida. A decisão de quando usar raciocínio estendido tem implicações de custo: os tokens de pensamento são cobrados como tokens normais, podendo tornar o custo 3-10x maior sem benefício equivalente para tarefas simples.

6.3 Multimodalidade: Convergência em Andamento

Modelo Texto Imagem Áudio Vídeo Código
Gemini 3.1 Pro
GPT-5.2
Claude Opus 4.6
Llama 4
Qwen 3.5
Phi-4-mm
Gemma 4
DeepSeek V3.2
GLM-5.1
Grok 4.20

6.4 Janela de Contexto: A Corrida ao Infinito

O Llama 4 Scout, com 10 milhões de tokens, tornou possível carregar um repositório de código completo, toda a correspondência de um projeto, ou múltiplos livros em uma única sessão de inferência.

A ressalva crítica é o custo: preencher 1M de tokens custa ~US$ 2 com o Gemini 3.1 Flash e US$ 5 com o Claude Opus 4.6. RAG continua relevante para casos de alto volume mesmo com janelas maiores.

Janela de contexto por modelo (tokens):

Llama 4 Scout    ██████████████████████████████████████████████  10.000.000
Gemini 3.1 Pro   █████████████████████████████████████████████    1.000.000
Kimi K2.5        █████████████████████████████████████████████    1.000.000
Qwen 3.5 MoE     █████████████████████████████████████████████    1.000.000
Llama 4 Maverick █████████████████████████████████████████████    1.000.000
Claude 4.x       █████████████████████████                          200.000
GPT-5.2          ████████████████████████████████████               400.000
Gemma 4 31B      ██████████████████████                             256.000
DeepSeek V3.2    ████████████████                                   128.000
GLM-5.1          ████████████████                                   128.000

6.5 Arquitetura MoE: O Padrão Dominante de 2025–2026

O MoE dominou os lançamentos de 2025–2026. A separação entre "parâmetros de conhecimento" (totais) e "parâmetros de computação" (ativos por token) permite escalar a capacidade sem escalar o custo de inferência proporcionalmente.

Modelo Parâmetros Totais Parâmetros Ativos Ratio
DeepSeek V3.2 671B 37B 5,5%
Llama 4 Scout 109B 17B 15,6%
Llama 4 Maverick 400B 17B 4,3%
Qwen 3.5 (235B) 235B 22B 9,4%
Gemma 4 (26B) 26B 4B 15,4%
GLM-5.1 744B 40B 5,4%
Kimi K2.5 ~1T N/D

A galeria de arquiteturas de Raschka documenta pelo menos 15 variantes diferentes de roteamento MoE no último ano, cada uma com trade-offs distintos entre balanceamento de carga, custo de comunicação inter-nó e qualidade de resposta.


7. Guia Prático de Seleção

A estratégia mais eficaz observada em deployments de produção usa roteamento por tipo de tarefa:

Cenário Recomendação Principal Alternativa de Custo
Codificação complexa de produção Claude Opus 4.6 GLM-5.1, MiniMax M2.5
Alto volume simples / triagem DeepSeek V3.2 Qwen 3.5-9B, Gemma 4 E4B
Análise de documentos longos Kimi K2.5 / Llama 4 Scout Gemini 3.1 Flash
Aplicações multimodais Gemini 3.1 Pro / GPT-5.2 Llama 4 Maverick
Self-host / soberania de dados Llama 4 / Qwen 3.5 Mistral Small 4, Gemma 4
Dispositivo edge / mobile Phi-4-mini / Qwen 3.5-2B Gemma 4 E2B
Raciocínio matemático avançado Gemini Deep Think / o3 DeepSeek R1, GLM-5
Bilíngue Chinês-Inglês Qwen 3.5 / GLM-5.1 DeepSeek V3.2
Custo mínimo absoluto DeepSeek V3.2 Qwen 3.5-9B via API
Agentes autônomos de produção Claude Sonnet 4.6 / Opus 4.6 GPT-5.2
Pesquisa e due diligence Gemini 3.1 Pro (1M ctx) Kimi K2.5, Llama 4 Scout

Regra geral para roteamento multi-modelo:

  • Tarefas simples e previsíveis → DeepSeek ou Qwen 3.5 pequeno
  • Interações de usuário voltadas ao público → GPT-5.2 ou Claude Sonnet
  • Decisões críticas e codificação complexa → Claude Opus ou Gemini 3.1 Pro
  • Análise multimodal e contexto longo → Gemini 3.1 Pro
  • Processamento on-premise / edge → Phi-4, Gemma 4 E2B/E4B, Qwen 3.5-2B

8. Tendências e Perspectivas para 2026–2027

8.1 O Colapso da Fronteira Aberto-Fechado

A distinção de capacidade entre modelos abertos e fechados, que em 2023 era uma lacuna de geração, em 2026 é uma vantagem marginal em dimensões específicas. O GLM-5.1 atinge 94,6% do desempenho do Claude Opus em codificação por ~1/30 do custo. O Qwen 3.5 9B supera modelos fechados 13x maiores em raciocínio científico.

As vantagens remanescentes dos modelos fechados em 2026:

  • Safety fine-tuning e confiabilidade de políticas de conteúdo — Anthropic e OpenAI investem mais
  • Maturidade multimodal — GPT-5.4 e Gemini 3.1 Pro ainda lideram em imagem, vídeo e áudio
  • SLA e suporte empresarial — garantias contratuais que modelos abertos não oferecem

8.2 Inteligência por Parâmetro: O Fim do Scaling Simples

A era em que mais parâmetros equivalia diretamente a melhor desempenho chegou ao fim. A combinação de MoE, curadoria de dados de alta qualidade (Phi), destilação de modelos professores, e RL especializado permitiu que modelos de 9B–14B superassem modelos densos de 70B+ em tarefas específicas.

O vetor de otimização deslocou-se de "quantos parâmetros" para "quantos parâmetros ativos por token e qual a qualidade dos dados de treinamento".

8.3 IA em Dispositivo: A Próxima Fronteira

Com o Qwen 3.5 2B rodando offline em iPhones recentes e o Gemma 4 E2B necessitando apenas de 5GB de RAM quantizado, a inferência em dispositivo está se tornando viável para uma classe crescente de aplicações. O impacto esperado:

  • Aplicações que dependem de API cloud migrando para processamento local
  • Privacidade, latência e custo operacional radicalmente melhores para casos específicos
  • Divisão de mercado entre modelo grande na nuvem (tarefas complexas) + modelo pequeno local (tarefas rotineiras)

8.4 Agentes e o Problema do Longo Horizonte

O próximo problema não resolvido não é capacidade bruta de tokens — é a confiabilidade em tarefas de longo horizonte com múltiplos passos, ferramentas e estados. A métrica que importa não é benchmark estático, mas taxa de sucesso em workflows reais com verificação automática — exatamente o que o SWE-bench Verified tenta medir.

Laboratório Abordagem para agents
Anthropic Modelo auditável com tool use; agent stability foco
OpenAI Computer use nativo no GPT-5.3 Codex
xAI Arquitetura multi-agent paralela (Grok 4.20)
Google Gemini Agents com grounding e memória externa
DeepSeek R1 para raciocínio; V3 como executor de ferramentas

8.5 Independência de Hardware: Além do NVIDIA

O fato de o GLM-5 ter sido treinado inteiramente em chips Huawei Ascend, sem dependência de NVIDIA, é um marco técnico e geopolítico. O DeepSeek V4 demonstra um novo design de arquitetura que reduz 40% a memória necessária e acelera em 1,8x vs. V3 — em parte viabilizado por co-design com hardware não-NVIDIA.

O ecossistema está migrando de uma dependência de fato nos chips A100/H100/H800 para um modelo onde a diversificação de silicon é tecnicamente viável para modelos de fronteira.


9. Conclusão

O ecossistema de LLMs em abril de 2026 é o mais diversificado, competitivo e tecnicamente sofisticado da história. A narrativa de cinco anos atrás — "LLMs são coisa de OpenAI e Google" — foi substituída por um campo onde laboratórios chineses (DeepSeek, Alibaba, Zhipu, Moonshot, MiniMax) competem no mesmo nível que os incumbentes ocidentais, frequentemente a uma fração do custo, e com pesos públicos.

Do ponto de vista arquitetural, o MoE se estabeleceu como o padrão dominante para modelos de grande escala. A Multi-Head Latent Attention do DeepSeek provavelmente influenciará designs de atenção por anos. A curadoria extrema de dados da Microsoft para o Phi demonstrou que qualidade supera quantidade. E o treinamento por RL puro para induzir raciocínio em cadeia de pensamento, demonstrado pelo DeepSeek R1, abriu uma linha de pesquisa que todos os laboratórios estão agora perseguindo.

Para profissionais e organizações tomando decisões de deployment: o modelo certo não é o mais poderoso disponível — é o que maximiza a relação entre qualidade, custo, latência e requisitos de controle para o seu caso de uso específico. A estratégia de roteamento multi-modelo é hoje a abordagem com melhor ROI comprovado.


Referências


Última atualização: abril de 2026. Os dados de benchmarks, custos e versões de modelos evoluem rapidamente. Verifique sempre a documentação oficial dos fornecedores antes de decisões de produção.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment