Skip to content

Instantly share code, notes, and snippets.

Show Gist options
  • Select an option

  • Save marcelgsantos/e5942ae808014d332d8073223a556b04 to your computer and use it in GitHub Desktop.

Select an option

Save marcelgsantos/e5942ae808014d332d8073223a556b04 to your computer and use it in GitHub Desktop.
Comparativo de Modelos de IA em 2026

Comparativo de Modelos de IA em 2026

Introdução

A forma mais útil de organizar esse tema em 2026 é separar três coisas que quase sempre são misturadas: modelo aberto, modelo com pesos abertos e modelo fechado. “Open-source” no sentido estrito de software livre quase nunca descreve bem os LLMs modernos; em muitos casos o que existe é “open-weight”, isto é, pesos publicados, mas com licença, restrições ou partes do pipeline de treinamento não totalmente abertas. Esse detalhe importa muito porque muda o que você pode auditar, fine-tunar, hospedar localmente e usar comercialmente. A própria galeria do Sebastian Raschka é uma referência valiosa para comparar decisões arquiteturais recentes, especialmente no ecossistema de modelos abertos ou open-weight.

Também vale uma correção de nomenclatura antes de começar. No bloco “fechado”, Opus, Sonnet e Haiku não são famílias independentes: são linhas da família Claude, da Anthropic. Codex, hoje, também não é uma família totalmente separada de GPT no sentido antigo; ele virou uma linha especializada de modelos e produtos de codificação baseada na geração GPT-5.x. E “Composer” não é um foundation model generalista no mesmo nível de GPT, Gemini ou Claude, mas um modelo proprietário da Cursor focado em engenharia de software agentic.

Meu resumo executivo é este: para uso geral fechado, hoje o eixo principal é GPT vs Claude vs Gemini vs Grok; para coding/agentic fechado, GPT/Codex, Claude Sonnet/Opus e Composer disputam a frente; para open-weight, Qwen, DeepSeek, Llama, Gemma, GLM, Kimi e MiniMax concentram boa parte da inovação recente, com ênfase forte em MoE, reasoning híbrido, janelas longas e uso de ferramentas. Phi continua sendo a linha mais claramente otimizada para eficiência, tamanho reduzido e deployment prático.

Como ler o mercado em 2026

Os grandes diferenciais técnicos entre as famílias mais relevantes hoje são: densidade vs Mixture-of-Experts, multimodalidade nativa vs acoplada, reasoning “thinking/non-thinking” no mesmo modelo ou em variantes separadas, janela de contexto real disponível por API, preço por milhão de tokens e grau de abertura da arquitetura e do treinamento. Em 2025–2026, o padrão dominante nos modelos mais ambiciosos de pesos abertos passou a ser MoE, muitas vezes combinado com atenção otimizada, treinamento voltado a agentes e pós-treinamento com RL.

Modelos “abertos” da sua lista

Na prática, quase todos aqui são melhor descritos como open-weight, não como open-source pleno.

GLM

A linha GLM mais relevante hoje é a GLM-4.5/4.5-Air da Z.ai. Ela foi desenhada explicitamente para agentes, usa arquitetura MoE e expõe números públicos de parâmetros ativos, o que já a diferencia de vários concorrentes fechados. O GLM-4.5 tem 355B de parâmetros totais com 32B ativos por passo; o Air tem 106B totais com 12B ativos. O foco declarado é unir reasoning, coding e agentic tasks no mesmo backbone. A janela publicada é de 128K e a Z.ai publica preços oficiais de API, com GLM-4.5 em torno de US$ 0,6 por milhão de tokens de entrada e US$ 2,2 por milhão de saída, e GLM-4.5-Air em torno de US$ 0,2 / US$ 1,1. Isso coloca o GLM numa posição forte para agentes baratos com boa transparência arquitetural.

O que diferencia o GLM dos outros open-weight é a combinação de transparência arquitetural, foco agentic desde o design e custo de API agressivo. Ele não é o ecossistema mais consolidado do mercado, mas está muito bem posicionado para quem quer um modelo aberto voltado a tool use e automação.

MiniMax

Aqui a família importante é a MiniMax-M1. Ela foi lançada como open-weight, com forte ênfase em reasoning, contexto longo e eficiência de RL. O MiniMax a descreve como o primeiro grande modelo open-source/open-weight com hybrid attention reasoning; a documentação pública destaca janela de 1 milhão de tokens, suporte a function calling e treinamento com RL em problemas que vão de matemática a software engineering.

O diferencial do MiniMax não é ser o mais popular, mas atacar diretamente o problema de contexto longo e raciocínio de longa duração com custo relativamente competitivo. É uma família interessante quando o caso de uso é agente que precisa ler bases enormes, manter estado de trabalho por muito tempo e operar com ferramentas. A MiniMax também tem portfólio multimodal amplo como empresa, mas o M1 em si é principalmente lembrado pelo stack de reasoning e long context.

Qwen

Qwen virou uma das famílias open-weight mais completas do mercado. A série Qwen3 inclui variantes densas e MoE, com forte ênfase em reasoning, agents, coding e multilinguismo. Isso é importante porque Qwen não compete só em benchmark bruto; ele compete em cobertura de portfólio, tooling e deployabilidade. Os model cards públicos destacam explicitamente que a família mistura modelos dense e mixture-of-experts.

O grande diferencial do Qwen é amplitude: ele oferece bons tamanhos pequenos, médios e muito grandes, com ecossistema forte em Hugging Face e inferência ampla em Transformers, vLLM, SGLang e afins. Em comparação com Llama e Gemma, o Qwen hoje costuma parecer mais agressivo em variedade de SKUs, cobertura multilíngue e disponibilidade de variantes reasoning/agentic.

Gemma

Gemma é a linha aberta do Google, construída com a mesma base de pesquisa que alimenta Gemini. A série Gemma 3 já trouxe multimodalidade com entrada de texto e imagem, contexto de 128K, suporte a mais de 140 idiomas e tamanhos pequenos o suficiente para execução local realista. Em 2026, o ecossistema já avançou para Gemma 4, com variantes pequenas em 128K e médias em 256K, além de expansão de modalidades para vídeo e áudio em linhas específicas como Gemma 3n/4.

O ponto forte do Gemma é ser provavelmente a família mais “engenheirável” para on-device e edge entre os modelos abertos de primeira linha. Ele não é necessariamente o mais extremo em benchmark máximo, mas é uma aposta muito forte para produto embarcado, dispositivos e uso local com respaldo de ecossistema Google.

Kimi

A família Kimi, da Moonshot AI, saiu de um posicionamento mais fechado para uma linha open-weight muito competitiva com K2 e K2.5. O Kimi K2 foi publicado como um MoE com 1 trilhão de parâmetros totais e 32B ativados por token; o K2.5 evoluiu para uma proposta nativamente multimodal, com suporte a texto, imagem e vídeo, thinking/non-thinking modes e contexto de 256K. A Moonshot também afirma treinamento contínuo sobre cerca de 15 trilhões de tokens mistos visuais e textuais para a variante K2.5.

O diferencial do Kimi hoje é a combinação rara de open-weight, multimodalidade nativa e foco agentic/coding. Em relação a Qwen e Llama, ele parece mais explicitamente otimizado para agentes e para colaboração com ferramentas. Em relação a DeepSeek, o Kimi tenta vender mais versatilidade multimodal e menos uma identidade centrada só em reasoning/custo. A Moonshot publica documentação de contexto e capacidades, mas a precificação pública acessível via snippets está menos clara do que em OpenAI, Anthropic, xAI ou DeepSeek.

Llama

Llama continua sendo a família mais influente do ponto de vista de ecossistema, mesmo quando não lidera tudo em benchmark. A linha recente mais importante é Llama 4, apresentada pela Meta como nativamente multimodal; o modelo Maverick, por exemplo, foi descrito com 17B parâmetros ativos e 128 experts. Isso sinaliza uma mudança importante: a Meta também entrou forte em MoE para a linha principal.

O principal diferencial do Llama é menos “ser o melhor em tudo” e mais ser o padrão de fato do ecossistema aberto: tooling, quantização, serving, fine-tuning, tutoriais, integrações e comunidade continuam muito fortes. A limitação é a licença customizada da Meta, que não deve ser confundida com open-source clássico.

DeepSeek

DeepSeek é uma das famílias mais importantes da era MoE. O DeepSeek-V3 foi publicado como um modelo MoE de 671B parâmetros totais com 37B ativos por token. A documentação pública destaca duas escolhas arquiteturais muito marcantes: Multi-head Latent Attention e DeepSeekMoE, além de uma estratégia de load balancing sem auxiliary loss e objetivo de multi-token prediction. A API atual aponta para a geração V3.2 com contexto de 128K, em modos “chat” e “reasoner”.

O diferencial do DeepSeek é claro: eficiência brutal por token, arquitetura muito explícita publicamente e posicionamento fortíssimo em reasoning. Na prática, ele virou um dos principais referenciais de custo/performance entre modelos abertos de ponta, especialmente quando o critério é “quero algo muito forte, mais barato que os líderes fechados e com arquitetura relativamente bem documentada”.

Phi

Phi é a família da Microsoft voltada a small language models e deployment eficiente. A geração Phi-4 reforçou isso: Phi-4 em 14B, Phi-4-mini e Phi-4-multimodal, com foco em qualidade alta por parâmetro, contexto de 128K em linhas recentes e, no caso do Phi-4-multimodal, suporte a texto, imagem e áudio. A Microsoft posiciona Phi menos como “frontier maximalista” e mais como “modelo prático, barato e pequeno”.

O diferencial do Phi é ser o melhor representante da filosofia SLM no grupo da sua lista. Se o objetivo é rodar localmente, reduzir custo, usar edge, ou encaixar IA em produto com orçamento apertado, Phi quase sempre merece ser avaliado antes de um Llama/Qwen maior. Em troca, ele não concorre no mesmo teto bruto de inteligência dos maiores MoE.

Modelos fechados da sua lista

Claude: Opus, Sonnet e Haiku

Opus, Sonnet e Haiku são tiers da família Claude. Em 2026, a Anthropic posiciona Opus como o topo de inteligência, Sonnet como o melhor equilíbrio entre custo e capacidade, e Haiku como a linha mais rápida e barata. A Anthropic publica preços oficiais: Opus 4.6 em US$ 5 input / US$ 25 output por milhão, Sonnet 4.6 em US$ 3 / US$ 15, e Haiku 4.5 em US$ 1 / US$ 5. A Anthropic também já oferece janela de até 1M tokens para Opus 4.6 e Sonnet 4.6 na plataforma Claude.

O diferencial do Claude está menos na arquitetura pública, que continua fechada, e mais no comportamento: coding forte, agentes long-running, computer use e bom desempenho em tarefas que exigem persistência e detalhismo. Sonnet virou a opção muito competitiva para produto e engenharia; Opus é a aposta para tarefas mais difíceis; Haiku é a opção de throughput e custo.

GPT

A família GPT continua sendo um dos eixos centrais do mercado fechado. No momento, a OpenAI posiciona GPT-5.4 como flagship para trabalho profissional complexo, coding e workflows agentic. A documentação oficial publica 1M de contexto, 128K de saída máxima e preço de US$ 2,50 input / US$ 15 output por milhão de tokens; GPT-5.4 mini desce para 400K de contexto e US$ 0,75 / US$ 4,50; nano vai para US$ 0,20 / US$ 1,25.

O diferencial do GPT hoje é amplitude operacional: web search, file search, computer use, forte capacidade geral, bom desempenho em coding e boa integração de tool use. Em termos de arquitetura interna, a OpenAI publica muito menos que os modelos open-weight; então a comparação aqui é mais por comportamento de produto do que por blueprint interno.

Codex

Codex, em 2026, deve ser entendido como a linha e a experiência de codificação da OpenAI, não como uma família totalmente separada como foi no passado. A OpenAI recomenda GPT-5.4 para a maior parte dos fluxos do Codex, e mantém modelos especializados como GPT-5.3-Codex para agentic coding. O GPT-5.3-Codex tem 400K de contexto, 128K de saída e foco explícito em tarefas agentic de programação; o preço oficial no API docs aparece em US$ 1,75 input / US$ 14 output por milhão no tier standard.

O diferencial do Codex é especialização. Ele não tenta ser o melhor modelo geral do mercado; tenta ser a melhor superfície para engenharia de software, com ambiente, sandbox, IDE/CLI e workflows longos de implementação, correção e revisão.

Grok

A família Grok da xAI hoje está em Grok 4.20 e Grok 4.1 Fast, com contexto de 2 milhões de tokens e forte foco em tool calling, structured outputs e baixa latência. A xAI publica preços oficiais de API: Grok 4.20 reasoning em US$ 2 input / US$ 6 output por milhão; Grok 4.1 Fast reasoning em US$ 0,20 / US$ 0,50. A documentação oficial também trata Grok 4.20 como flagship com baixa hallucination rate e forte prompt adherence.

O diferencial do Grok é contexto extremamente longo com preço competitivo, mais integração agressiva com ferramentas. O ponto menos claro, comparado aos modelos abertos, é a arquitetura interna: ela permanece fechada. Em multimodalidade, a xAI oferece recursos relacionados a imagem e OCR na plataforma, mas os snippets públicos dos modelos listados destacam principalmente texto, ferramentas e APIs adjacentes.

Composer

Composer é o modelo proprietário da Cursor para engenharia de software agentic. A Cursor o descreve como um frontier model para software engineering, treinado com RL, semantic search e técnicas voltadas a tarefas longas. A linha evoluiu de Composer para Composer 1.5 e Composer 2; a Cursor publica preços de Composer 2 em US$ 0,50 input / US$ 2,50 output por milhão, com variante fast em US$ 1,50 / US$ 7,50.

O diferencial do Composer não é competir como modelo geral, mas ser muito otimizado para o loop de programação: planejar, editar múltiplos arquivos, iterar rápido e operar como agente. A Cursor também publicou técnicas de treinamento voltadas a long-horizon coding, como self-summarization em RL. Publicamente, porém, ela divulga menos detalhes arquiteturais do que GLM, DeepSeek ou Kimi.

Gemini

Gemini segue como a família fechada mais fortemente associada a multimodalidade nativa. A documentação oficial continua destacando que Gemini foi construído “from the ground up” para multimodalidade, incluindo texto, imagem, áudio, vídeo, documentos e ferramentas. Em 2026, a linha Gemini 3 e 2.5 cobre desde modelos flash baratos até raciocínio mais forte; a documentação pública mostra preços competitivos e janelas grandes, com linhas chegando a 1M de contexto no ecossistema atual.

O diferencial do Gemini é ser provavelmente o stack mais multimodal “nativo” entre os grandes fornecedores fechados, além de ter integração forte com documentos, vídeo, áudio, grounding e APIs do Google. Em comparação com Claude, tende a ser mais naturalmente multimodal; em comparação com GPT, costuma disputar custo/contexto e integração com mídia.

Modelos importantes que você não listou e deveriam entrar

Mistral

Mistral continua muito importante no campo open-weight. O Mistral Large 3 é descrito oficialmente como open-weight, multimodal, MoE granular, com 41B parâmetros ativos, 675B totais, 256K de contexto e preço de API em torno de US$ 0,5 / US$ 1,5 por milhão. É um dos ausentes mais relevantes da sua lista.

Command

Se você incluiu Composer, faz sentido incluir também a família Command, da Cohere, no lado fechado. O Command A tem 256K de contexto, é fortemente orientado a agentes, RAG e uso empresarial, e a Cohere o posiciona como muito eficiente em throughput e infraestrutura.

Amazon Nova

No lado fechado, Amazon Nova também já merece entrar em qualquer panorama sério. A AWS o posiciona como família proprietária de frontier price-performance, com forte foco multimodal, customização empresarial e um portfólio que cobre entendimento, geração e embeddings multimodais.

O que realmente diferencia essas famílias

A primeira grande divisão é filosófica. Open-weight forte hoje significa Qwen, DeepSeek, GLM, Kimi, Mistral, MiniMax e Llama/Gemma em graus diferentes de abertura. Isso favorece auditoria, fine-tuning, self-hosting e custo potencialmente menor no longo prazo. Fechado forte significa GPT, Claude, Gemini, Grok, Nova e Composer, o que normalmente favorece produto mais polido, toolchain mais integrada e menos transparência interna.

A segunda divisão é arquitetural. Se você quer acompanhar a fronteira arquitetural, observe quem está apostando pesado em MoE: DeepSeek, GLM, Kimi, Mistral Large 3, Llama 4 e Qwen em parte do portfólio. Phi, por outro lado, representa a escola da eficiência compacta. Isso produz dois efeitos práticos: MoE domina o topo de custo/performance em larga escala, enquanto SLMs como Phi dominam cenários embarcados e orçamentos baixos.

A terceira divisão é produto. Para coding e agentes, Sonnet/Opus, GPT/Codex, Grok e Composer são escolhas naturais no lado fechado; DeepSeek, Qwen, GLM, Kimi e MiniMax são escolhas naturais no lado aberto. Para multimodalidade nativa, Gemini e Kimi chamam muita atenção; Gemma e Llama avançaram bastante; Phi e Nova cobrem nichos importantes. Para execução local, Gemma, Phi, Qwen pequenos e Llama menores continuam particularmente atraentes.

Minha classificação prática, direta ao ponto

Se o critério for “melhor ecossistema aberto hoje”, eu colocaria Qwen, DeepSeek, Llama e Mistral no grupo principal, com GLM e Kimi logo atrás ou já misturados nesse mesmo topo dependendo do foco em agentes. Se o critério for “melhor custo/benefício aberto para agentes e reasoning”, DeepSeek, GLM, Kimi e MiniMax merecem muita atenção. Se o critério for “melhor para rodar pequeno e barato”, Phi e Gemma ganham força.

No lado fechado, para uso geral de alto nível eu pensaria em GPT-5.4, Claude Sonnet/Opus e Gemini 3/2.5 como trio principal; Grok entra forte quando contexto enorme e tool calling pesam muito; Composer entra quando o problema é quase exclusivamente engenharia de software agentic.

Conclusão

O mercado de LLMs em 2026 está menos organizado por “quem tem o melhor benchmark” e mais por quatro eixos: grau de abertura, qualidade agentic, multimodalidade nativa e custo por contexto útil. Se você quer soberania tecnológica, auditabilidade e possibilidade real de self-hosting, olhe primeiro para Qwen, DeepSeek, GLM, Kimi, Mistral, Llama, Gemma e Phi. Se você quer o melhor produto fechado para uso amplo e integração pronta, a disputa principal continua entre GPT, Claude e Gemini, com Grok e Composer puxando casos específicos.

Posso transformar isso em uma versão 2 com uma matriz comparativa única, em formato de tabela, trazendo para cada família: empresa, status de abertura, janela de contexto, multimodalidade, preço oficial, arquitetura pública, uso recomendado, strengths, weaknesses e observações de licença.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment