Todos os posts
Pesquisa15 min de leitura

GPT-4o vs Claude Opus vs LexAI: quem acerta mais no direito brasileiro?

Resultados completos do LexBench BR 2026: comparação em jurisprudência STJ/STF, cálculos trabalhistas, redação de peças e análise de prazos.

28 de fevereiro de 2026

Qual IA acerta mais no direito brasileiro? Rodamos GPT-4o, Claude Opus, Gemini e a LexAI nas 30 tarefas do LexBench BR. O resultado confirma uma tese incômoda para quem vende IA jurídica genérica: liderar benchmarks globais não significa servir para a advocacia brasileira.

O desenho do teste

Cada modelo recebeu as mesmas 30 tarefas, divididas em jurisprudência (STJ/STF), cálculos trabalhistas, redação de peças e contagem de prazos. As respostas foram pontuadas por rubricas objetivas e auditáveis, não por preferência subjetiva. Nenhum modelo teve acesso às respostas de referência.

Onde os modelos genéricos vão bem

GPT-4o e Claude Opus produzem texto jurídico fluente e bem estruturado. Em tarefas de redação de forma (a estrutura de um recurso, o tom de um parecer) o desempenho é alto. É exatamente o que se espera de modelos de fronteira treinados em larga escala.

Onde eles falham, e por quê

  • Jurisprudência: sem recuperação em fonte oficial, os modelos genéricos citam acórdãos plausíveis porém inexistentes ou superados.
  • Cálculos: erros recorrentes em correção monetária e liquidação trabalhista quando o índice ou marco temporal não está explícito.
  • Prazos: contagem incorreta sob CPC/CLT em casos com suspensão ou feriado forense.
  • Harvey: forte em common law, mas sem cobertura das fontes brasileiras, fica atrás nas tarefas que dependem de DataJud e tribunais nacionais.

Por que a LexAI lidera nas tarefas que importam

A LexAI não usa um modelo "melhor": usa a mesma classe de modelos com uma arquitetura diferente: recuperação em fontes oficiais brasileiras antes da geração, ferramentas de cálculo determinísticas e citação preservada. Nas tarefas de jurisprudência e cálculo, onde a âncora factual decide o ponto, a diferença para os modelos genéricos é grande.

A leitura prática é simples: para rascunhar forma, um LLM de fronteira ajuda. Para afirmar o direito brasileiro com responsabilidade, você precisa de uma camada que amarre cada resposta à fonte. Os números completos e as rubricas estão abertos no LexBench BR, e auditá-los faz parte do ponto.

Quer ver a LexAI aplicada ao seu escritório? Agende uma demonstração ou receba nossas análises de IA jurídica por email, uma vez por mês, sem spam.