GPT-4o vs Claude Opus vs LexAI: quem acerta mais no direito brasileiro?
Resultados completos do LexBench BR 2026: comparação em jurisprudência STJ/STF, cálculos trabalhistas, redação de peças e análise de prazos.
28 de fevereiro de 2026
Qual IA acerta mais no direito brasileiro? Rodamos GPT-4o, Claude Opus, Gemini e a LexAI nas 30 tarefas do LexBench BR. O resultado confirma uma tese incômoda para quem vende IA jurídica genérica: liderar benchmarks globais não significa servir para a advocacia brasileira.
O desenho do teste
Cada modelo recebeu as mesmas 30 tarefas, divididas em jurisprudência (STJ/STF), cálculos trabalhistas, redação de peças e contagem de prazos. As respostas foram pontuadas por rubricas objetivas e auditáveis, não por preferência subjetiva. Nenhum modelo teve acesso às respostas de referência.
Onde os modelos genéricos vão bem
GPT-4o e Claude Opus produzem texto jurídico fluente e bem estruturado. Em tarefas de redação de forma (a estrutura de um recurso, o tom de um parecer) o desempenho é alto. É exatamente o que se espera de modelos de fronteira treinados em larga escala.
Onde eles falham, e por quê
- Jurisprudência: sem recuperação em fonte oficial, os modelos genéricos citam acórdãos plausíveis porém inexistentes ou superados.
- Cálculos: erros recorrentes em correção monetária e liquidação trabalhista quando o índice ou marco temporal não está explícito.
- Prazos: contagem incorreta sob CPC/CLT em casos com suspensão ou feriado forense.
- Harvey: forte em common law, mas sem cobertura das fontes brasileiras, fica atrás nas tarefas que dependem de DataJud e tribunais nacionais.
Por que a LexAI lidera nas tarefas que importam
A LexAI não usa um modelo "melhor": usa a mesma classe de modelos com uma arquitetura diferente: recuperação em fontes oficiais brasileiras antes da geração, ferramentas de cálculo determinísticas e citação preservada. Nas tarefas de jurisprudência e cálculo, onde a âncora factual decide o ponto, a diferença para os modelos genéricos é grande.
A leitura prática é simples: para rascunhar forma, um LLM de fronteira ajuda. Para afirmar o direito brasileiro com responsabilidade, você precisa de uma camada que amarre cada resposta à fonte. Os números completos e as rubricas estão abertos no LexBench BR, e auditá-los faz parte do ponto.
Quer ver a LexAI aplicada ao seu escritório? Agende uma demonstração ou receba nossas análises de IA jurídica por email, uma vez por mês, sem spam.