LexAI  /  Benchmark aberto  /  v1.0.0-beta

LexBenchBR

0.00

LexAI Firm Mode / 10.00

Régua aberta para medir IA jurídica no ordenamento brasileiro. 30 tarefas reais, 5 modelos, gabaritos públicos.

CC-BY-4.0run 2026-05-02contribuir ↗

Leaderboard · clique para destacar no radar

score 0–10alucinação = REsp / Súmula inexistentes

Perfil por categoria

Detalhamento por categoria

ModeloJurisprudênciaCálculosRedaçãoQ&AAnáliseCálculoGeral
LexAI Firm Mode8.79.48.99.18.89.69.07
LexAI Base6.27.88.17.97.66.47.30
Claude Sonnet 4.6 (genérico)5.87.57.47.26.95.56.72
GPT-4o5.57.17.66.86.55.06.45
Gemini 2.5 Pro5.27.07.36.56.24.86.17

Negrito = melhor score na categoria

Tarefas abertas

Gabaritos públicos

30 tarefas com perguntas, rubricas e palavras-chave esperadas. Expanda qualquer tarefa para rodar ao vivo com o modelo de sua escolha.

Metodologia

30 tarefas, 6 categorias com pesos. Cada tarefa scoreada 0-10 por rubrica. Hallucination rate = % de respostas que citam REsp/Súmula/processo INEXISTENTES. Run em 2026-05-02 com 5 amostras por tarefa, mediana.

Resultados em beta. Tarefas e gabaritos abertos em /lexbench. Submissão de novas tarefas via PR.

Como funciona o juiz IA

① Modelo recebe a pergunta com system prompt jurídico BR

② Claude Haiku avalia a resposta contra a rubrica pública

③ Score 0–10 + detecção de hallucination + raciocínio do juiz

④ Resultado salvo publicamente com ID auditável

Ver todos os runs públicos →

Como contribuir

  1. 01

    Fork o repositório

    Faça fork no GitHub e crie uma branch com o nome da sua tarefa.

  2. 02

    Adicione ao array "tasks"

    ID no formato BR-CATEGORIA-NNN (ex: BR-JUR-031). Siga o schema existente.

  3. 03

    Inclua rubrica e gabarito

    Campo rubric obrigatório. expectedKeywords ou expectedAnswer para validação automática.

  4. 04

    Abra um PR

    Revisamos a tarefa e adicionamos ao próximo ciclo de avaliação.