LexAI / Benchmark aberto / v1.0.0-beta

LexBenchBR

0.00

LexAI Firm Mode / 10.00

Régua aberta para medir IA jurídica no ordenamento brasileiro. 30 tarefas reais, 5 modelos, gabaritos públicos.

CC-BY-4.0run 2026-05-02contribuir ↗

Leaderboard · clique para destacar no radar

score 0–10alucinação = REsp / Súmula inexistentes

Perfil por categoria

Detalhamento por categoria

Modelo	Jurisprudência	Cálculos	Redação	Q&A	Análise	Cálculo	Geral
LexAI Firm Mode	8.7	9.4	8.9	9.1	8.8	9.6	9.07
LexAI Base	6.2	7.8	8.1	7.9	7.6	6.4	7.30
Claude Sonnet 4.6 (genérico)	5.8	7.5	7.4	7.2	6.9	5.5	6.72
GPT-4o	5.5	7.1	7.6	6.8	6.5	5.0	6.45
Gemini 2.5 Pro	5.2	7.0	7.3	6.5	6.2	4.8	6.17

Negrito = melhor score na categoria

Tarefas abertas

Gabaritos públicos

30 tarefas com perguntas, rubricas e palavras-chave esperadas. Expanda qualquer tarefa para rodar ao vivo com o modelo de sua escolha.

Histórico público de runs tasks.json no GitHub

Metodologia

30 tarefas, 6 categorias com pesos. Cada tarefa scoreada 0-10 por rubrica. Hallucination rate = % de respostas que citam REsp/Súmula/processo INEXISTENTES. Run em 2026-05-02 com 5 amostras por tarefa, mediana.

Resultados em beta. Tarefas e gabaritos abertos em /lexbench. Submissão de novas tarefas via PR.

Como funciona o juiz IA

① Modelo recebe a pergunta com system prompt jurídico BR

② Claude Haiku avalia a resposta contra a rubrica pública

③ Score 0–10 + detecção de hallucination + raciocínio do juiz

④ Resultado salvo publicamente com ID auditável

Ver todos os runs públicos →

Como contribuir

01
Fork o repositório
Faça fork no GitHub e crie uma branch com o nome da sua tarefa.
02
Adicione ao array "tasks"
ID no formato BR-CATEGORIA-NNN (ex: BR-JUR-031). Siga o schema existente.
03
Inclua rubrica e gabarito
Campo rubric obrigatório. expectedKeywords ou expectedAnswer para validação automática.
04
Abra um PR
Revisamos a tarefa e adicionamos ao próximo ciclo de avaliação.