LexAI / Benchmark aberto / v1.0.0-beta
LexBenchBR
LexAI Firm Mode / 10.00
Régua aberta para medir IA jurídica no ordenamento brasileiro. 30 tarefas reais, 5 modelos, gabaritos públicos.
Leaderboard · clique para destacar no radar
Perfil por categoria
Detalhamento por categoria
| Modelo | Jurisprudência | Cálculos | Redação | Q&A | Análise | Cálculo | Geral |
|---|---|---|---|---|---|---|---|
| LexAI Firm Mode | 8.7 | 9.4 | 8.9 | 9.1 | 8.8 | 9.6 | 9.07 |
| LexAI Base | 6.2 | 7.8 | 8.1 | 7.9 | 7.6 | 6.4 | 7.30 |
| Claude Sonnet 4.6 (genérico) | 5.8 | 7.5 | 7.4 | 7.2 | 6.9 | 5.5 | 6.72 |
| GPT-4o | 5.5 | 7.1 | 7.6 | 6.8 | 6.5 | 5.0 | 6.45 |
| Gemini 2.5 Pro | 5.2 | 7.0 | 7.3 | 6.5 | 6.2 | 4.8 | 6.17 |
Negrito = melhor score na categoria
Tarefas abertas
Gabaritos públicos
30 tarefas com perguntas, rubricas e palavras-chave esperadas. Expanda qualquer tarefa para rodar ao vivo com o modelo de sua escolha.
Metodologia
30 tarefas, 6 categorias com pesos. Cada tarefa scoreada 0-10 por rubrica. Hallucination rate = % de respostas que citam REsp/Súmula/processo INEXISTENTES. Run em 2026-05-02 com 5 amostras por tarefa, mediana.
Resultados em beta. Tarefas e gabaritos abertos em /lexbench. Submissão de novas tarefas via PR.
Como funciona o juiz IA
① Modelo recebe a pergunta com system prompt jurídico BR
② Claude Haiku avalia a resposta contra a rubrica pública
③ Score 0–10 + detecção de hallucination + raciocínio do juiz
④ Resultado salvo publicamente com ID auditável
Como contribuir
- 01
Fork o repositório
Faça fork no GitHub e crie uma branch com o nome da sua tarefa.
- 02
Adicione ao array "tasks"
ID no formato BR-CATEGORIA-NNN (ex: BR-JUR-031). Siga o schema existente.
- 03
Inclua rubrica e gabarito
Campo rubric obrigatório. expectedKeywords ou expectedAnswer para validação automática.
- 04
Abra um PR
Revisamos a tarefa e adicionamos ao próximo ciclo de avaliação.