Benchmark Público v1.0
98,3%

Acurácia em legislação trabalhista brasileira

60 questões sobre a Consolidação das Leis do Trabalho, testadas contra o texto legislativo oficial. Cada resposta certificada com hash SHA-256 individual.

Resultados

Números do benchmark

59
Respostas corretas
1
Resposta parcial
0
Respostas incorretas
60
Total de questões

Master Hash (SHA-256) — Benchmark v1.0

42f8d134ae797a46ac6a944308d94f1dc3d3d6dfa93be5600964703e95989ae4
Metodologia

Como o benchmark foi conduzido

Modelo Avaliado

O benchmark foi executado utilizando o modelo sabia-4, o mesmo modelo em produção na plataforma DIKTUM. Nenhum ajuste ou fine-tuning específico foi aplicado para as perguntas do benchmark — o modelo foi testado com a mesma configuração utilizada nos casos reais.

Corpus de Perguntas

60 perguntas foram elaboradas cobrindo as áreas mais comuns da CLT em litígios trabalhistas. As perguntas abrangem jornada de trabalho, férias, rescisão, insalubridade, periculosidade, FGTS, seguro-desemprego, acúmulo de função, horas extras, intervalos, adicional noturno e outros temas recorrentes.

Processo de Avaliação

Cada pergunta foi enviada ao modelo e a resposta foi comparada manualmente contra o texto legislativo oficial da CLT. A comparação verificou: (1) citação correta do artigo, (2) interpretação precisa do dispositivo legal, e (3) aplicação correta ao contexto apresentado.

Resultados por Categoria

CategoriaQuestõesCorretasParciaisIncorretas
Jornada de Trabalho101000
Férias e Licenças8800
Rescisão Contratual8800
Remuneração e Adicionais10910
Insalubridade e Periculosidade6600
FGTS e Seguro-Desemprego6600
Direitos Sindicais4400
Litigância de Má-fé4400
Diversos (CLT)4400
Critérios de Avaliação

Sistema de pontuação

CORRECT

A resposta cita o artigo correto da CLT, interpreta o dispositivo com precisão e aplica corretamente ao contexto da pergunta. Não contém informações incorretas ou enganosas.

PARTIAL

A resposta é substancialmente correta, mas apresenta omissão relevante, imprecisão menor ou citação incompleta. A essência da resposta está correta, mas falta um detalhe importante.

INCORRECT

A resposta cita artigo errado, interpreta incorretamente o dispositivo legal ou contém informação factualmente errada que poderia levar a uma conclusão jurídica equivocada.

Verificação

Certificação SHA-256

Hash Individual por Q&A

Cada par pergunta-resposta foi serializado em JSON e recebeu hash SHA-256 individual. O hash é calculado sobre o conteúdo exato da pergunta, a resposta completa do modelo e a avaliação atribuída. Qualquer modificação posterior invalida o hash.

Hash Mestre

Os 60 hashes individuais foram concatenados em ordem e novamente processados por SHA-256 para gerar o hash mestre do benchmark. Este hash é o selo de integridade de todo o conjunto de resultados.

Master Hash (SHA-256) — Benchmark v1.0

42f8d134ae797a46ac6a944308d94f1dc3d3d6dfa93be5600964703e95989ae4

Declaração de Transparência

A DIKTUM publica este benchmark como compromisso com a transparência. Acreditamos que qualquer ferramenta de IA aplicada ao direito deve demonstrar publicamente sua acurácia, com metodologia auditável e resultados verificáveis.

O benchmark será atualizado periodicamente conforme o modelo evolui. Cada versão terá seu próprio hash mestre, permitindo rastreabilidade histórica da precisão do sistema.

Os resultados completos em formato JSON, incluindo cada pergunta, resposta, avaliação e hash individual, estão disponíveis para download.

Baixar Resultados (JSON)