Benchmark Público v1.0
98,3%

Acurácia em legislação trabalhista brasileira

60 questões sobre a CLT testadas contra o texto legislativo oficial. Cada resposta certificada com hash SHA-256 individual.

Resultados

Números do benchmark

59
Respostas corretas
1
Resposta parcial
0
Respostas incorretas
60
Total de questões

Master Hash (SHA-256) — Benchmark v1.0

42f8d134ae797a46ac6a944308d94f1dc3d3d6dfa93be5600964703e95989ae4
Metodologia

Como o benchmark foi conduzido

Corpus de Perguntas

60 perguntas cobrindo as áreas mais comuns da CLT em litígios trabalhistas: jornada, férias, rescisão, insalubridade, periculosidade, FGTS, seguro-desemprego, acúmulo de função, horas extras, intervalos e adicional noturno.

Processo de Avaliação

Cada pergunta foi enviada ao modelo e a resposta comparada contra o texto legislativo oficial da CLT. Verificamos: (1) citação correta do artigo, (2) interpretação precisa, e (3) aplicação correta ao contexto.

Resultados por Categoria

CategoriaQuestõesCorretasParciaisIncorretas
Jornada de Trabalho101000
Férias e Licenças8800
Rescisão Contratual8800
Remuneração e Adicionais10910
Insalubridade e Periculosidade6600
FGTS e Seguro-Desemprego6600
Direitos Sindicais4400
Litigância de Má-fé4400
Diversos (CLT)4400
Critérios de Avaliação

Sistema de pontuação

CORRECT

Artigo correto, interpretação precisa, aplicação correta. Sem informações incorretas ou enganosas.

PARTIAL

Substancialmente correta, mas com omissão relevante ou imprecisão menor. Essência correta, falta detalhe importante.

INCORRECT

Artigo errado, interpretação incorreta ou informação factualmente errada que levaria a conclusão equivocada.

Transparência

Certificação SHA-256

Hash Individual por Q&A

Cada par pergunta-resposta foi serializado em JSON e recebeu hash SHA-256 individual. Qualquer modificação posterior invalida o hash.

Master Hash (SHA-256) — Benchmark v1.0

42f8d134ae797a46ac6a944308d94f1dc3d3d6dfa93be5600964703e95989ae4

Declaração de Transparência

A DIKTUM publica este benchmark como compromisso com a transparência. Qualquer ferramenta de IA aplicada ao direito deve demonstrar publicamente sua acurácia, com metodologia auditável e resultados verificáveis.

O benchmark será atualizado periodicamente. Cada versão terá seu próprio hash mestre para rastreabilidade histórica.