60 questões sobre a Consolidação das Leis do Trabalho, testadas contra o texto legislativo oficial. Cada resposta certificada com hash SHA-256 individual.
Master Hash (SHA-256) — Benchmark v1.0
42f8d134ae797a46ac6a944308d94f1dc3d3d6dfa93be5600964703e95989ae4O benchmark foi executado utilizando o modelo sabia-4, o mesmo modelo em produção na plataforma DIKTUM. Nenhum ajuste ou fine-tuning específico foi aplicado para as perguntas do benchmark — o modelo foi testado com a mesma configuração utilizada nos casos reais.
60 perguntas foram elaboradas cobrindo as áreas mais comuns da CLT em litígios trabalhistas. As perguntas abrangem jornada de trabalho, férias, rescisão, insalubridade, periculosidade, FGTS, seguro-desemprego, acúmulo de função, horas extras, intervalos, adicional noturno e outros temas recorrentes.
Cada pergunta foi enviada ao modelo e a resposta foi comparada manualmente contra o texto legislativo oficial da CLT. A comparação verificou: (1) citação correta do artigo, (2) interpretação precisa do dispositivo legal, e (3) aplicação correta ao contexto apresentado.
| Categoria | Questões | Corretas | Parciais | Incorretas |
|---|---|---|---|---|
| Jornada de Trabalho | 10 | 10 | 0 | 0 |
| Férias e Licenças | 8 | 8 | 0 | 0 |
| Rescisão Contratual | 8 | 8 | 0 | 0 |
| Remuneração e Adicionais | 10 | 9 | 1 | 0 |
| Insalubridade e Periculosidade | 6 | 6 | 0 | 0 |
| FGTS e Seguro-Desemprego | 6 | 6 | 0 | 0 |
| Direitos Sindicais | 4 | 4 | 0 | 0 |
| Litigância de Má-fé | 4 | 4 | 0 | 0 |
| Diversos (CLT) | 4 | 4 | 0 | 0 |
A resposta cita o artigo correto da CLT, interpreta o dispositivo com precisão e aplica corretamente ao contexto da pergunta. Não contém informações incorretas ou enganosas.
A resposta é substancialmente correta, mas apresenta omissão relevante, imprecisão menor ou citação incompleta. A essência da resposta está correta, mas falta um detalhe importante.
A resposta cita artigo errado, interpreta incorretamente o dispositivo legal ou contém informação factualmente errada que poderia levar a uma conclusão jurídica equivocada.
Cada par pergunta-resposta foi serializado em JSON e recebeu hash SHA-256 individual. O hash é calculado sobre o conteúdo exato da pergunta, a resposta completa do modelo e a avaliação atribuída. Qualquer modificação posterior invalida o hash.
Os 60 hashes individuais foram concatenados em ordem e novamente processados por SHA-256 para gerar o hash mestre do benchmark. Este hash é o selo de integridade de todo o conjunto de resultados.
Master Hash (SHA-256) — Benchmark v1.0
42f8d134ae797a46ac6a944308d94f1dc3d3d6dfa93be5600964703e95989ae4A DIKTUM publica este benchmark como compromisso com a transparência. Acreditamos que qualquer ferramenta de IA aplicada ao direito deve demonstrar publicamente sua acurácia, com metodologia auditável e resultados verificáveis.
O benchmark será atualizado periodicamente conforme o modelo evolui. Cada versão terá seu próprio hash mestre, permitindo rastreabilidade histórica da precisão do sistema.
Os resultados completos em formato JSON, incluindo cada pergunta, resposta, avaliação e hash individual, estão disponíveis para download.
Baixar Resultados (JSON)