Anotación humana
Calibración del LLM-as-a-judge contra anotador humano
Protocolo de 2 fases (anotación ciega → reconciliación con taxonomía E1-E5) sobre 484 TTPs estratificados (sesión 19). Justifica empíricamente la decisión arquitectónica de descartar el juez v1 y validar v2. Anotador único defendido como expert oracle dado el carácter cerrado de la ontología ATT&CK.
Distribución del sample anotado
tabla calibration_sampleDiseño stratified-by-LLM-verdict sobre conf=0.75 + grupo de control aleatorio sobre conf=1.0. El control valida (o refuta) la suposición arquitectónica "conf=1.0 = TTP inequívoco".
Estratificado por veredicto v1: 285 accept (74.1%), 62 reject (16.2%), 37 uncertain (9.7%).
Hallazgo crítico: humano acepta solo 41% de conf=1.0 — la suposición arquitectónica "inequívoco" estaba rota.
Matriz de confusión · humano ↔ LLM v1 (Qwen 2.5 14B)
stratified · N=384Diagonal = acuerdo (en verde). Off-diagonal accept↔reject = error de calibración. La gran masa está en la celda human=reject / v1=accept (198 casos): el v1 aceptaba sistemáticamente lo que el humano rechazaba.
| v1: accept | v1: reject | v1: uncertain | v1: (none) | total |
|---|
Taxonomía de errores tipificados
codificados durante la fase 2 de reconciliaciónCodificación Likert tras revelar el veredicto del LLM. Cada desacuerdo recibe un código E1-E5 que explica el modo de fallo. E1 (abstracción vaga) domina abrumadoramente.
Krippendorff αK por fuente
krippendorff_segmented.py · per_source.csv · N≥10Acuerdo humano↔juez por fuente, en los cortes v1 y v2. El v2 mejora en todas las fuentes, con heterogeneidad notable entre ellas; la diferencia no dibuja una jerarquía nítida de calidad por tipo de fuente (las categorías se entrelazan).
| Fuente | N (v2) | αK v1 | αK v2 | α v2 (escala −1 → +1) |
|---|
Quote viewer · 484 anotaciones
Navegación por las anotaciones individuales. Útil para inspeccionar ejemplos concretos de cada categoría de error o de los acuerdos.