Resumen

Pipeline end-to-end de extracción de TTPs sobre threat intelligence público

Recolección automatizada de reportes CTI, extracción semántica con LLM (RAG híbrido) y validación con LLM-as-a-judge cruzando dos modelos independientes. La defensa se apoya en cuatro hallazgos cuantitativos.

Corpus validado

— TTPs

Aceptados por el juez Gemma 4 26B sobre … artículos. Cobertura temporal 2021-2026.

Explorar corpus · próximamente

Convergencia humano · Gemma

— vs —

Tasa de aceptación sobre TTPs conf=1.0. Diferencia: —. Ambas vías coinciden en ~41%: la confianza máxima no garantiza validez.

Mínima diferencia detectable (TOST, N=100): ±— · no prueba equivalencia a ±5pp

F1 del pipeline

—

Combined post-stratificado, BCa 95% CI [—, —]. Mejora de — sobre extractor solo (comparación indicativa; homogénea ≈ +21,5 pp).

MCC = — · α_K = — (combined, N=377; estratificada 0,646)

Errores E1 corregidos por v2

— %

Gemma 4 corrige — errores de abstracción vaga del juez v1 (Qwen 2.5 14B). Total corrección: —.

Justifica cuantitativamente añadir el segundo juez.

Etapas del pipeline

01Recolección automatizada (Scrapy + Playwright, 13 fuentes CTI)
02Preprocesamiento con dedup SimHash 64-bit (Hamming ≤ 3)
03Pre-filtrado semántico SBERT + ChromaDB (umbral coseno 0.55)
04Extracción RAG híbrido con Qwen 2.5 14B local
05LLM-as-a-judge v2 (Gemma 4 26B vía Google AI Studio)
06Calibración humana (484 anotaciones, Krippendorff α)
07Análisis longitudinal y co-ocurrencia (Mann-Kendall, ARM)
08Demo end-to-end sobre artículo seleccionado

Datos en vivo desde data/ransomware_intel.db y outputs/evaluation_f1/. Última actualización del corpus: —.