Explorar corpus · próximamente
Resumen
Pipeline end-to-end de extracción de TTPs sobre threat intelligence público
Recolección automatizada de reportes CTI, extracción semántica con LLM (RAG híbrido) y validación con LLM-as-a-judge cruzando dos modelos independientes. La defensa se apoya en cuatro hallazgos cuantitativos.
—
—
—
Mínima diferencia detectable (TOST, N=100): ±— · no prueba equivalencia a ±5pp
—
MCC = — · αK = — (combined, N=377; estratificada 0,646)
—
Justifica cuantitativamente añadir el segundo juez.
Etapas del pipeline
- 01Recolección automatizada (Scrapy + Playwright, 13 fuentes CTI)
- 02Preprocesamiento con dedup SimHash 64-bit (Hamming ≤ 3)
- 03Pre-filtrado semántico SBERT + ChromaDB (umbral coseno 0.55)
- 04Extracción RAG híbrido con Qwen 2.5 14B local
- 05LLM-as-a-judge v2 (Gemma 4 26B vía Google AI Studio)
- 06Calibración humana (484 anotaciones, Krippendorff α)
- 07Análisis longitudinal y co-ocurrencia (Mann-Kendall, ARM)
- 08Demo end-to-end sobre artículo seleccionado