Politikradar — Methodik technische Dokumentation

Methodik

Wie Politikradar täglich RSS-Artikel zu strukturierten Ereignissen, Narrativen und Akteursbeziehungen verarbeitet — und wöchentlich in einem 2D-Merkmalsraum clustert.

§ 01

Tägliche Pipeline

Läuft täglich, 06:30 UTC via GitHub Actions. Neue Artikel werden erfasst, zusammengefasst, per LLM bekannten Ereignissen zugeordnet oder als neue angelegt, dann vollständig analysiert.

01
RSS-Erfassung
~36 Artikel aus 6 Quellen täglich
02
Body + Zusammenfassung
trafilatura-Extraktion, LLM-Zusammenfassung für Zuordnung
03
Ereignisextraktion
Dreiphasige LLM-Zuordnung und Entdeckung
04
Analyse
Klassifikation, Akteure, Narrative, Perspektiven
05
Persistenz
Neon Postgres + Digest-Commit
§ 02

Dreiphasige Ereignisextraktion

Artikel werden nicht via Vektoren gruppiert, sondern durch ein LLM, das entscheidet, ob ein Artikel zu einem bekannten Ereignis gehört oder ein neues begründet.

PHASE 1
Zuordnung zu aktiven Ereignissen
Jeder neue Artikel wird gegen alle aktiven Ereignisse der letzten 7 Tage geprüft. Das LLM weist ihn einem Ereignis zu (Konfidenz ≥ 0.3) oder markiert ihn als unzugeordnet.
PHASE 2
Entdeckung neuer Ereignisse
Unzugeordnete Artikel werden gebündelt ans LLM gegeben, das daraus neue Ereignisse destilliert — mit Titel, Zusammenfassung und beteiligten Parteien.
PHASE 3
Restliche Zuordnung
Noch nicht zugeordnete Artikel werden erneut gegen die neu entdeckten Ereignisse geprüft. Artikel, die danach noch offen bleiben, werden verworfen.
§ 03

Ereignisanalyse

Jedes Ereignis wird täglich durch mehrere spezialisierte LLM-Aufrufe analysiert. Alle Ausgaben sind strukturiertes JSON mit festem Schema.

ANALYSE-SCHRITTE
01KlassifikationTyp, Domäne, Reichweite, Schweregrad
02Akteurekontrolliertes Vokabular, auto-wachsend
03NarrativeFrames + Intensität, stabile Labels
04ParteiperspektivenVorteilsscore −1.0 bis +1.0
05Neutrale AnalyseGewinner, Verlierer, watch_for
KLASSIFIKATIONS-VOKABULAR
TYPEN
legislation · election · scandal · protest · crisis · diplomatic · appointment · polling · judicial · economic_data · statement
DOMÄNEN
domestic · foreign_policy · security_defense · economy_finance · social_welfare · migration · climate_energy · health · education · digital_tech
REICHWEITE
bund · land · kommunal · eu · international
§ 04

Wöchentliches Clustering

Separat vom Tages-Digest: alle klassifizierten Ereignisse der letzten 90 Tage werden wöchentlich anhand strukturierter Merkmale in einem stabilen 2D-Raum verortet und geclustert.

Fingerprint → UMAP → HDBSCAN sonntags, 04:30 UTC
FINGERPRINT-DIMENSIONEN
Domänen · Typen · Reichweite · Schweregrad · Parteivorteilswerte · Top-Akteure
Kein Embedding-Modell — ausschließlich strukturierte LLM-Ausgaben aus der Klassifikation
PROJEKTION + CLUSTERING
UMAP (2D, cosine, n_neighbors=15) → HDBSCAN (min_cluster_size=3)
Modell wird persistent gespeichert; Koordinaten sind innerhalb einer Ära vergleichbar
§ 05

Schweregrad & Metriken

Severity und Konfidenz sind normalisierte Werte zwischen 0 und 1, vom LLM vergeben. Liegt die Konfidenz unter 0.7, wird das Ereignis beim nächsten Lauf neu klassifiziert.

NIEDRIG
0.0 – 0.4
Geringe politische Tragweite, begrenzte Medienresonanz
MITTEL
0.4 – 0.7
Nationale Berichterstattung, mehrere Akteure involviert
HOCH
0.7 – 1.0
Bundesweite Krisenlage oder Verfassungsrelevanz
§ 06

Quellen

RSS-Feeds aus 6 deutschsprachigen Medien werden täglich abgerufen.

Spiegel Online · Die Zeit · FAZ · Süddeutsche · Tagesschau · Die Welt