Methodik

Wie Politikradar täglich RSS-Artikel zu strukturierten Ereignissen, Narrativen und Akteursbeziehungen verarbeitet — und wöchentlich in einem 2D-Merkmalsraum clustert.

§ 01

Tägliche Pipeline

Läuft täglich, 06:30 UTC via GitHub Actions. Neue Artikel werden erfasst, zusammengefasst, per LLM bekannten Ereignissen zugeordnet oder als neue angelegt, dann vollständig analysiert.

RSS-Erfassung

~36 Artikel aus 6 Quellen täglich

Body + Zusammenfassung

trafilatura-Extraktion, LLM-Zusammenfassung für Zuordnung

Ereignisextraktion

Dreiphasige LLM-Zuordnung und Entdeckung

Analyse

Klassifikation, Akteure, Narrative, Perspektiven

Persistenz

Neon Postgres + Digest-Commit

§ 02

Dreiphasige Ereignisextraktion

Artikel werden nicht via Vektoren gruppiert, sondern durch ein LLM, das entscheidet, ob ein Artikel zu einem bekannten Ereignis gehört oder ein neues begründet.

PHASE 1

Zuordnung zu aktiven Ereignissen

Jeder neue Artikel wird gegen alle aktiven Ereignisse der letzten 7 Tage geprüft. Das LLM weist ihn einem Ereignis zu (Konfidenz ≥ 0.3) oder markiert ihn als unzugeordnet.

PHASE 2

Entdeckung neuer Ereignisse

Unzugeordnete Artikel werden gebündelt ans LLM gegeben, das daraus neue Ereignisse destilliert — mit Titel, Zusammenfassung und beteiligten Parteien.

PHASE 3

Restliche Zuordnung

Noch nicht zugeordnete Artikel werden erneut gegen die neu entdeckten Ereignisse geprüft. Artikel, die danach noch offen bleiben, werden verworfen.

§ 03

Ereignisanalyse

Jedes Ereignis wird täglich durch mehrere spezialisierte LLM-Aufrufe analysiert. Alle Ausgaben sind strukturiertes JSON mit festem Schema.

ANALYSE-SCHRITTE

01	Klassifikation	Typ, Domäne, Reichweite, Schweregrad
02	Akteure	kontrolliertes Vokabular, auto-wachsend
03	Narrative	Frames + Intensität, stabile Labels
04	Parteiperspektiven	Vorteilsscore −1.0 bis +1.0
05	Neutrale Analyse	Gewinner, Verlierer, watch_for

KLASSIFIKATIONS-VOKABULAR

TYPEN

legislation · election · scandal · protest · crisis · diplomatic · appointment · polling · judicial · economic_data · statement

DOMÄNEN

domestic · foreign_policy · security_defense · economy_finance · social_welfare · migration · climate_energy · health · education · digital_tech

REICHWEITE

bund · land · kommunal · eu · international

§ 04

Wöchentliches Clustering

Separat vom Tages-Digest: alle klassifizierten Ereignisse der letzten 90 Tage werden wöchentlich anhand strukturierter Merkmale in einem stabilen 2D-Raum verortet und geclustert.

Fingerprint → UMAP → HDBSCAN sonntags, 04:30 UTC

FINGERPRINT-DIMENSIONEN

Domänen · Typen · Reichweite · Schweregrad · Parteivorteilswerte · Top-Akteure

Kein Embedding-Modell — ausschließlich strukturierte LLM-Ausgaben aus der Klassifikation

PROJEKTION + CLUSTERING

UMAP (2D, cosine, n_neighbors=15) → HDBSCAN (min_cluster_size=3)

Modell wird persistent gespeichert; Koordinaten sind innerhalb einer Ära vergleichbar

§ 05

Schweregrad & Metriken

Severity und Konfidenz sind normalisierte Werte zwischen 0 und 1, vom LLM vergeben. Liegt die Konfidenz unter 0.7, wird das Ereignis beim nächsten Lauf neu klassifiziert.

NIEDRIG

0.0 – 0.4

Geringe politische Tragweite, begrenzte Medienresonanz

MITTEL

0.4 – 0.7

Nationale Berichterstattung, mehrere Akteure involviert

HOCH

0.7 – 1.0

Bundesweite Krisenlage oder Verfassungsrelevanz

§ 06

Quellen

RSS-Feeds aus 6 deutschsprachigen Medien werden täglich abgerufen.

Spiegel Online · Die Zeit · FAZ · Süddeutsche · Tagesschau · Die Welt