KI-Kreditscoring — Hochrisiko-KI nach Annex III | Hochrisiko-KI nach Annex III

Use-Case-Definition

Gegenstand dieser Page sind KI-Systeme, die die Kreditwürdigkeit natürlicher Personen bewerten oder deren Kreditscore ermitteln. Erfasst sind klassische Bonitäts-Scorecards bei Banken und Sparkassen, Echtzeit-Entscheidungslogiken im Online-Kreditgeschäft, Bewertungsmodelle von Buy-Now-Pay-Later-Anbietern (BNPL) sowie Scoring-Dienste, die solche Bewertungen als Vorprodukt an Kreditgeber liefern. Gemeinsamer Kern ist, dass ein algorithmisches Modell aus personenbezogenen Merkmalen eine Aussage über die voraussichtliche Rückzahlungsfähigkeit oder das Ausfallrisiko einer Person ableitet.

Abzugrenzen ist der Use-Case in zwei Richtungen. Erstens gegenüber reiner Betrugserkennung: KI-Systeme, die ausschließlich der Aufdeckung von Finanzbetrug dienen, nimmt der EU AI Act ausdrücklich aus dem Hochrisiko-Bereich heraus. Zweitens gegenüber der Risikobewertung und Tarifierung in der Lebens- und Krankenversicherung — diese ist ein eigener, benachbarter Hochrisiko-Use-Case mit eigenem Pflichtenprofil und gehört auf eine separate Page.

Annex-III-Verortung

Der Use-Case ist in Annex III Nummer 5 Buchstabe b des EU AI Act (Verordnung (EU) 2024/1689) verortet — dem Bereich „Zugang zu und Inanspruchnahme von wesentlichen privaten und öffentlichen Diensten und Leistungen". Der Wortlaut erfasst dort KI-Systeme, die dazu bestimmt sind, die Kreditwürdigkeit natürlicher Personen zu bewerten oder ihre Kreditpunktebewertung (Credit Score) zu erstellen — mit Ausnahme von KI-Systemen, die zur Aufdeckung von Finanzbetrug eingesetzt werden. Damit fällt KI-gestütztes Kreditscoring unmittelbar unter den Hochrisiko-Tatbestand, unabhängig davon, ob das Modell die Kreditentscheidung selbst trifft oder dem Kreditgeber nur eine bewertende Grundlage liefert. Der eng gefasste Ausnahmetatbestand für Betrugserkennung ist tatbezogen auszulegen und trägt nicht, wenn ein System faktisch auch zur Bonitätsbewertung dient.

Warum Hochrisiko

Kreditscoring entscheidet über den Zugang zu einer der grundlegenden Ressourcen wirtschaftlicher Teilhabe. Wer keinen Kredit, kein Mietverhältnis und keinen Ratenkauf erhält, ist von zentralen Bereichen des Wirtschaftslebens ausgeschlossen. Drei Risiko-Mechanismen begründen die Einstufung als Hochrisiko.

Erstens der Diskriminierungs- und Proxy-Effekt: Scoring-Modelle lernen aus historischen Kredit- und Zahlungsdaten, die bestehende Ungleichheiten widerspiegeln. Merkmale wie Wohnort, Postleitzahl, Erwerbsbiografie oder Konsummuster können als Stellvertreter für geschützte Eigenschaften wie Herkunft, Geschlecht oder Alter wirken, ohne dass ein geschütztes Merkmal je direkt als Eingabevariable erscheint. So entsteht eine mittelbare Benachteiligung, die ohne gezielte Prüfung unsichtbar bleibt.

Zweitens die Intransparenz und fehlende Anfechtbarkeit: Betroffene erfahren häufig nicht, welche Merkmale ihren Score bestimmt haben, und können eine fehlerhafte oder veraltete Datengrundlage kaum korrigieren. Eine einzelne falsche Eintragung kann die Bewertung über Jahre belasten. Das Schutzgut ist hier neben dem Datenschutz das Recht auf informationelle Selbstbestimmung und der Schutz vor automatisierten Entscheidungen mit erheblicher Wirkung.

Drittens die Skalierung und strukturelle Wirkung: Ein systematischer Modellfehler trifft nicht eine Person punktuell, sondern fortlaufend ganze Bevölkerungsgruppen über Millionen Bewertungen hinweg. Genau diese Kombination aus Eingriffstiefe, Undurchsichtigkeit und breiter struktureller Wirkung führt dazu, dass der EU AI Act Kreditscoring nicht als gewöhnliche Datenverarbeitung, sondern als Hochrisiko-Anwendung mit eigenem Pflichtenkatalog behandelt.

Pflichten für Provider

Wer ein KI-System zur Kreditwürdigkeitsbewertung entwickelt und unter eigenem Namen am EU-Markt anbietet, ist Provider im Sinne von Art. 3 EU AI Act und trägt den Hauptteil der Pflichten aus Kapitel III Abschnitt 2. Dazu zählen ein dokumentiertes Risikomanagement über den gesamten Lebenszyklus (Art. 9), Anforderungen an Daten und Daten-Governance (Art. 10), eine technische Dokumentation nach Annex IV (Art. 11), automatische Protokollierung (Art. 12), Transparenz- und Informationspflichten gegenüber Deployern (Art. 13), Vorkehrungen für wirksame menschliche Aufsicht (Art. 14) sowie Anforderungen an Genauigkeit, Robustheit und Cybersicherheit (Art. 15).

Praktisch heißt das für Scoring-Modelle: Die verwendeten Trainings-, Validierungs- und Testdaten müssen auf Repräsentativität, Aktualität und mögliche Verzerrungen geprüft und dokumentiert sein. Die Modell-Performance ist nicht nur global, sondern entlang relevanter Bevölkerungsgruppen zu evaluieren, damit mittelbare Benachteiligung erkennbar wird. Vor Marktbereitstellung sind Konformitätsbewertung und CE-Kennzeichnung nach Art. 43, die Eintragung in die EU-Datenbank nach Art. 49 sowie ein Qualitätsmanagementsystem nach Art. 17 erforderlich. Zu beachten ist, dass für Kreditinstitute Teile dieser Pflichten in die bereits bestehende aufsichtsrechtliche Governance nach Unionsrecht über Finanzdienstleistungen integriert werden können.

Pflichten für Deployer

Der einsetzende Kreditgeber ist Deployer und trägt eigene Pflichten aus Art. 26 EU AI Act: Betrieb gemäß Anbieter-Instruktionen, Betrauung qualifizierter Personen mit der menschlichen Aufsicht, Plausibilitätsprüfung der Eingabedaten, Beobachtung des Betriebs und Aufbewahrung der automatisch erzeugten Logs. Bei Scoring-Systemen ist die menschliche Aufsicht besonders heikel: Wer einen Score nur abnickt und die Kreditentscheidung faktisch dem Modell überlässt, erfüllt die Anforderung an wirksame Aufsicht nach Art. 14 gerade nicht.

Hinzu treten flankierende Pflichten aus benachbartem Recht. Wird eine Kreditentscheidung ausschließlich automatisiert und mit erheblicher Wirkung getroffen, greift Art. 22 DSGVO mit seinem grundsätzlichen Verbot rein automatisierter Einzelentscheidungen und den daran geknüpften Betroffenenrechten. Informationspflichten nach Art. 13/14 DSGVO sowie das Auskunftsrecht nach Art. 15 DSGVO bleiben bestehen; in Deutschland treten die Vorgaben des AGG zur Vermeidung von Benachteiligung hinzu. Für Banken und sonstige beaufsichtigte Institute wirken zudem die einschlägigen aufsichtsrechtlichen Anforderungen an Modellrisiko und interne Governance fort. Öffentliche Stellen, die Scoring beim Zugang zu öffentlichen Leistungen einsetzen, haben überdies die Grundrechte-Folgenabschätzung nach Art. 27 durchzuführen.

Was Audits prüfen

Daten-Governance: Herkunft, Repräsentativität, Aktualität und Zweckbindung der Trainings- und Eingabedaten nach Art. 10, einschließlich des Umgangs mit veralteten Einträgen.
Subgruppen-Evaluation: Dokumentierte Fairness-Auswertung entlang relevanter Bevölkerungsgruppen, nicht nur globale Trefferquote — mit Blick auf Proxy-Variablen.
Erklärbarkeit gegenüber Betroffenen: Nachweis, dass die wesentlichen Score-bestimmenden Faktoren benennbar und einer Person gegenüber erläuterbar sind.
Human-Oversight-Nachweis: Belege, dass Sachbearbeitende den Score überstimmen können und dies real geschieht — nicht nur formal vorgesehen ist.
Logging & Nachvollziehbarkeit: Lückenlose Protokolle, die einzelne Bewertungen mit Modellversion und Eingabe rekonstruierbar machen (Art. 12).
Abgrenzung zur Betrugserkennung: Belegte, tatbezogene Trennung zwischen Bonitäts- und reinen Betrugserkennungsfunktionen, falls die Ausnahme in Anspruch genommen wird.

Konforme Architektur

Eine konforme Implementierung trennt konzeptionell die datenaufnehmende Schicht, die bewertende Modellschicht und die Kreditentscheidungsschicht — und hält an jeder Grenze einen Kontroll- und Protokollpunkt vor. Die Datenschicht beschränkt sich auf zweckgebundene, begründbare Merkmale und versieht jeden Eingabewert mit Quelle und Stand, sodass veraltete oder strittige Einträge erkennbar und korrigierbar bleiben. Das Modell liefert nachvollziehbare Teilbeiträge mit Begründungsmerkmalen statt eines opaken Gesamtscores und schreibt jede Bewertung mit Version, Eingabe und Zeitstempel in ein revisionssicheres Log. Die Entscheidungsschicht ist so gestaltet, dass die menschliche Aufsicht den Score einsehen, hinterfragen und übersteuern kann, mit dokumentierter Begründung bei Abweichung — und dass Betroffene eine verständliche Auskunft über die wesentlichen Faktoren erhalten. Ein laufendes Subgruppen-Monitoring erkennt entstehende Verzerrungen früh, und ein definierter Update-Prozess stellt sicher, dass Modelländerungen erneut bewertet und dokumentiert werden.

Den Gesamtkontext des EU AI Act — Risikoklassen, Pflichtensystematik und das Forcing Event 02.12.2027 — vertieft der Leitfaden auf eu-ai-verordnung.de. Für die konkrete Ausgestaltung von Risk Assessments und Aufsichts-Nachweisen liefert ki-hochrisiko.de passende Templates und Checklisten.

AEGIRA AI Navigator unterstützt die Risikoklassifizierung und Pflicht-Ableitung für Annex-III-Use-Cases — aegira.ai.