KIMODI - Diskriminierung raus den den Sprachmodellen!

KI-gestützte Moderation von Online-Diskussionen diskriminierungsarm gestalten (KI-MoDi)

Mit KI-MoDi möchten wir modellhaft zeigen, wie man Diskriminierungsrisiken von KI-Systemen analysieren und ihnen entgegenwirken kann. Am Beispiel des bestehenden Content-Moderation-Assistenz-Systems KOSMO erarbeiten wir ein Modell zur Analyse und Reduktion von Diskriminierung in KI-Sprachmodellen.

Laut Studien hat die große Mehrheit von Internetnutzer:innen in Deutschland in Online-Diskussionen Hate Speech und Beleidigungen erlebt. Das Internet ist gleichzeitig ein zentraler Ort für den offenen demokratischen Diskurs geworden. Gerade Minderheiten und unterrepräsentierte Gruppen sind dadurch abgeschreckt, an Diskussionen im Internet teilzunehmen. Die KI-basierte Moderation von Online-Diskussionen bietet die Möglichkeit, unseren digitalen öffentlichen Raum für alle inklusiv zu gestalten, indem die Diskussionen durch effektivere Moderation verbessert werden. Bereits heute unterstützen KI-Systeme vielfach die Moderation von Online-Diskussionen, indem sie Kommentare oder Inhalte als unsachlich oder problematisch einstufen. Allerdings passiert es, dass die KI so trainiert wurde, dass sie die Sprachmuster bestimmter Gruppen, z.B. Slang oder Redewendungen, fälschlicherweise als problematisch kategorisiert.

Unser Vorhaben wird das KI-Moderationssystem KOSMO exemplarisch auf Diskriminierungspotenziale hin analysieren und Maßnahmen zur Behebung vorschlagen und testen. Wir arbeiten mit unserem neu entwickelten sozio-technischen Workflow. Er verbindet mathematisch-statistische und technische Verfahren, etwa die Analyse der Trainingsdaten sowie des zugrundeliegenden Modells nach Verzerrungen. Auch Methoden für Transparenz und Erklärbarkeit werden eingesetzt (local explainability, LIME oder „adversarial bias detection“-Ansätze). Ergänzt wird das durch nicht-technische Maßnahmen wie Workshops oder Nutzungshinweise für Moderator*innen und Entwickler*innen. Im Projekt erarbeiten wir dabei zunächst ein Verfahren, welches wir in eine Projektskizze gießen werden.

Bisher gibt es kein praktisch erprobtes Verfahren zur Erkennung und Vermeidung von Diskriminierung in KI-Sprachmodellen. Zudem sind KI-Modelle für die Moderation von Online-Diskussionen, die auf ihr Diskriminierungspotential hin untersucht wurden, bisher nicht verfügbar. Mit unserem Vorhaben möchten wir einen Teil dieser Lücke exemplarisch schließen.

Das BAIC führt das Projekt gemeinsam mit Liquid Democracy und zwei Wissenschaftlerinnen durch:

LIQUID hat KOSMO mit entwickelt und ist spezialisiert auf die praktische Erforschung und Umsetzung von digitaler Partizipation. Mit seiner Expertise in der Konzeption, Programmierung und Moderation von politischer Partizipation im Internet kann der Verein diskriminierungsarme KI möglichst sinnvoll in die praktische Anwendung bringen.

Anke Stoll und Lena Wilms forschen an der Schnittstelle von Sozialwissenschaft und Computer Science. Sie haben die KI-Modelle von KOSMO entwickelt und evaluiert. Mit ihrer Expertise können wir die Mitigierung von Diskriminierung in Sprachmodellen innerhalb von KI-MoDi bestmöglich konzipieren.

Gefördert von der Civic Innovation Platform (CIP)
Mehr Infos zur CIP hier.