Was machen LLMs eigentlich?
Grosse Sprachmodelle wie LLaMA, Mistral oder Qwen sind riesige neuronale Netze mit Millarden von Parametern, die auf Unmengen von Texten trainiert wurden. Solche LLMs werden als generativ bezeichnet, weil sie fortlaufen den nächsten text Teil vorhersagen, somit jene wiederum als Eingabe für die nächste Vorhersage verwenden. Allgemein wird diese Problemstellung zur Vorhersage dieser Text-Teile als «Next-Token-Prediction» bezeichnet, wobei ein «Token» auf ein Teilstück eines Textes bezieht. Durch dies können solche Modelle erstaunlich konsistente und komplexe Texte erzeugen [1, 2]. Aber so mächtig diese Technik auch sein mag, sie bringt ihre eigenen Herausforderungen mit sich. Denn was ein LLM «lernt», hängt eng davon ab, mit welchen Daten es gefüttert wurde und mit welchen methoden genau jenes trainiert worden ist. Somit verkörpert es auch jene kulturellen oder sprachlichen Vorurteilen welchen es ausgsetzt wurde.
Ein kurzer Blick auf das Trolley-Problem
Das Trolley-Problem ist ein klassisches Gedankenexperiment, das uns vor eine moralische Zwickmühle stellt. Dabei wurde das ürsprüngliche dilemma zu einem späteren Zeitpunkt in weitere Varianten übertragen, jedoch um gewissen Sozialen und Emotionalen verbindungen zu lösen.
- Klassische Form («Switch»): Ein unkontrollierter Wagen rast auf fünf Personen zu. Ein Hebel könnte den Wagen umlenken, sodass nur eine Person auf einem Nebengleis stirbt – dafür wären die fünf gerettet [3].
- «Loop»-Variante: Ähnlich wie bei der Switch Variante, nur dass der Wagen auf einer Schleife fährt und wieder auf die fünf Personen zurückrollen würde, es sei denn, diese eine Person stoppt den Wagen [4].
- Fetter-Mann»-Variante: Hier steht man auf einer Brücke. Durch das Herunterschubsen einer Person könnte man den Wagen stoppen und fünf Menschen retten – ein viel drastischerer Eingriff [4].
Philosophisch untersucht das Trolley-Problem, wie wir über die Abwägung «ein Leben vs. viele Leben» entscheiden und ob wir «aktiv» Schaden zufügen, um «passiv» grösseren Schaden zu vermeiden.
Charakteristika: Alter, Nationalität und Geschlecht
Unsere Studie geht einen Schritt weiter, indem wir LLMs mit sogenannten demographischen Prompts geben: Wir «sagen» dem Modell beispielsweise, es sei eine 75-jährige Portugiesin, die alle typischen Stereotype verkörpert, oder ein 30-jähriger Deutscher usw. Dadurch wollen wir sehen, ob und wie sich die Antworten der Modelle ändern, sobald sie eine bestimmte Rolle einnehmen [5].
- Alter: Die Idee dahinter ist, dass es einen Unterschied machen könnte, ob jemand (oder ein Modell) aus der Perspektive einer älteren oder jüngeren Person spricht. Folgend gibt es genügend vorurteile dass ältere Menschen konservativer sind und beschuldigungen dass jüngere Menschen zu wenig Arbeiten.
- Nationalität: Stereotype und kulturelle Einflüsse könnten sich in den Antworten spiegeln. So könnte ein Franzose williger aus reiner Empatie eingreifen, während der Russe nur aus Pflichtgefühl handelt.
- Geschlecht: Auch hier könnte das Modell unterschiedliche Prioritäten aufzeigen oder mehr bzw. weniger eingreifen. Geht man von den Stereotypen aus so würde ein Frau eher Emoptional handeln und ein Mann eher Rational.
Ein Beispiel-Prompt
Um das ganze effizient zu gestalten und nicht jeden Prompt selber zu schreiben wurden Promp-Templates in den jeweiligen National-Sprachen erstellt und folgend die variablen der Charakteristika eingesetzt.
Nachfolgend ein verkürztes Prompt-Beispiel auf Deutsch, das in unserer Untersuchung verwendet wurde:
"de": [
{
"instructions": "Sie nehmen die Identität an ( Jahre alt), ...",
"scenario": "Wie würden Sie auf das Trolley-Problem reagieren? ...",
"question": "Bitte argumentieren Sie aus Ihrer Identität heraus, ..."
}
]
Damit versetzen wir das LLM in eine spezifische Rolle (z.B. «ein deutscher Rentner, 75 Jahre alt»). Anschliessend stellen wir ihm das Trolley-Dilemma und bitten es, die Entscheidung zu begründen.
Wie wird das LLM-Ergebnis klassifiziert?
Um die teils sehr langen Texte zu bewerten, verwendeten wir ein LLM-as-a-Judge-Verfahren. Dabei «liest» ein drei weitere Modell die Ausgabe und kategorisiert, ob das Modell im Trolley-Problem den Hebel zieht (Intervention) oder nicht [6]. So konnten wir auf einfache Weise feststellen, welcher Anteil der Antworten für oder gegen das Eingreifen ausfällt. Anschliessend haben wir diese Werte mit echten Daten aus der sogenannten «Moral Machine»-Studie [7] abgeglichen, in der menschliche Teilnehmer ähnliche Entscheidungen trafen.
Die Resultate: Drei Modelle, drei Verhaltensmuster
-
Mistral: Dieses Modell zeigte bei vielen Szenarien eine Tendenz zu «über-Intervention» – also öfter für das Ziehen des Hebels. In einigen Fällen griff es deutlich häufiger ein als Menschen in vergleichbaren Situationen.
-
Qwen: Qwen verhält sich oft genau gegenteilig und neigt eher zum Nicht-Intervenieren. Bei gewissen Nationalitäten (z.B. französisch oder brasilianisch) klaffen die Werte besonders weit auseinander.
-
LLaMA: LLaMA liegt meistens irgendwo in der Mitte. Zwar gibt es ebenfalls Abweichungen von menschlichen Referenzwerten, aber sie fallen in der Regel weniger extrem aus als bei Mistral oder Qwen.
Spannend ist, dass die vom Prompt vorgegebene Nationalität offenbar das stärkste Signal ist: Während z.B. Mistral als «russisches» Profil noch häufiger eingreift, zeigt dasselbe Modell bei einer «spanischen» Identität manchmal eine gegenteilige Tendenz. Auch beim Geschlecht und Alter sind Unterschiede feststellbar, wenn auch meist weniger stark ausgeprägt.
Fazit und Ausblick
Das Trolley-Problem bietet einen faszinierenden Einblick in die (pseudo-)ethische Entscheidungsfindung von LLMs. Unsere Ergebnisse lassen vermuten, dass das Rollenverhalten der Modelle – also wie sie sich verhalten, sobald man sie auf ein bestimmtes Alter, Geschlecht oder eine Nationalität festlegt – sehr unterschiedlich ausfallen kann. Diese Varianz lässt sich auf die im Training verwendeten Daten und möglichen Stereotypen zurückführen, welche jedoch von solchen Tech-Giganten der öffentlichkeit vorenthalten werden.
Was bedeutet das konkret?
- Wer KI-Systeme für kritische Anwendungen baut, sollte sicherstellen, dass Bias und Vorurteile erkannt und minimiert werden.
- Das Trolley-Problem dient hier nur als Beispiel. Tatsächlich können ähnliche Verzerrungen auch in anderen Kontexten (z.B. bei medizinischen Empfehlungen, juristischen Einschätzungen, Asylgesuchen oder Bewerbungen) auftreten.
Aus ethischer Sicht ist klar: Je mehr wir verstehen, wie ein LLM zu seinen Entscheidungen gelangt, desto besser können wir es gestalten, damit es mit unseren Werten und Grundsätzen übereinstimmt. Für die Zukunft wäre eine noch tiefere Analyse spannend – etwa der Einfluss anderer Merkmale wie Religion, politische Einstellungen oder kulturelle Nuancen innerhalb einzelner Länder.
In was sich leider ein LLM von einem Menschen ebenfalls unterscheidet ist eine Argumentation. Wir sind in der Lage ein LLM zu fragen was es denkt und warum, jedoch würde es nicht niederlegen wie es als Modell dazu kam, jedoch würde es anhand des gelernten Problemes Text produzieren um möglichst gut zu argumentieren warum es so entschieden hat. Im gegensatz zu einem Menschen, welcher Denken und folgend Argumentieren kann.
Bis dahin zeigt uns das Trolley-Problem: Auch wenn LLMs «nur» Wörter vorhersagen, spiegeln diese Vorhersagen sehr menschliche Vorurteile wider. Umso wichtiger ist es, dass wir uns dessen bewusst sind und in Forschung, Entwicklung und Anwendung reflektiert damit umgehen.
Quellen
- Bsharat, A. und andere. (2023). Principled Instructions are all you need for questioning llama-1/2, gpt-3.5/4. arXiv:2312.16171
- Jin, Di und andere. (2024). Language Model Alignment in Multilingual Trolley Problems. arXiv:2407.02273
- Foot, Philippa. (1967). The Problem of Abortion and the Doctrine of the Double Effect. Oxford Review.
- Thomson, Judith Jarvis. (1985). The Trolley Problem. Yale Law Journal.
- Klyman, S. (2024). AUP & Large Language Model Usage Policies. BigData Press.
- Zheng, L. und andere. (2023). Judging LLMs as a Judge: MT-Bench, Chatbot Evaluation and Beyond. ACL Workshops.
- Awad, E. et al. (2021). The Moral Machine experiment. Nature, 563(7729), 59–64.