KI-Kolumne: Teil 2 – ChatGPT besteht Prüfungen an der Uni, und nun? – V

Während Silicon Valley noch nach Anwendungen für Chat-Bots sucht, haben Studierende und Schüler:innen auf der ganzen Welt schon eine gefunden: Prüfungen schreiben. Das lädt förmlich dazu ein, reflexartig den Nutzen von solchen Prüfungen in Frage zu stellen, wenn selbst ein Computer sie bestehen kann. Aber was sagt es eigentlich über die Qualität von KI und damit auch über uns Menschen?

In den letzten Wochen konnte man immer häufiger lesen, dass Chat-Bots Prüfungen an Unis bestehen können, zum Beispiel an der Wharton Business School. Mein Eindruck ist, dass – egal ob Studierende oder Lehrende – meistens eine Reaktion folgte: Es sage ja auch etwas über die Prüfungen aus, wenn sie von einer Maschine bestanden werden kann. To be honest, ich weiß nicht mehr, wer diesen Satz gesagt oder geschrieben hat, aber er fasst die Situation ganz gut zusammen. Irgendwas an den Prüfungen muss falsch sein, wenn eine “künstliche Intelligenz” bestehen kann.

Meistens steht dahinter die Annahme, dass eine Maschine ja nicht wirklich denken könne und vor allem die menschliche Arroganz, wir seien etwas besonderes. Aber was, wenn wir diese (in der Regel unbelegte) Annahme nicht haben? Was wenn wir den Spieß umdrehen und stattdessen fragen: Was sagt es über Maschinen und uns Menschen aus, wenn Maschinen Prüfungen bestehen können, die für Menschen gemacht sind? Wenn Maschinen Aufsätze schreiben können, die sich nicht von hochwertiger menschlicher Arbeit unterscheiden lassen?

Was unterscheidet moderne ChatBots von KI aus den 80ern?

ChatGPT und ähnliches baut auf modernen Architekturen neuronaler Netze auf. Lucky for you (and me), wird das hier keine wissenschaftliche Abhandlung über Transformer und Attention Mechanismen. Der Blick auf die zugrunde liegende Technologie lohnt sich aber schon, zumindest ein sehr grober Blick.

Traditionell greifen Human-Machine-Interfaces wie ChatBots – oder auch Sprachassistenten – auf strukturierte Daten, also im Wesentlichen Tabellen, als Wissensspeicher zurück. Wenn du also mit Siri sprichst, wird deine Sprache zuerst in Text umgewandelt. Der Text wird dann kategorisiert und relevante Informationen extrahiert.

Abhängig von der Anfrage und den bereitgestellten Informationen wird dann eine vordefinierte Antwort gewählt. Die Antwort – ein Tabelleneintrag – wird dann in für Menschen lesbaren Text umgewandelt und schließlich in Sprache umgesetzt.

Das ist – mehr oder weniger – Stand der Technik für Sprachassistenten usw. Natürlich ist die Sache in der Realität komplizierter, aber im Endeffekt läuft es darauf hinaus, dass man irgendwo strukturierte Daten hat. ChatGPT und ähnliche Systeme funktionieren anders.

Dort sind die Informationen in den Milliarden von Parametern, also einfach Zahlen, gespeichert. Im Endeffekt komprimieren solche Systeme also die Trainingsdaten, aus denen sie ihre Informationen bekommen (z. B. Wikipedia-Artikel). Die Parameter bestimmen dann die mathematische Funktion, die ChatGPT implementiert.

Der Eingabe-Text wird dann ebenfalls in Zahlen umgewandelt und kann so als Eingabe in diese mathematische Funktion verwendet werden. Die Ausgabe sind wiederum Zahlen, die in Text umgewandelt werden – alles in einer Architektur.

Im Endeffekt liest also ChatGPT eine Menge Texte und merkt sich, was darin steht und erstellt Verknüpfungen zwischen den einzelnen Informationen. Das klingt ja schon fast menschlich.

Versteht ChatGPT, was es liest?

Argumentiert man, dass ChatGPT sehr leistungsfähig sei, hört man oft, es sei doch nur ein Language Model und verstehe tatsächlich gar nicht den Inhalt – im Gegensatz zu Menschen, selbstverständlich. Begründet wird es mit teils absurden Fehlern, die es macht, oder Falschaussagen, die einem Menschen so vielleicht nicht passieren würden.

Nun, man kann auch eine andere Perspektive auf die Frage haben. Zunächst mal sollte man sich klar machen, dass Verständnis super schwer definierbar ist. Das ist ein bisschen wie die Frage nach Bewusstsein von Maschinen, die ich in Teil 1 der Kolumne angesprochen habe.

Ich will hier das Fass, ob ChatGPT versteht, was es liest, ehrlich gesagt nicht aufmachen. Aber die Frage nach Verständnis pauschal mit “Nein” zu beantworten erscheint schon etwas voreilig. Klar, ChatGPT macht teils absurde Fehler – aus menschlicher Sicht. Aber zum einen machen Menschen auch ganz schön dumme Sachen und zum anderen hat ja niemand behauptet, dass ChatGPT genauso funktioniert wie das menschliche Gehirn!

Fehler können nicht ausgeschlossen werden, in einer inhärent stochastischen Welt. Die Tatsache, dass es Fehler macht ist also erstmal kein Argument gegen Verständnis. Genauso wenig die Art der Fehler: Je nachdem, wie das Verständnis von ChatGPT funktioniert, sind natürlich andere Fehler zu erwarten als von einem Menschen.

ChatGPT, Prüfungen und Verständnis

Kommen wir für den Moment mal wieder zurück zu den eingangs erwähnten Prüfungen an der Uni oder in der Schule. Man kann den Spieß ja auch umdrehen und fragen, wie gut durchschnittliche Menschen eigentlich ihre Umwelt verstehen.

Mal unter uns: Könntest du erklären, warum die Erde rund ist? Wie ein Computer wirklich funktioniert? Was Evolution ist? Oder denken wir mal an die Physik-Klausur in der zehnten Klasse zurück. Hast du wirklich verstanden, was du da gerechnet hast?

Wahrscheinlich nicht. Natürlich gibt es Leute, die diese Fragen beantworten können. Aber die durchschnittliche Person vermutlich nicht. Vergleicht man ChatGPT mit einer durchschnittlichen Person, ist das System unglaublich schlau und versteht enorm viel von der Welt.

Und genau da liegt auch nun das Problem, wenn man sagt, eine gute Prüfung kann nicht von Maschinen bestanden werden. Zunächst mal gibt es keinen Grund anzunehmen, dass Maschinen nicht prinzipiell mindestens genauso schlau werden können wie Menschen (ich sage nicht, dass das auf ChatGPT zutrifft!). Aber vor allem: Wie soll man sicherstellen, dass ein:e mittelmäßige:r Student:in eine Prüfung besteht, ein Chat-Bot aber nicht?

Es geht schlicht und einfach nicht. Möchte man also Studierende prüfen, sollte man tunlichst dafür sorgen, dass ChatGPT oder seine Verwandten und Nachfolger nicht mit im Raum sind – übrigens auch die erste Empfehlung, wenn man ChatGPT fragt.

Ein Lichtblick

Ok, der Artikel klingt ziemlich negativ. Wenn man möchte, kann man den Text hier auslegen als “Menschen verstehen die Welt, in der sie leben, nicht und Maschinen sind eh viel schlauer als wir”. Das möchte ich aber nicht sagen.

Mein Hauptkritikpunkt ist schlicht der: Man macht es sich zu einfach, wenn man so tut, als ob Maschinen per se viel dümmer sein müssen als Menschen. ChatGPT wird nicht den Nobelpreis für eine neue Entdeckung gewinnen. Aber ist es wirklich so absurd, dass ein ähnliches System in zwanzig Jahren an ground-breaking work beteiligt ist?

Spoiler: Ist es nicht. Und genau deswegen sollten wir uns nicht darauf beschränken, ChatGPT aus Prüfungen zu verbannen. Früher oder später werden wir uns mit dem Gedanken auseinandersetzen müssen, dass wir mit Chat-Bots zusammen arbeiten werden. Genau darauf werden uns Universitäten und auch bereits Schulen vorbereiten müssen.

von Bastian Heinlein