Neue Methode zur Erkennung von KI-Halluzinationen könnte Zuverlässigkeit verbessern
- Neue Methode zur Erkennung von KI-Halluzinationen veröffentlicht.
- Kann in 79 Prozent der Fälle zwischen korrekten und falschen Antworten unterscheiden.
Generative KI-Tools wie ChatGPT haben oft das Problem, falsche Informationen selbstbewusst auszugeben. Dieses Verhalten, als „Halluzination“ bekannt, stellt ein großes Hindernis für die Nützlichkeit von KI dar.
Halluzinationen haben bereits zu peinlichen Zwischenfällen geführt. Im Februar musste Air Canada einen Rabatt anerkennen, den ein Chatbot irrtümlich angeboten hatte. Im Mai musste Google seine Suchfunktion „AI Overviews“ ändern, nachdem der Bot Nutzern mitgeteilt hatte, es sei sicher, Steine zu essen.
Im Juni wurden zwei Anwälte in den USA zu einer Geldstrafe verurteilt, weil ChatGPT gefälschte Zitate in eine Klageschrift eingefügt hatte. Eine neue Methode zur Erkennung von KI-Halluzinationen könnte solche Vorfälle in Zukunft verhindern.
Die Methode, veröffentlicht in der Fachzeitschrift Nature, kann in 79 Prozent der Fälle zwischen korrekten und falschen KI-Antworten unterscheiden. Dies ist etwa zehn Prozentpunkte besser als andere führende Methoden.
Obwohl die Methode mehr Rechenleistung erfordert, könnte sie den Weg für zuverlässigere KI-Systeme ebnen. Sebastian Farquhar, einer der Autoren der Studie, betont, dass dies die Einsatzmöglichkeiten großer Sprachmodelle erweitern könnte.
Farquhar, auch Forscher bei Google DeepMind, erklärt, dass die Methode besonders bei sogenannten „Konfabulationen“ hilft. Diese treten auf, wenn ein KI-Modell inkonsistente falsche Antworten auf Tatsachenfragen gibt.
Die Methode zur Erkennung von Konfabulationen ist einfach: Der Chatbot gibt mehrere Antworten auf die gleiche Eingabe, die dann nach ihrer Bedeutung gruppiert werden. Eine hohe „semantische Entropie“ deutet auf Konfabulationen hin.
Farquhar glaubt, dass diese Methode helfen könnte, Halluzinationen in führenden Chatbots zu reduzieren. Eine Schaltfläche zur Bewertung der Antwortgewissheit könnte theoretisch hinzugefügt werden.
Einige Experten warnen jedoch vor übertriebenen Erwartungen. Arvind Narayanan von der Princeton University betont, dass Halluzinationen ein grundlegendes Problem großer Sprachmodelle sind und in naher Zukunft nicht vollständig gelöst werden können.