Unternehmen wie OpenAI, Microsoft und Meta entwickeln neue Benchmarks, um die komplexen Fähigkeiten ihrer KI-Modelle präzise zu messen.
Die rasante Entwicklung von Künstlicher Intelligenz stellt die etablierten Testmethoden zunehmend in Frage. OpenAI, Microsoft, Meta und andere Technologiekonzerne arbeiten daher an neuen Evaluationsstandards, um ihre fortschrittlichen KI-Modelle adäquat bewerten zu können. Diese Systeme, die zunehmend autonom und komplexe Aufgaben für Menschen übernehmen sollen, übertreffen bestehende Benchmarks – oft erreichen sie auf aktuellen Tests eine Genauigkeit von über 90 Prozent. Die Nachfrage nach anspruchsvolleren Tests wächst.
Aktuelle Benchmarks wie Hellaswag und MMLU basieren noch auf Multiple-Choice-Fragen, die allgemeines Wissen und Alltagslogik abfragen. Doch für moderne Modelle sind diese Methoden zu einfach geworden, wie Mark Chen, SVP für Forschung bei OpenAI, erklärt: „Wir sind an einem Punkt, wo viele menschlich entwickelte Tests nicht mehr ausreichen, um die Fähigkeiten der Modelle zu erfassen.“
In Reaktion auf diese Lücke setzen Unternehmen zunehmend auf interne Benchmarks. Microsoft und Meta entwickeln neue interne Tests, die auf komplexeren Problemen basieren und gezielte, eigenständige Lösungsschritte erfordern. Beispielsweise setzt das von OpenAI unterstützte SWE-bench Verified auf realitätsnahe Softwareprobleme, die von Entwicklern auf GitHub zur Verfügung gestellt werden. Das neuste Modell von OpenAI, GPT-4o Preview, erzielt hier eine Lösungsrate von 41,4 Prozent, während Anthropic’s Claude 3.5 Sonnet bei 49 Prozent liegt.
Zusätzlich hat der Start-up Scale AI gemeinsam mit Dan Hendrycks von der Center for AI Safety das Projekt „Humanity’s Last Exam“ ins Leben gerufen, bei dem komplexe Fragen aus verschiedenen Fachbereichen gesammelt werden, um abstraktes Denken und logisches Schlussfolgern der Modelle zu prüfen. FrontierMath, eine neue Benchmark, zeigt zudem, dass auch die fortschrittlichsten Modelle bislang nur weniger als 2 Prozent der Fragen lösen können.
Ein weiteres Problem in der Bewertung: Wenn Modelle Benchmarks „lernen“, ist eine präzise Messung schwerer, wie Meta-Experte Ahmad Al-Dahle betont: „Wenn eine Messung zum Ziel wird, verliert sie ihre Aussagekraft.“
Da eine Standardisierung fehlt, wird es für Unternehmen und Verbraucher schwieriger, die Leistungsfähigkeit unterschiedlicher Modelle zu vergleichen.



