Neue Benchmarks für KI-Modelle: OpenAI, Microsoft und Meta setzen auf anspruchsvollere Tests
- Technologiekonzerne entwickeln neue Benchmarks für KI-Modelle.
- Fehlende Standardisierung erschwert den Vergleich der Modellleistung.
Die rasante Entwicklung der Künstlichen Intelligenz stellt bestehende Testmethoden in Frage. OpenAI, Microsoft und Meta arbeiten an neuen Standards, um die Fähigkeiten ihrer fortschrittlichen KI-Modelle präzise zu messen.
Aktuelle Benchmarks wie Hellaswag und MMLU sind für moderne KI-Modelle zu einfach. Mark Chen von OpenAI betont, dass viele menschlich entwickelte Tests nicht mehr ausreichen, um die Fähigkeiten der Modelle zu erfassen.
Unternehmen setzen zunehmend auf interne Benchmarks. Microsoft und Meta entwickeln Tests, die komplexere Probleme abdecken. OpenAI's GPT-4o Preview und Anthropic’s Claude 3.5 Sonnet zeigen unterschiedliche Lösungsraten bei realitätsnahen Softwareproblemen.
Das Projekt „Humanity’s Last Exam“ von Scale AI und Dan Hendrycks prüft abstraktes Denken und logisches Schlussfolgern. FrontierMath zeigt, dass fortschrittliche Modelle weniger als 2 Prozent der Fragen lösen können.
Ein Problem bleibt: Modelle lernen Benchmarks, was die Messung erschwert. Meta-Experte Ahmad Al-Dahle warnt, dass eine Messung ihre Aussagekraft verliert, wenn sie zum Ziel wird.
Ohne Standardisierung wird es für Unternehmen und Verbraucher schwieriger, die Leistungsfähigkeit unterschiedlicher Modelle zu vergleichen.