Neue Benchmarks für KI-Modelle: OpenAI, Microsoft und…

Die rasante Entwicklung der Künstlichen Intelligenz stellt bestehende Testmethoden in Frage. OpenAI, Microsoft und Meta arbeiten an neuen Standards, um die Fähigkeiten ihrer fortschrittlichen KI-Modelle präzise zu messen.

Aktuelle Benchmarks wie Hellaswag und MMLU sind für moderne KI-Modelle zu einfach. Mark Chen von OpenAI betont, dass viele menschlich entwickelte Tests nicht mehr ausreichen, um die Fähigkeiten der Modelle zu erfassen.

Unternehmen setzen zunehmend auf interne Benchmarks. Microsoft und Meta entwickeln Tests, die komplexere Probleme abdecken. OpenAI's GPT-4o Preview und Anthropic’s Claude 3.5 Sonnet zeigen unterschiedliche Lösungsraten bei realitätsnahen Softwareproblemen.

Das Projekt „Humanity’s Last Exam“ von Scale AI und Dan Hendrycks prüft abstraktes Denken und logisches Schlussfolgern. FrontierMath zeigt, dass fortschrittliche Modelle weniger als 2 Prozent der Fragen lösen können.

Ein Problem bleibt: Modelle lernen Benchmarks, was die Messung erschwert. Meta-Experte Ahmad Al-Dahle warnt, dass eine Messung ihre Aussagekraft verliert, wenn sie zum Ziel wird.

Ohne Standardisierung wird es für Unternehmen und Verbraucher schwieriger, die Leistungsfähigkeit unterschiedlicher Modelle zu vergleichen.

Quelle: Eulerpool Research Systems

Neue Benchmarks für KI-Modelle: OpenAI, Microsoft und Meta setzen auf anspruchsvollere Tests

Aktuelle Posts

Deutschlands beste Aktienanalysen

Neue Benchmarks für KI-Modelle: OpenAI, Microsoft und Meta setzen auf anspruchsvollere Tests

Aktuelle Posts

PwC UK: Rekordzahl an Partnerabgängen und Herausforderungen im Ausbildungsbereich

Blackstone startet mit Recognition: Neue Marke für Musikrechte und technologische Optimierung

Spotify: Rekordzahlungen an Musikindustrie, doch Kritik an Künstlervergütungen bleibt

Porsche: Herausforderungen durch Zölle und Absatzprobleme in China – Fokus auf Verbrenner und Kostensenkungen

FTC zieht Verzögerungsantrag im Amazon-Rechtsstreit zurück und verstärkt Kurs gegen Big Tech

Lip-Bu Tan übernimmt Führung bei Intel: Aktienkurs steigt trotz Herausforderungen

Deutsche Bank erhöht Boni dank starkem Investmentbanking-Erfolg

Hugo Boss: Stagnierende Umsätze, aber steigendes EBIT für 2025 erwartet

Fossil kündigt umfassende Restrukturierung zur Steigerung der Rentabilität an

China warnt Walmart: Preisdruck auf Lieferanten könnte rechtliche Folgen haben

Deutsches Start-up-Funding erreicht sieben Milliarden Euro: Herausforderungen und Chancen im Wandel

BAT treibt Gehaltswettlauf an Londons Börse mit neuem CEO-Vergütungspaket voran

Deutschlands beste Aktienanalysen