QIMMA: qualitaetsgeprueftes Leaderboard fuer arabische LLM-Bewertung

QIMMA ist ein arabisches LLM-Leaderboard, das Benchmarks vor der eigentlichen Evaluation systematisch validiert. Ziel ist, dass berichtete Scores reale arabische Sprachfaehigkeit widerspiegeln und nicht durch Qualitaetsprobleme in den Datensaetzen verzerrt werden.

Ausgangspunkt ist eine fragmentierte Evaluationslandschaft fuer Arabisch. Genannt werden Uebersetzungsprobleme bei aus dem Englischen uebernommenen Benchmarks, fehlende Qualitaetspruefung auch bei nativ arabischen Datensaetzen, geringe Reproduzierbarkeit durch nicht veroeffentlichte Skripte und Einzelausgaben sowie eine zersplitterte Abdeckung einzelner Aufgaben und Domaenen.

QIMMA kombiniert nach eigener Darstellung als einzige Plattform Open Source, ueberwiegend nativen arabischen Inhalt, systematische Qualitaetsvalidierung, Code-Evaluation und oeffentliche per-sample Inference-Ausgaben. Die Suite fuehrt 109 Subsets aus 14 Quell-Benchmarks mit mehr als 52.000 Samples ueber 7 Domaenen zusammen. 99 Prozent der Inhalte sind nativ arabisch; die Ausnahme ist die Code-Evaluation, die als sprachagnostisch beschrieben wird.

Fuer die Validierung wurde vor jeder Modellevaluation eine mehrstufige Pipeline auf jedes Sample angewandt. Zunaechst bewerteten zwei LLMs jedes Beispiel unabhaengig voneinander: Qwen3-235B-A22B-Instruct und DeepSeek-V3-671B. Beide vergaben entlang eines 10-Punkte-Rasters binaere Einzelwertungen pro Kriterium. Ein Sample wird entfernt, wenn eines der beiden Modelle weniger als 7 von 10 Punkten vergibt. Wenn beide Modelle die Entfernung empfehlen, wird das Sample direkt ausgeschlossen; bei abweichender Bewertung folgt eine menschliche Pruefung.

Diese zweite Stufe uebernehmen arabische Muttersprachler mit kultureller und dialektaler Vertrautheit. Sie entscheiden bei kulturellem Kontext, regionalen Varianten, dialektalen Nuancen, subjektiver Interpretation und subtilen Qualitaetsproblemen, die automatisierte Verfahren uebersehen koennen. Bei kulturell sensiblen Inhalten werden mehrere Perspektiven beruecksichtigt, weil Korrektheit je nach Region variieren kann.

Nach Angaben des Projekts zeigte die Pipeline wiederkehrende systematische Qualitaetsprobleme in bestehenden Benchmarks. Fuer Code-Benchmarks wurde ein anderer Eingriff gewaehlt: In den arabischen Adaptationen von HumanEval+ und MBPP+ durch 3LM wurden die arabischen Aufgabenformulierungen ueberarbeitet, waehrend Aufgabenkennungen, Referenzloesungen und Test-Suites unveraendert blieben. Die Anpassungen betrafen sprachliche Verfeinerung, mehr Klarheit, Konsistenz bei Terminologie und Formatierung, strukturelle Korrekturen sowie semantische Praezisierungen.

Als Evaluationsrahmen nutzt QIMMA LightEval, EvalPlus und FannOrFlop. Das Prompting wird nach Frageformat standardisiert und verwendet sechs Vorlagentypen. Alle Prompts sind auf Arabisch; fuer MizanQA und ArabCulture bleiben benchmark-spezifische System-Prompts aus den Originalarbeiten erhalten.

Die im Beitrag gezeigten Ergebnisse beziehen sich auf April 2026 und die zehn bestplatzierten Modelle. Dabei wird festgehalten, dass Modellgroesse nicht automatisch die beste Leistung garantiert; unter den Top 10 liegen Modelle zwischen 32B und 397B Parametern, und mehrere mittelgrosse Modelle schneiden in einzelnen Domaenen besser ab als groessere. Arabisch spezialisierte Modelle fuehren bei kulturellen und sprachlichen Aufgaben: Jais-2-70B-Chat erreicht den hoechsten Rang bei ArabicMMLU und ArabCulture, Karnak bei 3LM STEM und ArabLegalQA. Im Coding liegen hingegen multilinguale Modelle vorn; bei HumanEval+ und MBPP+ fuehrt Qwen3.5-397B.

Ueber das gesamte Leaderboard mit 46 Modellen zeigt sich laut QIMMA eine erkennbare, aber unvollkommene Korrelation zwischen Groesse und Leistung. Genannt werden zudem Ausnahmen: Arabisch spezialisierte Modelle uebertreffen haeufig groessenmaessig vergleichbare multilinguale Modelle, instruction-tuned Modelle liegen mit Ausnahme von Qwen3 konsistent vor ihren Base-Varianten, und kleinere arabisch spezialisierte Modelle wie Fanar-1-9B und ALLaM-7B uebertreffen in einzelnen Domaenen deutlich groessere multilinguale Modelle.

Zum Projekt gehoeren ein oeffentliches Leaderboard, ein GitHub-Repository und das Paper Are Arabic Benchmarks Reliable? QIMMA's Quality-First Approach to LLM Evaluation auf arXiv.

Quelle

Originalquelle: Hugging Face Blog

Recent Articles

spot_img

Related Stories

Leave A Reply

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein

Stay on op - Ge the daily news in your inbox