KI-Radar: MiniMax M3 — Open-Weight mit Millionen-Kontext

Wir hatten MiniMax schon als unterschätzten Herausforderer auf dem Schirm. Mit dem Sprung von der M2-Reihe (M2.5, M2.7) auf M3 wird der Anbieter deutlich interessanter — vor allem für einen Anwendungsfall, der im Mittelstand oft unterschätzt wird: sehr lange Kontexte.

Was M3 besonders macht

Eine Million Token Kontext: ganze Akten, Verträge oder Codebasen passen am Stück ins Modell — ohne mühsames Zerstückeln.
Neue Attention (MSA): die "MiniMax Sparse Attention" filtert relevante Speicherblöcke vor, statt jedes Token mit jedem zu vergleichen. Laut MiniMax sinkt der Rechenaufwand bei vollem Kontext drastisch, Eingaben und Antworten werden um ein Vielfaches schneller. Genau das macht lange Kontexte überhaupt erst bezahlbar.
Nativ multimodal: Text und Bild werden gemeinsam verarbeitet, nicht nachträglich angeflanscht.
Coding & Agenten: in ersten öffentlichen Coding-Benchmarks (SWE-Bench Pro) spielt M3 auf Augenhöhe mit führenden proprietären Modellen — interessant für agentische Workflows.
Offene Gewichte: M3 erscheint auf Hugging Face und GitHub und lässt sich damit prinzipiell selbst hosten.

Der wichtige Vorbehalt

Die gehostete MiniMax-API wird aus China betrieben. Für personenbezogene oder vertrauliche Daten ist das ein klares DSGVO-Thema — die Eingaben verlassen die EU. Und der Millionen-Kontext ist kein Selbstläufer: im Eigenbetrieb braucht er ernsthafte GPU-Ressourcen. Beides gehört vor dem Produktiveinsatz geprüft.

Unsere Sicht

Wir bewerten Modelle nach Aufgabe, nicht nach Marke. M3 wandert auf unsere Testliste — gerade für kontextlastige Fälle auf eigener Hardware, bei denen Datenhoheit und lange Dokumente zusammenkommen. Wir nehmen das Modell, das die Aufgabe am besten löst.

Weiterführende Quellen

MiniMax-M3 auf Hugging Face — offene Gewichte und Modellkarte
MiniMax auf Hugging Face — alle Modelle der M-Serie
MiniMax (Unternehmen, Wikipedia) — bislang nur auf Englisch
SWE-bench Leaderboard — unabhängiger Coding-Benchmark
MiniMax-M2.7 – Analyse — unabhängige Daten zur Vorgängergeneration

Fragen?

Lohnt sich MiniMax M3 für unseren Eigenbetrieb?+

Vor allem für kontextlastige Aufgaben auf eigener Hardware. M3 bietet eine Million Token Kontext und kommt mit offenen Gewichten auf Hugging Face und GitHub, lässt sich also prinzipiell selbst hosten. Die neue MiniMax Sparse Attention senkt den Rechenaufwand bei vollem Kontext. Für kurze Aufgaben oder reinen API-Betrieb gibt es allerdings günstigere oder datenschutzfreundlichere Alternativen.

Wie steht es um Datenschutz und DSGVO bei MiniMax?+

Die gehostete MiniMax-API wird aus China betrieben — personenbezogene oder vertrauliche Daten verlassen damit die EU, was ein klares DSGVO-Thema ist. Datenhoheit bekommen Sie nur über den Eigenbetrieb der offenen Gewichte, nicht über die Cloud-API. Wer nur die API nutzt, tauscht einen US-Hyperscaler gegen einen chinesischen Anbieter, ohne das Grundproblem zu lösen.

Was ist an der neuen Attention von M3 besonders?+

Die MiniMax Sparse Attention (MSA) filtert relevante Speicherblöcke vor, statt jedes Token mit jedem zu vergleichen. Laut MiniMax sinkt der Rechenaufwand bei vollem Kontext drastisch, Eingaben und Antworten werden um ein Vielfaches schneller. Genau das macht den Millionen-Kontext überhaupt erst bezahlbar, weil der KV-Cache sonst bei dieser Länge schnell zum Flaschenhals wird.