KI-Radar: Kimi K2.7 Code — eine Billion Parameter, offen, und der Haken bei den Benchmarks

Eine Billion Parameter, offene Gewichte, und das alles zu einem Bruchteil dessen, was Claude Opus kostet: Kimi K2.7 Code von Moonshot AI wird als die günstige, offene Claude-Alternative gehandelt. Seit dem 12. Juni 2026 liegen die Gewichte auf Hugging Face. Wir haben uns angesehen, ob das Modell im Alltag hält — und wo der eigentliche Haken liegt.

Die Eckdaten

1 Billion Parameter als Mixture-of-Experts, davon 32 Mrd. aktiv pro Token (384 Experten, 8 + 1 geteilt). Die schiere Grösse fällt vor allem beim Training ins Gewicht; im Betrieb rechnet das Modell mit den aktiven 32 Mrd.
256.000 Token Kontext — genug für grosse Codebasen und lange „Plan-und-Ausführen"-Läufe, wenn auch kein Millionen-Kontext wie bei GLM 5.2 oder MiniMax M3.
30 % weniger Reasoning-Tokens als der Vorgänger K2.6 bei höheren hauseigenen Coding-Scores — das senkt Kosten und Latenz spürbar.
Immer denkend: einen Nicht-Reasoning-Modus gibt es nicht, das Modell „denkt" grundsätzlich mit.
Nativ multimodal über einen MoonViT-Encoder (Text, Bild, Video).
Offene Gewichte unter Modified-MIT — kommerzieller Einsatz und Eigenbetrieb sind erlaubt.

Die zwei Werkzeuge, über die kaum jemand redet

Spannend ist weniger das Modell allein als das Ökosystem drumherum. Moonshot liefert zwei Dinge mit:

Kimi Work — eine App-Oberfläche für Wissensarbeit, die das Modell aus dem reinen Chat heraushebt.
Kimi Code CLI — ein terminal-natives Agenten-Werkzeug nach dem Muster von Claude Code, mittlerweile mit über 6.400 GitHub-Sternen. Genau hier wird K2.7 für Entwicklerteams interessant: agentisches Coding direkt in der Shell, mit einem Modell, das man notfalls selbst hosten kann.

Der Haken bei den Benchmarks

Jetzt zum ehrlichen Teil. Moonshot wirbt mit deutlichen Sprüngen — +21,8 % auf Kimi Code Bench v2, +11 % auf Program Bench, +31,5 % auf MLS Bench Lite. Das Problem: Das sind allesamt hauseigene Benchmarks. Ein Anbieter, der seine eigenen Prüfungen entwirft und auswertet, optimiert fast zwangsläufig genau darauf — in der Szene heisst das „Benchmaxing".

Was fehlt, ist der unabhängige Gegencheck. K2.7 wurde nicht an etablierte, fremdbetriebene Suiten wie DeepSWE eingereicht; bei Terminal-Bench tauchen je nach Test-Harness unterschiedliche Werte auf. Praktiker berichten von einem realen Abstand zur Spitze: Auf einer anspruchsvollen Workflow-Spezifikation kam Claude Opus auf 91 von 100 Punkten, der K2-Vorgänger nur auf 68 — und die Lücke lag genau bei den verzwickten Mehr-Agenten- und Timing-Fehlern, die in Benchmark-Suiten selten auftauchen.

Zur Fairness gehört aber das Gegengewicht: K2.6 stand zeitweise an der Spitze der OpenRouter-Rangliste — und die misst echte Routing-Entscheidungen zahlender Entwickler, nicht Selbstauskünfte. Wer es täglich nutzt, scheint also durchaus Wert darin zu sehen.

Live-Test: zwei typische Aufgaben

Im Praxistest sieht man das Muster gut. Bei abgeschlossenen, klar umrissenen Aufgaben — einer kleinen Physik-Simulation oder einer React-Pricing-Komponente — liefert K2.7 schnell und sauber. Das sind genau die Aufgaben, in denen offene Modelle in Demos glänzen: ein klares Ziel, überschaubarer Kontext, sofort sichtbares Ergebnis.

Der Realitäts-Check kommt erst danach — bei langlebigen, verschachtelten Projekten mit vielen Abhängigkeiten, in denen ein Agent über Stunden konsistent bleiben muss. Hier trennt sich die Spreu vom Weizen, und hier sind die Schlagzeilen-Benchmarks am wenigsten aussagekräftig. Unsere Empfehlung: am eigenen, repräsentativen Repo messen, nicht am Demo-Eindruck.

Datenschutz, Zensur, Eigenbetrieb

Drei Punkte gehören vor jeden Produktiveinsatz geklärt:

DSGVO: Die gehostete Kimi-API wird aus China betrieben. Personenbezogene oder vertrauliche Daten verlassen damit die EU — für viele Anwendungsfälle ein K.-o.-Kriterium.
Zensur: Bei politisch heiklen Themen antwortet das Modell erkennbar gefiltert. Für Code meist irrelevant, für allgemeine Wissensarbeit ein Faktor.
Eigenbetrieb: Die offenen Gewichte sind der saubere Ausweg aus dem DSGVO-Problem — kosten aber Substanz. Rund 340 GB und ernsthafte GPU-Ressourcen sind nötig, bevor das erste Token fällt.

Der Preis

Das stärkste Argument bleibt der Preis. Über die API kostet K2.7 rund 0,95 USD pro Mio. Eingabe- und 4,00 USD pro Mio. Ausgabe-Token (über OpenRouter teils günstiger). Gegenüber Claude Opus (5/25 USD) ist das je nach Vergleich fünf- bis siebenmal günstiger — bei einem Modell, das man zur Not auch selbst betreiben darf.

Unsere Sicht

Wir bewerten Modelle nach Aufgabe, nicht nach Marke. Kimi K2.7 Code ist ein starker, günstiger Allrounder fürs agentische Coding — mit einem ernstzunehmenden CLI-Ökosystem und der Freiheit der offenen Gewichte. Wie sich der neuere Nachfolger Kimi K3 direkt gegen Claude Code und Codex schlägt, betrachten wir in unserem eigenen Vergleich. Die Benchmark-Versprechen sollte man dabei mit Vorsicht geniessen: Sie stammen vom Anbieter selbst. Wer K2.7 erwägt, misst es an den eigenen Aufgaben und klärt den Datenschutz vorab — über Eigenbetrieb oder einen EU-konformen Anbieter. Dann ist es eine der interessantesten offenen Claude-Alternativen, die der Markt gerade hergibt.

Weiterführende Quellen

Kimi K2.7 Code (offizielle Seite) — Modellübersicht von Moonshot AI
Moonshot AI / Kimi auf Hugging Face — offene Gewichte zum Download
Kimi K2 auf GitHub — Code, Tools und CLI
Moonshot AI (Wikipedia)
OpenRouter Rankings — reale Routing-Entscheidungen zahlender Entwickler