Ollama und offene KI-Modelle: Welches Modell für welchen Zweck?
TL;DR — Mit Ollama startest du ein offenes KI-Modell mit einem einzigen Befehl auf deinem eigenen Rechner — ohne Cloud, ohne Token-Kosten. Die Kunst ist die Auswahl: Welches Modell für Python, SQL oder Chat? Und reicht meine Hardware für 7B, 32B oder gar 70B? Dieser Ratgeber gibt dir eine ehrliche Matrix nach Einsatzzweck, erklärt die „B"-Zahl und ordnet jedes Level einer realistischen Hardware zu.
Kein Cloud-Abo, kein API-Schlüssel, keine Daten-Weitergabe. Du brauchst nur das passende Modell — und einen Rechner, der dazu passt.
Was ist Ollama — und was heißt „offen"?
Ollama ist ein schlankes Programm, das offene Sprachmodelle auf deinem eigenen Rechner ausführt. Du lädst ein Modell mit einem Befehl und sprichst es danach über eine lokale, OpenAI-kompatible Schnittstelle an — aus dem Terminal, aus deiner IDE oder aus einer eigenen Anwendung. Ollama baut intern auf llama.cpp auf, der Engine, die die eigentliche Rechenarbeit übernimmt.
Ollama ist nicht allein. Das Ökosystem rund um lokale KI ist 2026 erwachsen:
- Ollama — der einfachste Einstieg, ideal für Einzelplatz und kleine Teams.
- llama.cpp — die Engine darunter; hier steuerst du Quantisierung und Hardware-Details fein.
- LM Studio und Jan — grafische Oberflächen zum Ausprobieren und Vergleichen von Modellen.
- vLLM — der Durchsatz-Champion für einen echten Team-Server mit vielen parallelen Anfragen.
- Open WebUI — eine selbstgehostete Chat-Oberfläche fürs ganze Team.
Ein wichtiger Punkt vorweg, ehrlich gesagt: Die meisten dieser Modelle sind „Open-Weight", nicht „Open-Source". Du bekommst die fertigen Gewichte zum Herunterladen und lokalen Ausführen — aber nicht zwingend die Trainingsdaten, und nicht immer unter einer freien Lizenz. Für die Praxis heißt das: Laufen lassen darfst du fast alles, kommerziell nutzen nicht automatisch. Die Lizenz gehört vor dem Produktiveinsatz geprüft (mehr dazu weiter unten).
Was bedeutet „7B", „70B" und Co.?
Die Zahl mit dem B steht für die Anzahl der Parameter in Milliarden (englisch billion). Ein „7B"-Modell hat rund 7 Milliarden Parameter, ein „70B"-Modell rund 70 Milliarden. Parameter sind die gelernten Stellschrauben des Modells — vereinfacht: sein „Wissen" und seine Fähigkeit, Zusammenhänge zu ziehen.
Mehr Parameter bedeuten in der Regel bessere Antworten, mehr Weltwissen und stärkeres Schlussfolgern — aber auch deutlich mehr Speicher- und Rechenbedarf. Genau hier liegt die Entscheidung: Du suchst nicht das „beste" Modell, sondern das beste Modell, das auf deine Hardware passt und deinen Zweck trifft.
Quantisierung: warum ein 70B-Modell auch unter 48 GB passt
Ein Modell wird standardmäßig in voller Genauigkeit gespeichert (16 Bit pro Parameter). Das ist für lokalen Betrieb meist zu groß. Quantisierung verkleinert die Gewichte, indem sie sie gröber speichert — am verbreitetsten ist Q4 (4 Bit). Der Qualitätsverlust ist gering, die Speicherersparnis riesig. Faustregel für Q4: rund 0,6 GB Arbeitsspeicher pro Milliarde Parameter, plus etwas Reserve fürs Kontextfenster. Ein 7B-Modell braucht so grob 5 GB, ein 70B-Modell grob 40–48 GB.
Hardware: Was braucht welches Level?
Die folgende Tabelle ordnet jedes Level einer realistischen Ausstattung zu. VRAM ist der Speicher der Grafikkarte — er entscheidet über Tempo. Läuft ein Modell nicht in den VRAM, springt es auf CPU und RAM aus und wird spürbar langsamer (funktioniert aber).
| Level | Parameter | Speicher (Q4, Richtwert) | Typische Hardware | Wofür es reicht |
|---|---|---|---|---|
| Mini | ≤ 3B | ~2–4 GB | jeder moderne Laptop, auch ohne dedizierte GPU | Autovervollständigung, einfache Aufgaben, eingebettete Nutzung |
| Mittel | 7–14B | ~5–10 GB | 16 GB RAM oder GPU ab 8 GB VRAM | der Sweet Spot: solides Coden, Chat, RAG — die Empfehlung für die meisten |
| Groß | 30–34B | ~18–24 GB | GPU mit 24 GB (z. B. RTX 3090/4090) oder Mac mit viel Unified Memory | spürbar besser bei komplexem Code und Reasoning |
| Sehr groß | 70B | ~40–48 GB | zwei 24-GB-GPUs, eine 48-GB-Karte oder Mac mit 64 GB+ | nahe an Cloud-Qualität für viele Aufgaben |
| Frontier | 100B+ / großes MoE | 60 GB bis mehrere 100 GB | Workstation oder Server, oft Multi-GPU | Spitzenqualität; MoE spart Rechenzeit, nicht Speicher |
Hinweis: Werte sind Richtwerte für Q4-quantisierte Modelle. Kontextlänge, Betriebssystem und parallele Nutzer verschieben den Bedarf. „MoE" (Mixture of Experts) aktiviert pro Anfrage nur einen Teil der Parameter — das macht große Modelle schneller, der Speicher muss sie aber trotzdem komplett halten.
Ab welchem Level lohnt sich was?
- Bis 3B: ideal als schnelle Autovervollständigung in der IDE und für eingebettete Aufgaben. Zum Denken zu klein, zum Tippen-Abnehmen perfekt.
- 7–14B — die wichtigste Empfehlung: Hier liegt das beste Verhältnis aus Qualität und Hardware. Ein gutes Coder-Modell auf diesem Level erledigt den Großteil des Entwickleralltags und läuft auf einem soliden Arbeitsplatzrechner.
- 30–34B: der spürbare Sprung für anspruchsvollen Code und mehrstufiges Reasoning — wenn eine 24-GB-GPU vorhanden ist.
- 70B: kommt für viele Aufgaben nah an große Cloud-Modelle heran. Lohnt sich, wenn Qualität wichtiger ist als der Hardware-Aufwand — und der ist hier real (Server-Klasse oder ein Mac mit sehr viel Speicher).
- 100B+ / MoE: für Teams mit echter Server-Infrastruktur und höchsten Ansprüchen. Für den Einzelplatz fast immer überdimensioniert.
Die Modell-Matrix: Welches Modell kann was?
Es gibt nicht das eine beste Modell — es gibt das passende pro Aufgabe. Die folgende Matrix bewertet die wichtigsten offenen Modelle nach den Disziplinen, die im Entwickleralltag zählen, mit Schwerpunkt auf PHP, SQL und Code-Struktur — und ehrlich auch dort, wo ein Modell schwächelt. Wie groß das Modell sein muss, steht im Hardware-Abschnitt oben; ein gutes 7–14B-Coder-Modell deckt den Alltag.
So liest du die Matrix:
- ●●● — sehr stark, hier eine erste Wahl
- ●●○ — solide, im Alltag gut brauchbar
- ●○○ — eingeschränkt, eher Notlösung
Die Stufen sind am Füllgrad erkennbar, nicht an einer Farbe — sie funktionieren also auch in Schwarz-Weiß und für Screenreader. „Sprache" meint die Stärke in natürlicher Sprache (auch Deutsch), nicht die Abdeckung von Programmiersprachen. Stand Juni 2026 — eine Momentaufnahme, die Modelle entwickeln sich schnell.
| Modell | PHP | SQL | Doku | API | Logik | Sprache | Speed | Haupteinsatz |
|---|---|---|---|---|---|---|---|---|
| Qwen2.5-Coder | ●●● | ●●● | ●●○ | ●●● | ●●○ | ●●○ | ●●○ | Code-Allrounder für PHP und SQL |
| DeepSeek-Coder-V2 | ●●● | ●●● | ●●○ | ●●● | ●●○ | ●●○ | ●●○ | Backend, SQL, große Codebasen |
| DeepSeek-R1 | ●●○ | ●●● | ●●○ | ●●○ | ●●● | ●●○ | ●○○ | Analyse, schwierige Logik |
| Qwen3 (Allrounder) | ●●○ | ●●○ | ●●● | ●●● | ●●○ | ●●● | ●●○ | Doku, Architektur, mehrsprachig |
| Llama 3.3 | ●●○ | ●●○ | ●●● | ●●○ | ●●○ | ●●● | ●●○ | Erklärtexte, Deutsch |
| Codestral / Devstral | ●●● | ●●○ | ●●○ | ●●● | ●●○ | ●●○ | ●●○ | Code mit großem Kontext, agentisch |
| Mistral Small / Mixtral | ●●○ | ●●○ | ●●○ | ●●○ | ●●○ | ●●○ | ●●● | effiziente Allround-Tasks |
| Gemma 3 | ●●○ | ●○○ | ●●● | ●●○ | ●●○ | ●●● | ●●○ | kompakt, multimodal, mehrsprachig |
| gpt-oss | ●●○ | ●●○ | ●●○ | ●●○ | ●●● | ●●○ | ●●○ | offenes Reasoning mit Werkzeug-Nutzung |
| Phi-4 | ●●○ | ●●○ | ●●○ | ●●○ | ●●○ | ●●○ | ●●● | stark für seine Größe, mini und lokal |
| StarCoder2 | ●●○ | ●●○ | ●○○ | ●●○ | ●○○ | ●○○ | ●●○ | breiteste Sprachabdeckung, Autovervollständigung |
Beste Wahl je Aufgabe
| Aufgabe | Erste Wahl | Gute Alternative |
|---|---|---|
| PHP-Code schreiben | Qwen2.5-Coder | DeepSeek-Coder-V2, Codestral |
| SQL und Datenbanken | DeepSeek-Coder-V2 | Qwen2.5-Coder, SQLCoder (Spezialist) |
| Dokumentation und Erklärtexte | Qwen3 | Llama 3.3 |
| API-Design und Code-Struktur | Qwen2.5-Coder | DeepSeek-Coder-V2 |
| Reasoning und schwierige Logik | DeepSeek-R1 | gpt-oss |
| Deutsch und mehrsprachig | Llama 3.3 | Gemma 3, Qwen3 |
| Schwache Hardware und Tempo | Phi-4 | Mistral Small, Llama 3.2 |
| IDE-Autovervollständigung | Qwen2.5-Coder 1,5–3B | StarCoder2 3B, CodeGemma 2B |
| Viele oder exotische Sprachen | StarCoder2 | Qwen2.5-Coder |
Wo die Modelle schwächeln
| Modell | Typische Schwäche |
|---|---|
| DeepSeek-Coder / R1 | Fließtext und Doku weniger elegant; R1 ist langsam, weil es sichtbar „mitdenkt" |
| Qwen2.5-Coder | bei reinem Erzähl- und Erklärtext hinter den Allroundern |
| Llama 3.x | komplexer Code und anspruchsvolles SQL sind nicht die Stärke |
| Gemma 3 | SQL und Code schwächer als die Coder-Spezialisten |
| Mistral / Mixtral | bei komplexen, mehrstufigen Aufgaben inkonsistent |
| Phi-4 | für große, komplexe Probleme schlicht zu klein |
| StarCoder2 | reines Code- und Vervollständigungs-Modell, kein Chat, kein Reasoning |
Sonderfälle: eigene Modellklassen
Für drei Aufgaben brauchst du andere Modelle als die Chat- und Code-Modelle oben:
- Embeddings für Suche und RAG (etwa mit pgvector) —
nomic-embed-text,mxbai-embed,bge-m3oder Qwen3-Embedding. Klein (unter 1B), kein Chat: Sie wandeln Text in Vektoren für die semantische Suche. - Bilder verstehen (multimodal) — Llama 3.2 Vision, Qwen2.5-VL, Gemma 3 oder MiniCPM-V. Nur die ausdrücklichen Vision-Varianten können das.
- Sehr lange Dokumente — hier zählt das Kontextfenster mehr als die reine Größe; Qwen2.5 und Llama 3.1 sind dafür gut gerüstet.
Ehrlich eingeordnet: Für die meisten Programmiersprachen gibt es kein eigenes „Sieger-Modell" — die starken Code-Modelle decken PHP, Python, JavaScript, Java, C++, Go, Rust und SQL gemeinsam ab. Unterschiede liegen in der Menge der Trainingsdaten je Sprache und im Tempo. Fang mit einem 7B-Coder an und wechsle nur, wenn dir konkret etwas fehlt.
So findest du dein Modell in drei Schritten
- Zweck wählen — Suchst du Code-Hilfe, Chat, Übersetzung oder Suche? Die Matrix oben nennt dir die passende Modell-Familie.
- Hardware-Level prüfen — Wie viel VRAM oder RAM hast du? Das legt fest, ob du beim 7B-, 32B- oder 70B-Modell landest.
- Modell laden — In Ollama lädst du das Modell mit einem Befehl und legst los. Zu groß gewählt? Eine Nummer kleiner — der Unterschied ist oft kleiner als gedacht.
Ollama in der Praxis
Der Einstieg ist bewusst kurz gehalten. Nach der Installation lädst und startest du ein Modell mit einem einzigen Befehl:
# Ein Code-Modell laden und direkt im Terminal nutzen
ollama run qwen2.5-coder
# Ein kompaktes Allround-Modell für Chat
ollama run llama3.2
# Lokale, OpenAI-kompatible API (Standard-Port 11434)
curl http://localhost:11434/api/generate -d '{
"model": "qwen2.5-coder",
"prompt": "Schreibe eine SQL-Abfrage für die Top-10-Kunden nach Umsatz."
}'
Die OpenAI-kompatible Schnittstelle ist der Schlüssel: Jede IDE-Erweiterung oder Anwendung, die mit der OpenAI-API spricht, lässt sich auf localhost:11434 umbiegen — etwa Continue oder Tabby in VS Code und JetBrains. Damit hast du Autovervollständigung und Chat direkt im Editor, ohne dass ein Byte deinen Rechner verlässt.
Die wichtigsten offenen Modell-Familien
Zur Orientierung — wer hinter den Namen steckt, welche Größen es gibt und worauf du bei der Lizenz achten musst:
| Modell-Familie | Stärke | Typische Größen | Lizenz-Hinweis (vor Einsatz prüfen!) |
|---|---|---|---|
| Qwen2.5-Coder / Qwen3 (Alibaba) | Code-Spezialist und starker Allrounder, sehr mehrsprachig | 0,5B – 32B (plus große MoE) | überwiegend Apache 2.0 (je Variante prüfen) |
| Llama 3.x / 4 (Meta) | vielseitiger Allrounder, große Community | 1B – 70B (4 als MoE) | Llama-Community-Lizenz (Einschränkung für sehr große Anbieter) |
| DeepSeek-Coder-V2 / R1 (DeepSeek) | Code plus starkes Reasoning, effizientes MoE | mittel – sehr groß | überwiegend permissiv (R1: MIT) — prüfen |
| Codestral / Devstral / Mistral Small | reines Code-Modell bzw. agentisches Coden, großer Kontext | ~22–24B | Codestral: nicht-kommerziell ohne Zusatzlizenz! Devstral/Small: Apache 2.0 |
| Gemma 3 / CodeGemma (Google) | kompakt, multimodal, gute Code-Fähigkeiten | 1B – 27B | Gemma-Nutzungsbedingungen |
| Phi (Microsoft) | klein, stark, läuft auf bescheidener Hardware | ~4B – 14B | meist MIT (Variante prüfen) |
| StarCoder2 (BigCode) | breiteste Sprachabdeckung, offen entwickelt | 3B – 15B | OpenRAIL-M (Nutzungsbedingungen beachten) |
| Granite Code (IBM) | auf Unternehmenseinsatz ausgelegt | 3B – 34B | Apache 2.0 |
| gpt-oss (OpenAI) | offenes Reasoning-Modell mit Werkzeug-Nutzung | 20B / 120B | Apache 2.0 |
Hinweis: Tabelle Stand Juni 2026. Versionen und vor allem Lizenzen ändern sich — gerade bei kommerzieller Nutzung gehört die Lizenz vor dem Produktiveinsatz beim jeweiligen Anbieter gegengeprüft. „Open-Weight" heißt nicht automatisch „kommerziell frei".
Häufige Fragen (FAQ)
Was bedeutet die „B"-Zahl bei KI-Modellen wie 7B oder 70B?
Das „B" steht für Milliarden (englisch billion) Parameter — die gelernten Stellschrauben des Modells. 7B sind rund sieben Milliarden, 70B rund siebzig Milliarden. Mehr Parameter bedeuten meist bessere Antworten, aber auch deutlich höheren Speicher- und Rechenbedarf.
Welche Hardware brauche ich für ein 70B-Modell?
Als Richtwert für ein Q4-quantisiertes 70B-Modell rund 40 bis 48 GB Speicher: also zwei 24-GB-Grafikkarten, eine einzelne 48-GB-Karte oder ein Mac mit 64 GB oder mehr Unified Memory. Auf weniger läuft es zwar noch über CPU und RAM, dann aber spürbar langsamer.
Welches Modell ist das beste fürs Programmieren?
Es gibt nicht das eine. Für die meisten Sprachen — Python, JavaScript, PHP, C++, Go, Rust und SQL — sind spezialisierte Code-Modelle wie Qwen2.5-Coder, DeepSeek-Coder-V2 oder Codestral die richtige Wahl. Ein dediziertes Code-Modell schlägt einen gleich großen Allrounder beim Programmieren fast immer.
Gibt es ein gutes lokales Modell speziell für SQL?
Ja. Die starken Code-Modelle beherrschen SQL gut, und mit SQLCoder existiert ein auf Datenbankabfragen spezialisiertes Modell. Wichtig beim Wechsel zwischen Systemen: SQL-Dialekte wie T-SQL oder PL/pgSQL unterscheiden sich, und genau dort lohnt es sich, jede generierte Abfrage zu prüfen.
Reicht ein kleines Modell, oder brauche ich unbedingt 70B?
Für den Alltag reicht in den allermeisten Fällen das Mittel-Level mit 7 bis 14 Milliarden Parametern — vor allem mit einem spezialisierten Code-Modell. 70B lohnt sich erst, wenn du höchste Qualität brauchst und die passende Hardware hast. Fang klein an und vergrößere nur, wenn dir wirklich etwas fehlt.
Sind diese offenen Modelle kostenlos und kommerziell nutzbar?
Herunterladen und lokal ausführen ist bei den meisten kostenlos. Kommerziell nutzbar ist aber nicht jedes Modell ohne Weiteres — Codestral etwa verlangt für den produktiven Einsatz eine gesonderte Lizenz. Prüfe die Lizenz immer beim jeweiligen Anbieter, bevor du ein Modell ins Unternehmen holst.
Bleibt bei lokaler KI wirklich alles auf meinem Rechner?
Ja. Bei korrekt eingerichtetem Ollama oder llama.cpp läuft die Verarbeitung vollständig lokal — kein Code, kein Prompt und keine Datei verlässt dein Netzwerk. Internet brauchst du nur einmalig zum Herunterladen des Modells.
Verwandte Seminare und Artikel
Du willst tiefer einsteigen oder das Thema im Team aufbauen? Diese dozent.net-Inhalte passen dazu:
- Programmieren mit lokaler KI: Dein Code bleibt im Haus — das passende zweitägige Seminar: Code-Assistenten komplett lokal betreiben.
- PHP Professionelles Programmieren mit KI — KI gezielt im professionellen PHP-Alltag einsetzen.
- KI & VibeCoding für PHP-Entwickler — schneller Einstieg ins KI-gestützte Entwickeln für PHP-Profis.
- KI & VibeCoding für SQL und Datenbanken — dasselbe Prinzip für SQL und Datenbanken.
- Datenbankanalysen mit KI – SQL-Seminar mit AI — SQL lernen und mit KI komplexe Abfragen schreiben, optimieren, migrieren.
- Webanwendungen entwickeln mit Claude und anderen KI-Agenten — der Cloud-Gegenpol: Entwicklung mit KI-Agenten.
- pgvector: KI-Suche direkt in PostgreSQL — Embeddings und semantische Suche direkt in PostgreSQL, die Basis für lokales RAG.
- SQL Grundlagen — SQL von Grund auf, falls du beim Datenbank-Thema neu einsteigst.
Jetzt loslegen
Lokale KI ist 2026 keine Bastelei mehr, sondern ein produktives Werkzeug — wenn du Modell und Hardware aufeinander abstimmst. Fang mit einem 7B-Code-Modell auf deinem Arbeitsplatzrechner an, und wachse von dort. Wenn du den Aufbau lieber begleitet machst, zeigen wir dir den ganzen Weg im Seminar.