Ollama und offene KI-Modelle: Welches Modell für welchen Zweck?

TL;DR — Mit Ollama startest du ein offenes KI-Modell mit einem einzigen Befehl auf deinem eigenen Rechner — ohne Cloud, ohne Token-Kosten. Die Kunst ist die Auswahl: Welches Modell für Python, SQL oder Chat? Und reicht meine Hardware für 7B, 32B oder gar 70B? Dieser Ratgeber gibt dir eine ehrliche Matrix nach Einsatzzweck, erklärt die „B"-Zahl und ordnet jedes Level einer realistischen Hardware zu.

Ein Ollama-Server lädt offene Modelle und bedient damit viele Einsatzzwecke lokal Deine Hardware CPU · GPU · RAM Ollama ollama run … Code und SQL Chat und Übersetzung RAG und Suche Bilder verstehen
Abbildung 1: Ein Werkzeug, viele Modelle, viele Zwecke — Ollama lädt das passende offene Modell und bedient damit alles lokal.

Kein Cloud-Abo, kein API-Schlüssel, keine Daten-Weitergabe. Du brauchst nur das passende Modell — und einen Rechner, der dazu passt.


Was ist Ollama — und was heißt „offen"?

Ollama ist ein schlankes Programm, das offene Sprachmodelle auf deinem eigenen Rechner ausführt. Du lädst ein Modell mit einem Befehl und sprichst es danach über eine lokale, OpenAI-kompatible Schnittstelle an — aus dem Terminal, aus deiner IDE oder aus einer eigenen Anwendung. Ollama baut intern auf llama.cpp auf, der Engine, die die eigentliche Rechenarbeit übernimmt.

Ollama ist nicht allein. Das Ökosystem rund um lokale KI ist 2026 erwachsen:

  • Ollama — der einfachste Einstieg, ideal für Einzelplatz und kleine Teams.
  • llama.cpp — die Engine darunter; hier steuerst du Quantisierung und Hardware-Details fein.
  • LM Studio und Jan — grafische Oberflächen zum Ausprobieren und Vergleichen von Modellen.
  • vLLM — der Durchsatz-Champion für einen echten Team-Server mit vielen parallelen Anfragen.
  • Open WebUI — eine selbstgehostete Chat-Oberfläche fürs ganze Team.

Ein wichtiger Punkt vorweg, ehrlich gesagt: Die meisten dieser Modelle sind „Open-Weight", nicht „Open-Source". Du bekommst die fertigen Gewichte zum Herunterladen und lokalen Ausführen — aber nicht zwingend die Trainingsdaten, und nicht immer unter einer freien Lizenz. Für die Praxis heißt das: Laufen lassen darfst du fast alles, kommerziell nutzen nicht automatisch. Die Lizenz gehört vor dem Produktiveinsatz geprüft (mehr dazu weiter unten).


Was bedeutet „7B", „70B" und Co.?

Die Zahl mit dem B steht für die Anzahl der Parameter in Milliarden (englisch billion). Ein „7B"-Modell hat rund 7 Milliarden Parameter, ein „70B"-Modell rund 70 Milliarden. Parameter sind die gelernten Stellschrauben des Modells — vereinfacht: sein „Wissen" und seine Fähigkeit, Zusammenhänge zu ziehen.

Mehr Parameter bedeuten in der Regel bessere Antworten, mehr Weltwissen und stärkeres Schlussfolgern — aber auch deutlich mehr Speicher- und Rechenbedarf. Genau hier liegt die Entscheidung: Du suchst nicht das „beste" Modell, sondern das beste Modell, das auf deine Hardware passt und deinen Zweck trifft.

Parameter-Level von Mini bis Frontier mit steigendem Hardware-Bedarf Mini ≤ 3B · Laptop Mittel 7–14B 16 GB RAM Groß 30–34B 24 GB VRAM Sehr groß 70B ≈ 48 GB Frontier 100B+ / MoE Server
Abbildung 2: Je höher das Level, desto mehr Speicher und Rechenleistung verlangt das Modell — und desto besser die Antworten.

Quantisierung: warum ein 70B-Modell auch unter 48 GB passt

Ein Modell wird standardmäßig in voller Genauigkeit gespeichert (16 Bit pro Parameter). Das ist für lokalen Betrieb meist zu groß. Quantisierung verkleinert die Gewichte, indem sie sie gröber speichert — am verbreitetsten ist Q4 (4 Bit). Der Qualitätsverlust ist gering, die Speicherersparnis riesig. Faustregel für Q4: rund 0,6 GB Arbeitsspeicher pro Milliarde Parameter, plus etwas Reserve fürs Kontextfenster. Ein 7B-Modell braucht so grob 5 GB, ein 70B-Modell grob 40–48 GB.


Hardware: Was braucht welches Level?

Die folgende Tabelle ordnet jedes Level einer realistischen Ausstattung zu. VRAM ist der Speicher der Grafikkarte — er entscheidet über Tempo. Läuft ein Modell nicht in den VRAM, springt es auf CPU und RAM aus und wird spürbar langsamer (funktioniert aber).

Level Parameter Speicher (Q4, Richtwert) Typische Hardware Wofür es reicht
Mini ≤ 3B ~2–4 GB jeder moderne Laptop, auch ohne dedizierte GPU Autovervollständigung, einfache Aufgaben, eingebettete Nutzung
Mittel 7–14B ~5–10 GB 16 GB RAM oder GPU ab 8 GB VRAM der Sweet Spot: solides Coden, Chat, RAG — die Empfehlung für die meisten
Groß 30–34B ~18–24 GB GPU mit 24 GB (z. B. RTX 3090/4090) oder Mac mit viel Unified Memory spürbar besser bei komplexem Code und Reasoning
Sehr groß 70B ~40–48 GB zwei 24-GB-GPUs, eine 48-GB-Karte oder Mac mit 64 GB+ nahe an Cloud-Qualität für viele Aufgaben
Frontier 100B+ / großes MoE 60 GB bis mehrere 100 GB Workstation oder Server, oft Multi-GPU Spitzenqualität; MoE spart Rechenzeit, nicht Speicher

Hinweis: Werte sind Richtwerte für Q4-quantisierte Modelle. Kontextlänge, Betriebssystem und parallele Nutzer verschieben den Bedarf. „MoE" (Mixture of Experts) aktiviert pro Anfrage nur einen Teil der Parameter — das macht große Modelle schneller, der Speicher muss sie aber trotzdem komplett halten.

Ungefährer Speicherbedarf je Level im Vergleich Mini ~3 GB Mittel ~8 GB Groß ~22 GB 70B ~48 GB Frontier 60 GB+ Balkenlänge = ungefährer Speicherbedarf bei Q4-Quantisierung
Abbildung 3: Der Sprung von „Groß" auf „70B" verdoppelt den Speicherbedarf — hier endet für die meisten der Einzelplatz und beginnt der Server.

Ab welchem Level lohnt sich was?

  • Bis 3B: ideal als schnelle Autovervollständigung in der IDE und für eingebettete Aufgaben. Zum Denken zu klein, zum Tippen-Abnehmen perfekt.
  • 7–14B — die wichtigste Empfehlung: Hier liegt das beste Verhältnis aus Qualität und Hardware. Ein gutes Coder-Modell auf diesem Level erledigt den Großteil des Entwickleralltags und läuft auf einem soliden Arbeitsplatzrechner.
  • 30–34B: der spürbare Sprung für anspruchsvollen Code und mehrstufiges Reasoning — wenn eine 24-GB-GPU vorhanden ist.
  • 70B: kommt für viele Aufgaben nah an große Cloud-Modelle heran. Lohnt sich, wenn Qualität wichtiger ist als der Hardware-Aufwand — und der ist hier real (Server-Klasse oder ein Mac mit sehr viel Speicher).
  • 100B+ / MoE: für Teams mit echter Server-Infrastruktur und höchsten Ansprüchen. Für den Einzelplatz fast immer überdimensioniert.

Die Modell-Matrix: Welches Modell kann was?

Es gibt nicht das eine beste Modell — es gibt das passende pro Aufgabe. Die folgende Matrix bewertet die wichtigsten offenen Modelle nach den Disziplinen, die im Entwickleralltag zählen, mit Schwerpunkt auf PHP, SQL und Code-Struktur — und ehrlich auch dort, wo ein Modell schwächelt. Wie groß das Modell sein muss, steht im Hardware-Abschnitt oben; ein gutes 7–14B-Coder-Modell deckt den Alltag.

So liest du die Matrix:

  • ●●● — sehr stark, hier eine erste Wahl
  • ●●○ — solide, im Alltag gut brauchbar
  • ●○○ — eingeschränkt, eher Notlösung

Die Stufen sind am Füllgrad erkennbar, nicht an einer Farbe — sie funktionieren also auch in Schwarz-Weiß und für Screenreader. „Sprache" meint die Stärke in natürlicher Sprache (auch Deutsch), nicht die Abdeckung von Programmiersprachen. Stand Juni 2026 — eine Momentaufnahme, die Modelle entwickeln sich schnell.

Modell PHP SQL Doku API Logik Sprache Speed Haupteinsatz
Qwen2.5-Coder ●●● ●●● ●●○ ●●● ●●○ ●●○ ●●○ Code-Allrounder für PHP und SQL
DeepSeek-Coder-V2 ●●● ●●● ●●○ ●●● ●●○ ●●○ ●●○ Backend, SQL, große Codebasen
DeepSeek-R1 ●●○ ●●● ●●○ ●●○ ●●● ●●○ ●○○ Analyse, schwierige Logik
Qwen3 (Allrounder) ●●○ ●●○ ●●● ●●● ●●○ ●●● ●●○ Doku, Architektur, mehrsprachig
Llama 3.3 ●●○ ●●○ ●●● ●●○ ●●○ ●●● ●●○ Erklärtexte, Deutsch
Codestral / Devstral ●●● ●●○ ●●○ ●●● ●●○ ●●○ ●●○ Code mit großem Kontext, agentisch
Mistral Small / Mixtral ●●○ ●●○ ●●○ ●●○ ●●○ ●●○ ●●● effiziente Allround-Tasks
Gemma 3 ●●○ ●○○ ●●● ●●○ ●●○ ●●● ●●○ kompakt, multimodal, mehrsprachig
gpt-oss ●●○ ●●○ ●●○ ●●○ ●●● ●●○ ●●○ offenes Reasoning mit Werkzeug-Nutzung
Phi-4 ●●○ ●●○ ●●○ ●●○ ●●○ ●●○ ●●● stark für seine Größe, mini und lokal
StarCoder2 ●●○ ●●○ ●○○ ●●○ ●○○ ●○○ ●●○ breiteste Sprachabdeckung, Autovervollständigung

Beste Wahl je Aufgabe

Aufgabe Erste Wahl Gute Alternative
PHP-Code schreiben Qwen2.5-Coder DeepSeek-Coder-V2, Codestral
SQL und Datenbanken DeepSeek-Coder-V2 Qwen2.5-Coder, SQLCoder (Spezialist)
Dokumentation und Erklärtexte Qwen3 Llama 3.3
API-Design und Code-Struktur Qwen2.5-Coder DeepSeek-Coder-V2
Reasoning und schwierige Logik DeepSeek-R1 gpt-oss
Deutsch und mehrsprachig Llama 3.3 Gemma 3, Qwen3
Schwache Hardware und Tempo Phi-4 Mistral Small, Llama 3.2
IDE-Autovervollständigung Qwen2.5-Coder 1,5–3B StarCoder2 3B, CodeGemma 2B
Viele oder exotische Sprachen StarCoder2 Qwen2.5-Coder

Wo die Modelle schwächeln

Modell Typische Schwäche
DeepSeek-Coder / R1 Fließtext und Doku weniger elegant; R1 ist langsam, weil es sichtbar „mitdenkt"
Qwen2.5-Coder bei reinem Erzähl- und Erklärtext hinter den Allroundern
Llama 3.x komplexer Code und anspruchsvolles SQL sind nicht die Stärke
Gemma 3 SQL und Code schwächer als die Coder-Spezialisten
Mistral / Mixtral bei komplexen, mehrstufigen Aufgaben inkonsistent
Phi-4 für große, komplexe Probleme schlicht zu klein
StarCoder2 reines Code- und Vervollständigungs-Modell, kein Chat, kein Reasoning

Sonderfälle: eigene Modellklassen

Für drei Aufgaben brauchst du andere Modelle als die Chat- und Code-Modelle oben:

  • Embeddings für Suche und RAG (etwa mit pgvector) — nomic-embed-text, mxbai-embed, bge-m3 oder Qwen3-Embedding. Klein (unter 1B), kein Chat: Sie wandeln Text in Vektoren für die semantische Suche.
  • Bilder verstehen (multimodal) — Llama 3.2 Vision, Qwen2.5-VL, Gemma 3 oder MiniCPM-V. Nur die ausdrücklichen Vision-Varianten können das.
  • Sehr lange Dokumente — hier zählt das Kontextfenster mehr als die reine Größe; Qwen2.5 und Llama 3.1 sind dafür gut gerüstet.

Ehrlich eingeordnet: Für die meisten Programmiersprachen gibt es kein eigenes „Sieger-Modell" — die starken Code-Modelle decken PHP, Python, JavaScript, Java, C++, Go, Rust und SQL gemeinsam ab. Unterschiede liegen in der Menge der Trainingsdaten je Sprache und im Tempo. Fang mit einem 7B-Coder an und wechsle nur, wenn dir konkret etwas fehlt.


So findest du dein Modell in drei Schritten

In drei Schritten zum passenden lokalen Modell 1 Zweck wählen 2 Hardware-Level prüfen 3 Modell laden
Abbildung 4: Erst der Zweck, dann das Level, dann der Download — nicht umgekehrt.
  1. Zweck wählen — Suchst du Code-Hilfe, Chat, Übersetzung oder Suche? Die Matrix oben nennt dir die passende Modell-Familie.
  2. Hardware-Level prüfen — Wie viel VRAM oder RAM hast du? Das legt fest, ob du beim 7B-, 32B- oder 70B-Modell landest.
  3. Modell laden — In Ollama lädst du das Modell mit einem Befehl und legst los. Zu groß gewählt? Eine Nummer kleiner — der Unterschied ist oft kleiner als gedacht.

Ollama in der Praxis

Der Einstieg ist bewusst kurz gehalten. Nach der Installation lädst und startest du ein Modell mit einem einzigen Befehl:

# Ein Code-Modell laden und direkt im Terminal nutzen
ollama run qwen2.5-coder

# Ein kompaktes Allround-Modell für Chat
ollama run llama3.2

# Lokale, OpenAI-kompatible API (Standard-Port 11434)
curl http://localhost:11434/api/generate -d '{
  "model": "qwen2.5-coder",
  "prompt": "Schreibe eine SQL-Abfrage für die Top-10-Kunden nach Umsatz."
}'

Die OpenAI-kompatible Schnittstelle ist der Schlüssel: Jede IDE-Erweiterung oder Anwendung, die mit der OpenAI-API spricht, lässt sich auf localhost:11434 umbiegen — etwa Continue oder Tabby in VS Code und JetBrains. Damit hast du Autovervollständigung und Chat direkt im Editor, ohne dass ein Byte deinen Rechner verlässt.


Die wichtigsten offenen Modell-Familien

Zur Orientierung — wer hinter den Namen steckt, welche Größen es gibt und worauf du bei der Lizenz achten musst:

Modell-Familie Stärke Typische Größen Lizenz-Hinweis (vor Einsatz prüfen!)
Qwen2.5-Coder / Qwen3 (Alibaba) Code-Spezialist und starker Allrounder, sehr mehrsprachig 0,5B – 32B (plus große MoE) überwiegend Apache 2.0 (je Variante prüfen)
Llama 3.x / 4 (Meta) vielseitiger Allrounder, große Community 1B – 70B (4 als MoE) Llama-Community-Lizenz (Einschränkung für sehr große Anbieter)
DeepSeek-Coder-V2 / R1 (DeepSeek) Code plus starkes Reasoning, effizientes MoE mittel – sehr groß überwiegend permissiv (R1: MIT) — prüfen
Codestral / Devstral / Mistral Small reines Code-Modell bzw. agentisches Coden, großer Kontext ~22–24B Codestral: nicht-kommerziell ohne Zusatzlizenz! Devstral/Small: Apache 2.0
Gemma 3 / CodeGemma (Google) kompakt, multimodal, gute Code-Fähigkeiten 1B – 27B Gemma-Nutzungsbedingungen
Phi (Microsoft) klein, stark, läuft auf bescheidener Hardware ~4B – 14B meist MIT (Variante prüfen)
StarCoder2 (BigCode) breiteste Sprachabdeckung, offen entwickelt 3B – 15B OpenRAIL-M (Nutzungsbedingungen beachten)
Granite Code (IBM) auf Unternehmenseinsatz ausgelegt 3B – 34B Apache 2.0
gpt-oss (OpenAI) offenes Reasoning-Modell mit Werkzeug-Nutzung 20B / 120B Apache 2.0

Hinweis: Tabelle Stand Juni 2026. Versionen und vor allem Lizenzen ändern sich — gerade bei kommerzieller Nutzung gehört die Lizenz vor dem Produktiveinsatz beim jeweiligen Anbieter gegengeprüft. „Open-Weight" heißt nicht automatisch „kommerziell frei".


Häufige Fragen (FAQ)

Was bedeutet die „B"-Zahl bei KI-Modellen wie 7B oder 70B?

Das „B" steht für Milliarden (englisch billion) Parameter — die gelernten Stellschrauben des Modells. 7B sind rund sieben Milliarden, 70B rund siebzig Milliarden. Mehr Parameter bedeuten meist bessere Antworten, aber auch deutlich höheren Speicher- und Rechenbedarf.

Welche Hardware brauche ich für ein 70B-Modell?

Als Richtwert für ein Q4-quantisiertes 70B-Modell rund 40 bis 48 GB Speicher: also zwei 24-GB-Grafikkarten, eine einzelne 48-GB-Karte oder ein Mac mit 64 GB oder mehr Unified Memory. Auf weniger läuft es zwar noch über CPU und RAM, dann aber spürbar langsamer.

Welches Modell ist das beste fürs Programmieren?

Es gibt nicht das eine. Für die meisten Sprachen — Python, JavaScript, PHP, C++, Go, Rust und SQL — sind spezialisierte Code-Modelle wie Qwen2.5-Coder, DeepSeek-Coder-V2 oder Codestral die richtige Wahl. Ein dediziertes Code-Modell schlägt einen gleich großen Allrounder beim Programmieren fast immer.

Gibt es ein gutes lokales Modell speziell für SQL?

Ja. Die starken Code-Modelle beherrschen SQL gut, und mit SQLCoder existiert ein auf Datenbankabfragen spezialisiertes Modell. Wichtig beim Wechsel zwischen Systemen: SQL-Dialekte wie T-SQL oder PL/pgSQL unterscheiden sich, und genau dort lohnt es sich, jede generierte Abfrage zu prüfen.

Reicht ein kleines Modell, oder brauche ich unbedingt 70B?

Für den Alltag reicht in den allermeisten Fällen das Mittel-Level mit 7 bis 14 Milliarden Parametern — vor allem mit einem spezialisierten Code-Modell. 70B lohnt sich erst, wenn du höchste Qualität brauchst und die passende Hardware hast. Fang klein an und vergrößere nur, wenn dir wirklich etwas fehlt.

Sind diese offenen Modelle kostenlos und kommerziell nutzbar?

Herunterladen und lokal ausführen ist bei den meisten kostenlos. Kommerziell nutzbar ist aber nicht jedes Modell ohne Weiteres — Codestral etwa verlangt für den produktiven Einsatz eine gesonderte Lizenz. Prüfe die Lizenz immer beim jeweiligen Anbieter, bevor du ein Modell ins Unternehmen holst.

Bleibt bei lokaler KI wirklich alles auf meinem Rechner?

Ja. Bei korrekt eingerichtetem Ollama oder llama.cpp läuft die Verarbeitung vollständig lokal — kein Code, kein Prompt und keine Datei verlässt dein Netzwerk. Internet brauchst du nur einmalig zum Herunterladen des Modells.


Verwandte Seminare und Artikel

Du willst tiefer einsteigen oder das Thema im Team aufbauen? Diese dozent.net-Inhalte passen dazu:


Jetzt loslegen

Lokale KI ist 2026 keine Bastelei mehr, sondern ein produktives Werkzeug — wenn du Modell und Hardware aufeinander abstimmst. Fang mit einem 7B-Code-Modell auf deinem Arbeitsplatzrechner an, und wachse von dort. Wenn du den Aufbau lieber begleitet machst, zeigen wir dir den ganzen Weg im Seminar.