Programmieren mit lokaler KI: Dein Code bleibt im Haus

TL;DR — In diesem zweitägigen Seminar lernst du als erfahrener Entwickler, einen vollwertigen KI-Coding-Assistenten komplett auf eigener Hardware zu betreiben — mit Ollama und anderen Werkzeugen, passenden Open-Weight-Sprachmodellen und IDE-Integration. Kein Code verlässt dein Netzwerk, keine Token-Kosten, kein Drittanbieter. Für alle, die KI nutzen wollen, ohne ihr Betriebsgeheimnis aus der Hand zu geben.

Abbildung 1: Bei lokaler KI bleibt der gesamte Datenfluss im eigenen Netz — die externe Cloud wird gar nicht erst kontaktiert.

Seminar anfragen

Kein Cloud-Abo, keine Daten-Weitergabe, kein API-Schlüssel zu einem US-Anbieter. Du brauchst nur eigene Hardware — wie viel genau, klären wir am ersten Tag.

Warum dein Code in der Cloud ein Geschäftsgeheimnis-Risiko ist

Cloud-basierte KI-Assistenten sind bequem — aber jede Anfrage schickt deinen Quellcode an einen externen Anbieter. Für Hobbyprojekte ist das egal. Für ein Unternehmen, das von seinem Code lebt, ist es ein konkretes Problem.

Quellcode ist in den meisten Firmen ein Geschäftsgeheimnis im Sinne des Geschäftsgeheimnisgesetzes (GeschGehG). Den Schutz genießt er aber nur, solange „angemessene Geheimhaltungsmaßnahmen" getroffen werden. Wer proprietären Code routinemäßig an einen Cloud-Dienst überträgt, dessen Verarbeitung er nicht kontrolliert, schwächt im Zweifel genau diesen Schutz. Dazu kommen die praktischen Fragen: Wird mein Code zum Training verwendet? Wo stehen die Server? Greift US-Recht auf die Daten zu? Was steht im Vertrag mit meinen eigenen Kunden, deren Code ich gerade hochlade?

Lokale KI dreht das um: Das Modell läuft auf deiner Hardware, der Code bleibt im internen Netz. Du musst niemandem vertrauen außer dir selbst — und genau das ist für viele erfahrene Entwicklerinnen und Entwickler der entscheidende Punkt.

Abbildung 2: Der Unterschied ist weniger technisch als grundsätzlich — es geht um Datenhoheit.

Typische Anwendungsfälle

Code-Vervollständigung in der IDE — Inline-Vorschläge direkt in VS Code oder JetBrains, ganz ohne externen Dienst.
Refactoring von Altcode — Legacy-Module verständlich machen und umbauen, ohne sie einem Dritten zu zeigen.
Code-Review-Unterstützung — eine zweite Meinung zu einem Diff, bevor er in den Hauptzweig geht.
Testfälle generieren — Unit-Tests aus bestehenden Funktionen ableiten lassen.
Dokumentation — Docstrings, READMEs und Kommentare aus dem Code erzeugen.
RAG auf der eigenen Codebasis — Fragen über das interne Repository und die interne Doku beantworten lassen.
Air-gapped-Umgebungen — Entwicklung in Netzen ohne Internetzugang (Behörden, kritische Infrastruktur, Verteidigung).
Team-Assistent on-premise — ein gemeinsamer LLM-Server für das ganze Entwicklungsteam, hinter der eigenen Firewall.

Die Werkzeuge und Modelle, die du im Seminar kennenlernst

Lokale KI ist 2026 erwachsen geworden. Es gibt ausgereifte Laufzeitumgebungen und eine ganze Reihe offener Sprachmodelle, die speziell aufs Programmieren trainiert sind. Wir arbeiten praktisch mit den wichtigsten:

Ollama — der einfachste Einstieg: ein Modell mit einem Befehl laden und über eine OpenAI-kompatible lokale API ansprechen. Ideal für Einzelplatz und kleine Teams.
llama.cpp — die Engine darunter. Hier verstehst du Quantisierung (GGUF), CPU- gegen GPU-Betrieb und wie du das Maximum aus vorhandener Hardware holst.
LM Studio — grafische Oberfläche zum Ausprobieren und Vergleichen von Modellen, inklusive lokalem Server-Modus.
vLLM — der Durchsatz-Champion für einen echten Team-Server: schnelle, parallele Anfragen mit OpenAI-kompatibler Schnittstelle.
Continue.dev / Tabby — die Brücke in die IDE: Autovervollständigung und Chat in VS Code und JetBrains, angebunden an dein lokales Modell.
Open WebUI — eine selbstgehostete Chat-Oberfläche für das Team, falls nicht jeder in der IDE arbeiten will.

Bei den Modellen kommt es auf den Zweck an. Diese Auswahl deckt das ab, was für Entwicklungsteams am relevantesten ist:

Modell-Familie	Stärke	Typische Größen	Lizenz-Hinweis (vor Einsatz prüfen!)
Qwen2.5-Coder	Code-Spezialist, sehr stark im Open-Weight-Bereich	0,5B – 32B	überwiegend Apache 2.0 (je Variante prüfen)
DeepSeek-Coder-V2	Code plus Reasoning, effizientes MoE-Design	mittel – groß	permissiv, kommerziell nutzbar
Codestral (Mistral)	reines Code-Modell mit großem Kontext	~22B	Mistral-Non-Production-Lizenz — kommerziell nur mit gesonderter Lizenz!
Llama 3.x (Meta)	vielseitiger Allrounder	8B / 70B	Llama-Community-Lizenz (Einschränkung für sehr große Anbieter)
CodeGemma / Gemma (Google)	kompakt, gute Code-Fähigkeiten	klein – mittel	Gemma-Nutzungsbedingungen
Phi (Microsoft)	klein, stark, läuft auf bescheidener Hardware	klein	meist MIT (Variante prüfen)
StarCoder2 (BigCode)	breite Sprachabdeckung, offen entwickelt	klein – mittel	OpenRAIL-M (Nutzungsbedingungen beachten)

Hinweis: Tabelle Stand Juni 2026. Modell-Versionen und vor allem Lizenzen ändern sich — gerade bei kommerzieller Nutzung gehört die Lizenz vor dem Produktiveinsatz beim jeweiligen Anbieter gegengeprüft. Wie man das systematisch macht, ist Teil des Seminars.

Vorteile für Entwicklerteams, die ihr Wissen schützen

1. Datenhoheit statt Vertrauensvorschuss

Dein Code wird ausschließlich auf deiner Hardware verarbeitet. Du musst keinem Anbieter glauben, dass er nichts speichert oder mittrainiert — er sieht den Code schlicht nie.

2. Betriebsgeheimnis bleibt geschützt

Wer geheimhaltungsbedürftigen Code nicht nach außen gibt, hält die „angemessenen Geheimhaltungsmaßnahmen" leichter ein, an die das GeschGehG den Schutz knüpft. Auch Kundenverträge mit Vertraulichkeitsklauseln bleiben sauber.

3. Keine laufenden Kosten pro Anfrage

Lokale Modelle kosten kein Token-Entgelt. Nach der Anschaffung der Hardware sind Vervollständigungen, Reviews und Test-Generierung im Tagesgeschäft praktisch gratis — auch bei intensiver Nutzung.

4. Funktioniert offline und air-gapped

Kein Internetzugang nötig. Das eröffnet KI-Unterstützung auch in abgeschotteten Netzen, in denen Cloud-Tools schlicht verboten sind.

5. Volle Kontrolle und Reproduzierbarkeit

Du legst fest, welche Modellversion läuft — sie ändert sich nicht über Nacht unter dir weg. Modelle lassen sich versionieren, testen und gezielt austauschen.

6. Anpassbar an deinen Kontext

Über RAG (Retrieval-Augmented Generation) bindest du deine eigene Codebasis und Doku an, ohne das Modell selbst zu verändern — die Antworten kennen dann deine internen Konventionen.

Vom Setup zum produktiven Assistenten

Abbildung 3: An zwei Tagen vom ersten lokalen Modell bis zum gemeinsamen LLM-Server fürs Team.

Agenda: zwei Tage lokale KI

Hands-on von Anfang an — du brauchst einen Laptop, den Rest richten wir gemeinsam ein. Pausen sind eingeplant und werden flexibel gehandhabt.

Tag 1 — Grundlagen, Recht und Setup

09:00 Begrüßung, Lernziele, Überblick über die Landschaft lokaler KI
09:30 Warum lokal? Betriebsgeheimnis, DSGVO, GeschGehG und die realen Cloud-Risiken
10:45 Modell-Landschaft: Open-Weight-Modelle, Lizenzen richtig lesen, Quantisierung verstehen
12:00 Mittagspause
13:00 Hands-on: Ollama installieren, erstes Modell laden, Prompting-Grundlagen fürs Programmieren
14:45 llama.cpp und LM Studio: Hardware, VRAM, CPU gegen GPU, das passende Modell für deine Maschine
16:00 Tagesabschluss und offene Fragen

Tag 2 — Integration, RAG und Betrieb

09:00 Rückblick und Klärung offener Punkte
09:15 IDE-Integration: Continue.dev und Tabby in VS Code und JetBrains anbinden
10:45 RAG auf der eigenen Codebasis: lokale Embeddings und Vektor-Datenbank (u. a. mit pgvector)
12:00 Mittagspause
13:00 Eigener LLM-Server: Ollama oder vLLM als Team-Dienst über eine OpenAI-kompatible API
14:45 Sicherheit, Governance, Modell-Updates und die ehrlichen Grenzen lokaler Modelle
16:00 Abschluss, Teilnahmebestätigung und weiterführende Ressourcen

Alle Seminare ansehen

Häufige Fragen (FAQ)

Brauche ich eine teure Grafikkarte für lokale KI?

Nicht zwingend. Kleinere, quantisierte Modelle laufen brauchbar auf einer modernen CPU mit genug RAM. Für flüssige Code-Vervollständigung und größere Modelle hilft eine GPU mit ausreichend Videospeicher deutlich. Im Seminar ordnen wir konkrete Modellgrößen realistischen Hardware-Anforderungen zu, damit du weißt, was deine Maschine schafft.

Welche Vorkenntnisse sollte ich mitbringen?

Das Seminar richtet sich an erfahrene Entwicklerinnen und Entwickler. Du solltest sicher in mindestens einer Programmiersprache sein und dich auf der Kommandozeile wohlfühlen. KI-Vorwissen ist nicht nötig — wir bauen es von Grund auf auf.

Bleibt mein Code wirklich vollständig im Haus?

Ja. Bei korrekt eingerichteter lokaler KI verlässt kein einziges Byte deines Codes dein Netzwerk — das Modell läuft auf deiner Hardware, die Verarbeitung passiert lokal. Genau diese saubere Einrichtung und ihre Überprüfung sind Kerninhalt des Seminars.

Darf ich die Modelle kommerziell einsetzen?

Das hängt vom konkreten Modell ab. Viele offene Modelle erlauben kommerzielle Nutzung unter permissiven Lizenzen, andere haben Einschränkungen — Codestral etwa verlangt für den produktiven Einsatz eine gesonderte Lizenz. Wir zeigen dir, wie du Modell-Lizenzen systematisch prüfst, bevor du sie ins Unternehmen holst.

Wie gut ist lokale KI im Vergleich zu großen Cloud-Modellen?

Für viele Programmieraufgaben — Vervollständigung, Refactoring, Tests, Doku — sind moderne Code-Modelle erstaunlich nah dran. Bei den schwierigsten Reasoning-Aufgaben haben die größten Cloud-Modelle weiterhin die Nase vorn. Wir sprechen offen über diese Grenzen, damit du realistische Erwartungen hast.

Kann das ganze Team einen gemeinsamen lokalen Assistenten nutzen?

Ja. Mit einem zentralen LLM-Server (etwa über vLLM oder Ollama) und einer OpenAI-kompatiblen API greifen alle Entwicklerinnen und Entwickler auf dasselbe Modell hinter der Firewall zu. Das richten wir am zweiten Tag praktisch ein.

Bietet ihr das Seminar auch inhouse an?

Ja. Das Seminar lässt sich als Inhouse-Schulung in deinem Unternehmen durchführen — auf Wunsch zugeschnitten auf eure Sprachen, Tools und Infrastruktur. Sprich uns einfach über die Kontaktseite an.

Technische Voraussetzungen

Du brauchst einen eigenen Laptop mit Administratorrechten (Windows, macOS oder Linux) und idealerweise mehrere Gigabyte freien Speicher für die Modelle. Eine dedizierte GPU ist von Vorteil, aber kein Muss — wir haben Modellgrößen für jede Ausstattung dabei. Internetzugang ist nur zum erstmaligen Herunterladen der Modelle nötig; das eigentliche Arbeiten läuft danach offline.

Jetzt Platz sichern