KI-Infrastruktur · Praxisbericht

Von Ollama zu vLLM: Wie wir die Geschwindigkeit unserer LLM-Inferenz verfünffacht haben

Vom ersten Prototyp bis zum produktiven Betrieb stößt jedes KI-Projekt auf dieselbe Hürde: Performance. Das ist die Geschichte, wie wir mit dem Wechsel auf vLLM einen 5-fachen Speed-Boost erreicht haben.

Lesezeit: 7 Min.
RIT Services Team
Faktor 5 schneller

Die Integration von großen Sprachmodellen (LLMs) in eigene Anwendungen ist längst kein reines Forschungsprojekt mehr, sondern gelebte Praxis. Doch wer den Weg vom ersten Prototyp bis hin zur produktiven Nutzung geht, stößt unweigerlich auf eine zentrale Herausforderung: die Performance.

In unserem Team standen wir genau an diesem Punkt. Wir hatten eine vielversprechende KI-Lösung gebaut, doch als die Nutzerzahlen und Anfragen stiegen, mussten wir unsere Infrastruktur überdenken. Das ist die Geschichte, wie wir unsere LLM-Inferenzgeschwindigkeit durch den Wechsel von Ollama auf vLLM um den Faktor 5 steigern konnten.

Der perfekte Start: Prototyping mit Ollama

Als wir unsere ersten Schritte in der lokalen Ausführung von Open-Source-Modellen (wie Llama 3 oder Mistral) machten, war Ollama ein absoluter Gamechanger für uns.

Entwicklerfreundlichkeit

Die Installation ist denkbar einfach. Ein simples ollama run … im Terminal reichte aus, und das Modell lief.

Plattformunabhängigkeit

Egal ob Mac, Linux oder Windows – es funktionierte out-of-the-box.

Geringe Einstiegshürde

Für Proof-of-Concepts und erste Tests mit unseren Daten gab es kaum einen schnelleren Weg, um Ergebnisse zu sehen.

Ollama war genau das Werkzeug, das wir brauchten, um unsere Ideen schnell zu validieren. Doch als wir den Schritt in Richtung Produktion planten und die Anfragen parallel einliefen, zeigten sich die Grenzen. Die Latenzzeit stieg spürbar an, und die User Experience begann unter den Wartezeiten zu leiden.

Die Herausforderung: Skalierung und Durchsatz

Für den produktiven Betrieb reichte es nicht mehr aus, dass ein Modell funktioniert – es musste performen. Wenn mehrere Nutzer gleichzeitig Anfragen stellen, müssen diese effizient verarbeitet werden. Ollama ist primär für den lokalen Einzelnutzer-Betrieb optimiert. Was wir brauchten, war eine Engine, die auf hohen Durchsatz und parallele Verarbeitung (Batching) ausgelegt ist.

Nach einiger Recherche und diversen Benchmarks fiel unsere Wahl auf vLLM.

Der Wechsel zu vLLM: Ein technologischer Quantensprung

vLLM ist eine Open-Source-Bibliothek, die speziell für eine schnelle und kosteneffiziente LLM-Inferenz entwickelt wurde. Der Wechsel unserer Infrastruktur erforderte zwar etwas mehr Konfigurationsaufwand als die „Plug-and-Play“-Erfahrung von Ollama, aber die Architektur von vLLM brachte genau die Features mit, die uns fehlten:

PagedAttention

Das absolute Kernstück von vLLM. Ähnlich wie beim virtuellen Speicher in Betriebssystemen verwaltet PagedAttention den Key-Value-(KV-)Cache extrem effizient. Es reduziert den Speicherabfall auf nahezu null und erlaubt es, viel mehr Requests gleichzeitig im GPU-Speicher zu halten.

Continuous Batching

Anstatt zu warten, bis alle Anfragen in einem Batch fertiggestellt sind, verarbeitet vLLM Anfragen dynamisch und kontinuierlich. Sobald ein Request abgeschlossen ist, rückt sofort der nächste nach.

Das Ergebnis: Faktor 5!

Die Theorie klang vielversprechend, aber die Praxis hat unsere Erwartungen übertroffen. Nach der erfolgreichen Umstellung auf vLLM haben wir unsere Benchmarks erneut durchlaufen lassen.

Das Resultat

5× schneller

LLM-Inferenz auf identischer Hardware

Was bedeutet das konkret für uns?

Echtzeit-Gefühl: Die „Time to First Token“ (TTFT) hat sich drastisch reduziert. Für unsere Endnutzer fühlen sich die Antworten der KI nun flüssig und fast wie in Echtzeit an.

Höherer Durchsatz: Wir können jetzt ein Vielfaches an parallelen Nutzeranfragen auf derselben Hardware bewältigen, ohne dass das System in die Knie geht.

Kosteneffizienz: Da wir die Auslastung unserer GPUs durch PagedAttention drastisch verbessern konnten, sparen wir bares Geld bei den Infrastrukturkosten. Wir holen schlichtweg mehr Leistung aus der gleichen Hardware.

Fazit: Welches Tool für welchen Zweck?

Würden wir Ollama heute abschreiben? Auf keinen Fall. Es kommt ganz auf den Anwendungsfall an. Unsere Abwägung sieht heute so aus:

Nutze Ollama, wenn …

  • • du am Anfang stehst und schnell Ideen testen willst
  • • du lokal auf deinem Laptop entwickelst
  • • du ein Modell primär als Einzelnutzer-Assistenz brauchst

Ollama bleibt der ungeschlagene König der Developer Experience.

Wechsle zu vLLM, wenn …

  • • du eine Applikation in Produktion bringst
  • • du hohe Nutzerzahlen erwartest
  • • du maximalen Durchsatz aus deiner Server-Hardware holen musst

Der logische, notwendige Schritt vom Prototyp zur professionellen Anwendung.

Für uns war der Wechsel der logische und notwendige Schritt vom Prototyp zur professionellen Anwendung. Der 5-fache Speed-Boost hat nicht nur unsere Server entlastet, sondern vor allem unseren Nutzern ein deutlich besseres Produkt geliefert.

KI-Lösung vom Prototyp in die Produktion bringen?

RIT Services plant, baut und betreibt performante LLM-Infrastruktur – von der Modellauswahl über die Inferenz-Optimierung bis zum skalierbaren Betrieb. Sprechen Sie mit uns über Ihren Anwendungsfall.