Back to blog

KI-API-Kostenvergleich: lokale Modelle vs. API-Anbieter

Eine detaillierte Aufschlüsselung der tatsächlichen Kosten für den Betrieb von KI-Agenten: Vergleich von OpenAI, Anthropic, DeepSeek, OpenRouter und lokalen Modellen über Ollama. Finden Sie das richtige Gleichgewicht für Ihren Bedarf.

K-Claw Team·30. Oktober 2025·3 min read

Die zwei Kostenfaktoren eines persönlichen KI-Agenten

Der Betrieb von OpenClaw auf einem persönlichen VPS hat zwei klar unterscheidbare Kostenfaktoren: den Server selbst (feste monatliche Gebühr) und die KI-Modellinferenz (variabel, nutzungsabhängig). Die meisten Menschen konzentrieren sich auf die Serverkosten, aber die KI-API-Ausgaben sind es, die tatsächlich mit der Nutzung skalieren.

Beide zu verstehen — sowie die Kompromisse zwischen API-Anbietern und lokalen Modellen — ermöglicht es Ihnen, einen Agenten zu entwickeln, der zu Ihrem Budget passt, ohne Abstriche bei der Leistung zu machen.

Serverkosten: der feste Sockel

OpenClaw selbst ist ressourcenschonend. Ein Hetzner CX22 für EUR 4,35/Monat bewältigt den persönlichen Gebrauch problemlos. Für die lokale Modellinferenz über Ollama benötigen Sie mehr:

SzenarioServerMonatliche Kosten
Nur Agent (API-Modelle)2 vCPU / 4 GB RAMEUR 4–6/Monat
Agent + kleines lokales Modell4 vCPU / 8 GB RAMEUR 12–20/Monat
Agent + leistungsfähiges lokales Modell8 vCPU / 32 GB RAMEUR 40–80/Monat

Lokale Modelle benötigen wesentlich mehr RAM als das bloße Ausführen des Agent-Frameworks. Ein 7-Milliarden-Parameter-Modell mit 4-Bit-Quantisierung benötigt allein zum Laden etwa 5 GB RAM.

API-Anbieterpreise (Stand: Ende 2025)

Alle API-Preise gelten pro Million Tokens. Ein "Token" entspricht ungefähr 0,75 Wörtern. Ein typischer Nachrichtenaustausch verbraucht kombiniert zwischen 200 und 800 Tokens für Ein- und Ausgabe.

ModellEingabe (pro 1M Tokens)Ausgabe (pro 1M Tokens)Qualitätsstufe
GPT-4oUSD 5,00USD 15,00Flaggschiff
GPT-4o miniUSD 0,15USD 0,60Schnell/günstig
Claude 3.5 SonnetUSD 3,00USD 15,00Flaggschiff
Claude 3.5 HaikuUSD 0,80USD 4,00Schnell/günstig
DeepSeek V3USD 0,27USD 1,10Leistungsstark / sehr günstig
Gemini 1.5 FlashUSD 0,075USD 0,30Schnell/günstig

Zur Veranschaulichung: Wenn Sie 100 Nachrichten pro Tag mit durchschnittlich 500 Tokens senden, verbrauchen Sie monatlich etwa 1,5 Millionen Tokens (Kontextfensterakkumulation eingerechnet). Zu DeepSeek V3-Preisen sind das unter USD 2/Monat.

OpenRouter zur Kostenoptimierung nutzen

OpenRouter bündelt Dutzende von Modellen unter einem einzigen API-Schlüssel und Abrechnungskonto. Das bedeutet, Sie können:

  • Modelle wechseln, ohne Ihren Agenten neu konfigurieren zu müssen
  • Das günstigste Modell für einfache Aufgaben verwenden und komplexe Anfragen an leistungsstärkere Modelle weiterleiten
  • Auf Modelle von Anthropic, OpenAI, Meta und anderen über eine einzige Rechnung zugreifen

OpenClaw unterstützt OpenRouter nativ. Setzen Sie OPENROUTER_API_KEY in Ihrer Konfiguration und geben Sie Modelle über ihren OpenRouter-Bezeichner an (deepseek/deepseek-chat, anthropic/claude-3-5-sonnet usw.).

Lokale Modelle über Ollama: wann es sinnvoll ist

Ollama ermöglicht es Ihnen, Open-Weight-Modelle (Llama, Mistral, Gemma usw.) direkt auf Ihrem Server ohne externe API-Aufrufe auszuführen. Das bedeutet:

  • Keine Token-Kosten — Sie zahlen nur für die Server-Hardware
  • Vollständige Privatsphäre — keine Daten verlassen Ihren VPS
  • Keine Ratenlimits — die Inferenzgeschwindigkeit ist nur durch Ihre Hardware begrenzt

Der Kompromiss: Lokale Modelle erfordern leistungsfähige Hardware, und selbst die besten Open-Weight-Modelle liegen derzeit bei komplexen Reasoning-Aufgaben hinter Frontier-Modellen (GPT-4o, Claude 3.5) zurück.

Wann lokale Modelle die richtige Wahl sind

  • Sie verarbeiten hochsensible Daten und möchten keinerlei API-Exposition
  • Sie haben ein hohes Nachrichtenvolumen, bei dem API-Kosten erheblich anfallen
  • Ihre Anwendungsfälle sind unkompliziert (Zusammenfassungen, einfache Fragen und Antworten) und ein 7B-Modell reicht aus
  • Sie möchten mit feinabgestimmten Modellen experimentieren, die auf Ihre Bedürfnisse zugeschnitten sind

Empfohlene Konfiguration nach Nutzungsgrad

ProfilEmpfohlene KonfigurationGeschätzte Monatskosten
Gelegentlicher Nutzer (30 Nachr./Tag)Hetzner CX22 + GPT-4o miniEUR 5–7/Monat
Regulärer Nutzer (100 Nachr./Tag)Hetzner CX22 + DeepSeek V3 über OpenRouterEUR 6–10/Monat
Power-User (300+ Nachr./Tag)Hetzner CPX31 + Mix aus DeepSeek + Claude HaikuEUR 15–25/Monat
Privatsphäre-orientierter NutzerHetzner CPX41 + Ollama + Llama 3.1 8BEUR 25–40/Monat

Der k-claw-Installer ermöglicht es Ihnen, Ihr bevorzugtes Modell während der Einrichtung zu konfigurieren und es jederzeit über das Dashboard zu ändern — ohne Neuinstallation.

Stop paying per-seat. Pay once, own your agent.

OpenClaw runs on a EUR 4/month VPS. Add your own API keys. k-claw gets it installed and configured in 15 minutes.

See pricing