Back to blog

Comparação de custos de API de IA: modelos locais vs provedores de API

Uma análise detalhada dos custos reais de execução de agentes de IA: comparando OpenAI, Anthropic, DeepSeek, OpenRouter e modelos locais via Ollama. Encontre o equilíbrio certo para o seu uso.

K-Claw Team·30 de outubro de 2025·3 min read

Os dois componentes de custo de um agente de IA pessoal

Executar o OpenClaw num VPS pessoal tem dois componentes de custo distintos: o próprio servidor (mensalidade fixa) e a inferência do modelo de IA (variável, com base no uso). A maioria das pessoas foca-se no custo do servidor, mas o gasto com API de IA é o que realmente escala com o uso.

Compreender ambos — e os compromissos entre provedores de API e modelos locais — permite construir um agente que se encaixe no seu orçamento sem abrir mão da capacidade.

Custo do servidor: o piso fixo

O OpenClaw em si é leve. Um Hetzner CX22 a EUR 4,35/mês lida confortavelmente com o uso pessoal. Para inferência de modelos locais via Ollama, você precisa de mais:

CenárioServidorCusto mensal
Apenas agente (modelos API)2 vCPU / 4 GB RAMEUR 4–6/mês
Agente + modelo local pequeno4 vCPU / 8 GB RAMEUR 12–20/mês
Agente + modelo local robusto8 vCPU / 32 GB RAMEUR 40–80/mês

Executar modelos locais requer substancialmente mais RAM do que executar apenas o framework do agente. Um modelo de 7B parâmetros com quantização de 4 bits precisa de aproximadamente 5 GB de RAM apenas para carregar.

Preços dos provedores de API (finais de 2025)

Todos os preços de API são por milhão de tokens. Um "token" equivale a aproximadamente 0,75 palavras. Uma troca de mensagens típica consome entre 200 e 800 tokens combinados de entrada e saída.

ModeloEntrada (por 1M tokens)Saída (por 1M tokens)Nível de qualidade
GPT-4oUSD 5,00USD 15,00Topo de linha
GPT-4o miniUSD 0,15USD 0,60Rápido/econômico
Claude 3.5 SonnetUSD 3,00USD 15,00Topo de linha
Claude 3.5 HaikuUSD 0,80USD 4,00Rápido/econômico
DeepSeek V3USD 0,27USD 1,10Robusto / muito econômico
Gemini 1.5 FlashUSD 0,075USD 0,30Rápido/econômico

Para contextualizar: se você envia 100 mensagens por dia com uma média de 500 tokens cada, consome aproximadamente 1,5 milhão de tokens por mês (considerando o acúmulo da janela de contexto). Aos preços do DeepSeek V3, isso fica abaixo de USD 2/mês.

Usando o OpenRouter para otimização de custos

O OpenRouter agrega dezenas de modelos sob uma única chave de API e conta de cobrança. Isso significa que você pode:

  • Trocar de modelos sem reconfigurar o seu agente
  • Usar o modelo mais barato para tarefas simples e encaminhar solicitações complexas para modelos mais potentes
  • Acessar modelos da Anthropic, OpenAI, Meta e outros por uma única fatura

O OpenClaw suporta o OpenRouter nativamente. Defina OPENROUTER_API_KEY na sua configuração e especifique os modelos pelo identificador OpenRouter (deepseek/deepseek-chat, anthropic/claude-3-5-sonnet, etc.).

Modelos locais via Ollama: quando faz sentido

O Ollama permite executar modelos open-weight (Llama, Mistral, Gemma, etc.) diretamente no seu servidor sem chamadas de API externas. Isso significa:

  • Custo por token zero — você paga apenas pelo hardware do servidor
  • Privacidade total — nenhum dado sai do seu VPS
  • Sem limites de taxa — a velocidade de inferência é limitada apenas pelo seu hardware

O compromisso: Modelos locais exigem hardware potente, e mesmo os melhores modelos open-weight atualmente ficam atrás dos modelos de fronteira (GPT-4o, Claude 3.5) em tarefas de raciocínio complexo.

Quando os modelos locais são a escolha certa

  • Você processa dados altamente sensíveis e deseja exposição zero a APIs externas
  • Você tem alto volume de mensagens onde os custos de API se acumulam de forma significativa
  • Seus casos de uso são simples (resumo, perguntas e respostas básicas) e um modelo de 7B é suficiente
  • Você quer experimentar modelos ajustados às suas necessidades específicas

Configuração recomendada por nível de uso

PerfilConfiguração recomendadaCusto mensal estimado
Usuário casual (30 msg/dia)Hetzner CX22 + GPT-4o miniEUR 5–7/mês
Usuário regular (100 msg/dia)Hetzner CX22 + DeepSeek V3 via OpenRouterEUR 6–10/mês
Usuário avançado (300+ msg/dia)Hetzner CPX31 + mix de DeepSeek + Claude HaikuEUR 15–25/mês
Usuário focado em privacidadeHetzner CPX41 + Ollama + Llama 3.1 8BEUR 25–40/mês

O instalador do k-claw permite configurar o modelo preferido durante a instalação e alterá-lo a qualquer momento pelo painel de controle, sem necessidade de reinstalação.

Stop paying per-seat. Pay once, own your agent.

OpenClaw runs on a EUR 4/month VPS. Add your own API keys. k-claw gets it installed and configured in 15 minutes.

See pricing