Comparação de custos de API de IA: modelos locais vs provedores de API
Uma análise detalhada dos custos reais de execução de agentes de IA: comparando OpenAI, Anthropic, DeepSeek, OpenRouter e modelos locais via Ollama. Encontre o equilíbrio certo para o seu uso.
Os dois componentes de custo de um agente de IA pessoal
Executar o OpenClaw num VPS pessoal tem dois componentes de custo distintos: o próprio servidor (mensalidade fixa) e a inferência do modelo de IA (variável, com base no uso). A maioria das pessoas foca-se no custo do servidor, mas o gasto com API de IA é o que realmente escala com o uso.
Compreender ambos — e os compromissos entre provedores de API e modelos locais — permite construir um agente que se encaixe no seu orçamento sem abrir mão da capacidade.
Custo do servidor: o piso fixo
O OpenClaw em si é leve. Um Hetzner CX22 a EUR 4,35/mês lida confortavelmente com o uso pessoal. Para inferência de modelos locais via Ollama, você precisa de mais:
| Cenário | Servidor | Custo mensal |
|---|---|---|
| Apenas agente (modelos API) | 2 vCPU / 4 GB RAM | EUR 4–6/mês |
| Agente + modelo local pequeno | 4 vCPU / 8 GB RAM | EUR 12–20/mês |
| Agente + modelo local robusto | 8 vCPU / 32 GB RAM | EUR 40–80/mês |
Executar modelos locais requer substancialmente mais RAM do que executar apenas o framework do agente. Um modelo de 7B parâmetros com quantização de 4 bits precisa de aproximadamente 5 GB de RAM apenas para carregar.
Preços dos provedores de API (finais de 2025)
Todos os preços de API são por milhão de tokens. Um "token" equivale a aproximadamente 0,75 palavras. Uma troca de mensagens típica consome entre 200 e 800 tokens combinados de entrada e saída.
| Modelo | Entrada (por 1M tokens) | Saída (por 1M tokens) | Nível de qualidade |
|---|---|---|---|
| GPT-4o | USD 5,00 | USD 15,00 | Topo de linha |
| GPT-4o mini | USD 0,15 | USD 0,60 | Rápido/econômico |
| Claude 3.5 Sonnet | USD 3,00 | USD 15,00 | Topo de linha |
| Claude 3.5 Haiku | USD 0,80 | USD 4,00 | Rápido/econômico |
| DeepSeek V3 | USD 0,27 | USD 1,10 | Robusto / muito econômico |
| Gemini 1.5 Flash | USD 0,075 | USD 0,30 | Rápido/econômico |
Para contextualizar: se você envia 100 mensagens por dia com uma média de 500 tokens cada, consome aproximadamente 1,5 milhão de tokens por mês (considerando o acúmulo da janela de contexto). Aos preços do DeepSeek V3, isso fica abaixo de USD 2/mês.
Usando o OpenRouter para otimização de custos
O OpenRouter agrega dezenas de modelos sob uma única chave de API e conta de cobrança. Isso significa que você pode:
- Trocar de modelos sem reconfigurar o seu agente
- Usar o modelo mais barato para tarefas simples e encaminhar solicitações complexas para modelos mais potentes
- Acessar modelos da Anthropic, OpenAI, Meta e outros por uma única fatura
O OpenClaw suporta o OpenRouter nativamente. Defina OPENROUTER_API_KEY na sua configuração e especifique os modelos pelo identificador OpenRouter (deepseek/deepseek-chat, anthropic/claude-3-5-sonnet, etc.).
Modelos locais via Ollama: quando faz sentido
O Ollama permite executar modelos open-weight (Llama, Mistral, Gemma, etc.) diretamente no seu servidor sem chamadas de API externas. Isso significa:
- Custo por token zero — você paga apenas pelo hardware do servidor
- Privacidade total — nenhum dado sai do seu VPS
- Sem limites de taxa — a velocidade de inferência é limitada apenas pelo seu hardware
O compromisso: Modelos locais exigem hardware potente, e mesmo os melhores modelos open-weight atualmente ficam atrás dos modelos de fronteira (GPT-4o, Claude 3.5) em tarefas de raciocínio complexo.
Quando os modelos locais são a escolha certa
- Você processa dados altamente sensíveis e deseja exposição zero a APIs externas
- Você tem alto volume de mensagens onde os custos de API se acumulam de forma significativa
- Seus casos de uso são simples (resumo, perguntas e respostas básicas) e um modelo de 7B é suficiente
- Você quer experimentar modelos ajustados às suas necessidades específicas
Configuração recomendada por nível de uso
| Perfil | Configuração recomendada | Custo mensal estimado |
|---|---|---|
| Usuário casual (30 msg/dia) | Hetzner CX22 + GPT-4o mini | EUR 5–7/mês |
| Usuário regular (100 msg/dia) | Hetzner CX22 + DeepSeek V3 via OpenRouter | EUR 6–10/mês |
| Usuário avançado (300+ msg/dia) | Hetzner CPX31 + mix de DeepSeek + Claude Haiku | EUR 15–25/mês |
| Usuário focado em privacidade | Hetzner CPX41 + Ollama + Llama 3.1 8B | EUR 25–40/mês |
O instalador do k-claw permite configurar o modelo preferido durante a instalação e alterá-lo a qualquer momento pelo painel de controle, sem necessidade de reinstalação.
Stop paying per-seat. Pay once, own your agent.
OpenClaw runs on a EUR 4/month VPS. Add your own API keys. k-claw gets it installed and configured in 15 minutes.
See pricingRelated articles
O que é um agente de IA pessoal? Um guia completo para 2026
Saiba o que são os agentes de IA pessoais, como funcionam e por que o auto-hospedagem oferece privacidade, controle e personalização ilimitada em comparação com assistentes baseados em nuvem.
Como instalar OpenClaw num VPS: guia passo a passo
Um guia completo para instalar OpenClaw no seu próprio VPS. Desde a escolha do servidor até à configuração de modelos de IA e canais de mensagens.