O Custo Escondido do Token Subsidiado: Acham que os tokens estão baratos e só vão ficar mais baratos no futuro próximo?

Olá a todos!

Nota do autor: este post foi feito para incomodar. Vai incomodar porque toca num assunto que toda a gente na indústria de IA sabe que existe, que muitos preferem não discutir em voz alta, e que tem implicações directas para qualquer empresa que esteja a construir produtos em cima de APIs de modelos de linguagem. Talvez seja um mecanismo interno que os faz dizer que os tokens estão mais baratos, e só vão ficar mais baratos no futuro com energia mais barata ou gratuita.
Vamos falar do subsídio escondido por token — do quanto a OpenAI, Anthropic e outros estão a perder dinheiro, conscientemente e deliberadamente, para manter o preço dos tokens artificialmente baixo. E vamos falar do que acontecerá se e quando essa torneira fechar.
Todas as minhas opiniões estão documentadas abaixo em análises de viabilidade de mercado, custos de inferência e artigos relacionados.

Vamos a isto.

O contexto: uma indústria que está a crescer e a perder dinheiro

Vou começar pelos números, porque os números são brutais e não precisam de interpretação criativa.

A OpenAI, segundo documentos internos reportados pelo The Information e confirmados por filings da Microsoft à SEC, perdeu cerca de 5 mil milhões de dólares em 2025 sobre uma receita de 3.7 mil milhões. Lê outra vez: gastaram 1.35 dólares por cada dólar que ganharam. As projecções internas da própria OpenAI, reveladas pelo Wall Street Journal, apontam para perdas de 14 mil milhões de dólares em 2026, com gastos totais na ordem dos 22 mil milhões contra receitas de cerca de 13 mil milhões. E o mais extraordinário: a empresa não projecta atingir break-even antes de 2029 ou 2030, com perdas cumulativas que vários analistas — incluindo a HSBC — estimam em mais de 200 mil milhões de dólares até lá chegar.

A Anthropic, apesar de estar numa posição relativamente melhor, não escapa ao padrão. Com receitas anualizadas que atingiram os 30 mil milhões de dólares em abril de 2026 — um crescimento absolutamente surreal de 9 mil milhões no final de 2025 para 30 mil milhões em poucos meses — a empresa continua a queimar capital a um ritmo considerável. Segundo projecções compiladas por várias fontes, incluindo a Sacra e a TradingKey, os custos de treino rondam os 12 mil milhões e os de inferência os 7 mil milhões, com margens brutas que melhoraram significativamente face a 2024 (onde eram negativas em 94%) mas que ainda se situam nos 40% — abaixo dos objectivos internos. A Anthropic projecta atingir cash flow positivo em 2027 ou 2028, o que é substancialmente mais cedo do que a OpenAI, mas ainda significa que neste momento está a operar com prejuízo.

E aqui está a pergunta que interessa: se estas empresas estão a perder milhares de milhões, quem está a pagar a diferença?

Tu. Ou melhor: os investidores que te estão a subsidiar o token. Até ao dia que a empresa passar a ser de alguém através de um IPO. Nessa altura tem que passar a dar dinheiro. Mesmo que vos tenha que tramar.

O mecanismo do subsídio: como funciona na prática

Para perceber o subsídio, precisas de perceber a diferença entre o preço de API que pagas e o custo real de servir esse token.

A Anthropic cobra actualmente 5 dólares por milhão de tokens de input e 25 dólares por milhão de tokens de output para o Claude Opus 4.6. A OpenAI cobra 2.50 e 15 dólares respectivamente para o GPT-5.4. Estes são os preços que tu, como programador ou empresa, vês na página de pricing. São os preços em que baseias as tuas estimativas de custo. São os preços que colocas no teu business plan quando calculas o ROI de implementar IA na tua organização.

Mas quanto é que realmente custa servir esses tokens?

Martin Alderson, num artigo publicado em agosto de 2025 que merece leitura cuidadosa, fez as contas de trás para a frente. O raciocínio dele é simples e elegante: se queres saber quanto custa realmente servir um modelo de grande escala, não olhes para os preços da OpenAI ou da Anthropic — olha para os preços dos provedores independentes no OpenRouter que servem modelos open-weight de tamanho comparável. Estes provedores — DeepInfra, Together AI, Fireworks — estão a operar negócios reais. Têm de pagar GPUs, electricidade, e salários. Não são instituições de caridade. E se conseguem servir modelos de escala comparável a um décimo do preço da Anthropic e permanecer em actividade, isso diz-nos algo fundamental sobre a estrutura de custos real.

A análise dele é reveladora. Segundo os seus cálculos, o custo real de compute por token é aproximadamente 10% do preço de API da Anthropic. Ou seja: quando a Anthropic te cobra 5 dólares por milhão de tokens de input, o custo real de servir esses tokens é da ordem dos 50 cêntimos. Quando te cobra 25 dólares por milhão de tokens de output, o custo real é da ordem dos 2.50 dólares.

Espera — então a Anthropic está a ganhar dinheiro na API? Num certo sentido, sim. As margens na API são potencialmente muito altas. Alderson argumenta que o negócio de API é essencialmente uma máquina de imprimir dinheiro, com margens brutas que se assemelham mais a software do que a infraestrutura. E tem dados para apoiar isto: os preços no OpenRouter para modelos open-weight de escala comparável, servidos por provedores competitivos, são consistentemente uma fracção dos preços cobrados pela Anthropic e pela OpenAI.

Então onde é que o dinheiro se perde?

Os três buracos negros que consomem tudo

O subsídio não está onde a maioria das pessoas pensa. Não está primariamente no custo marginal de servir cada token individual. Está em três áreas que, combinadas, transformam empresas com receitas de dezenas de milhares de milhões em buracos negros financeiros.

Primeiro: o treino de modelos de fronteira. Treinar um modelo como o GPT-5 ou o Claude Opus 4.6 custa centenas de milhões de dólares — e segundo o Dario Amodei, CEO da Anthropic, os custos de treino estão a escalar para os milhares de milhões para a próxima geração. A OpenAI, segundo documentos obtidos pelo Wall Street Journal, prevê que os seus custos de computação atingirão 121 mil milhões de dólares até 2028. Estes custos de treino são amortizados sobre toda a base de utilizadores, mas o preço por token que tu pagas não os cobre — nem de perto. Quando pagas 5 dólares por milhão de tokens, estás a pagar o custo marginal de inferência (talvez), mas não estás a contribuir proporcionalmente para os biliões gastos em treino.

Segundo: os utilizadores gratuitos e os planos de subscrição. A OpenAI tem aproximadamente 900 milhões de utilizadores activos semanais no ChatGPT. Desses, 95% são utilizadores gratuitos. Cada query que um utilizador gratuito faz custa dinheiro real em compute — e não gera receita nenhuma. É o equivalente digital de dar electricidade de graça a 95% dos teus clientes e esperar que os 5% que pagam cubram a conta inteira. Não cobrem. A Anthropic tem uma versão ligeiramente diferente do mesmo problema: o plano Max a 200 dólares por mês. O Forbes reportou que análises internas da empresa indicavam que um utilizador intensivo do Claude Code Max podia consumir o equivalente a 5000 dólares em compute ao preço de API. Alderson contesta este número — argumenta que o custo real de compute é cerca de um décimo do preço de API, o que colocaria o custo real por utilizador intensivo em cerca de 500 dólares, uma perda de 300 dólares por mês e não de 4800. Mas mesmo com a estimativa conservadora dele, a Anthropic perde dinheiro nos utilizadores mais intensivos dos seus planos flat-rate.

Terceiro: a corrida armamentista de infraestrutura. O Project Stargate, anunciado pela OpenAI em parceria com a SoftBank, Oracle e MGX, prevê 500 mil milhões de dólares em investimento em data centers ao longo de quatro anos. A Anthropic fechou acordos com a Google e a Broadcom para garantir 3.5 GW de capacidade de compute em TPUs a partir de 2027, e planeia investir 50 mil milhões em data centers nos EUA. Estes números são tão grandes que deixam de fazer sentido intuitivo — mas o ponto é simples: ambas as empresas estão a gastar muito mais em infraestrutura do que aquilo que conseguem gerar em receitas, e o preço que tu pagas por token não reflecte esse investimento.

O verdadeiro preço do token: quanto custaria se tivessem de ser rentáveis

E agora chegamos à pergunta que mais interessa a quem está a construir produtos em cima destas APIs: se a OpenAI e a Anthropic tivessem de operar de forma rentável hoje — sem subsídios de venture capital, sem rondas de financiamento de dezenas de milhares de milhões — quanto é que os tokens custariam?

Vou fazer as contas de duas formas.

Cenário 1: break-even apenas em inferência, ignorando treino e infraestrutura. Se acreditarmos na análise de Alderson — que o custo real de inferência é cerca de 10% do preço actual de API — então os preços actuais de API já são rentáveis em termos puramente marginais. A Anthropic está provavelmente a ganhar dinheiro em cada token individual que serve pela API. Neste cenário, os preços actuais de API não precisariam de subir para cobrir custos de inferência. Mas isto ignora completamente os custos de treino, investigação, salários, e infraestrutura.

Cenário 2: rentabilidade total, incluindo todos os custos. Aqui as contas mudam dramaticamente. A OpenAI gerou cerca de 13 mil milhões em receitas em 2025 mas teve custos totais na ordem dos 22 mil milhões — um rácio de custos para receitas de aproximadamente 1.7x. Para atingir break-even, ou as receitas teriam de quase duplicar, ou os preços teriam de subir 70% assumindo o mesmo volume. Mas como os preços e o volume estão interligados (preços mais altos significam menos volume), o aumento real necessário seria provavelmente maior. A HSBC estima que a OpenAI precisa de mais 207 mil milhões de dólares em financiamento mesmo depois de tudo o que já levantou. Isto não é o perfil financeiro de uma empresa a caminho da rentabilidade — é o perfil de uma empresa que está a comprar market share a crédito.

Para a Anthropic, o cenário é ligeiramente menos dramático mas estruturalmente semelhante. Com custos combinados de treino e inferência na ordem dos 19 mil milhões contra receitas anualizadas de 30 mil milhões, a empresa está mais perto do break-even operacional — mas as margens brutas de 40% significam que depois de salários, investigação, e outros custos operacionais, ainda opera com prejuízo significativo.

O que isto me diz, em termos práticos, é que os preços actuais de API são artificialmente baixos por um factor que varia entre 1.5x e 3x, dependendo de como distribuis os custos de treino e infraestrutura. Se a OpenAI tivesse de ser rentável hoje, o GPT-5.4 não custaria 2.50/15 dólares por milhão de tokens — custaria provavelmente entre 4 e 7.50 dólares no input e entre 25 e 45 dólares no output. Se a Anthropic tivesse de ser rentável hoje, o Opus 4.6 não custaria 5/25 — custaria provavelmente entre 7.50 e 12 dólares no input e entre 35 e 50 dólares no output.

São estes os números com que devias estar a fazer o teu business plan. Não os números actuais.

O elefante chinês na sala: DeepSeek e o colapso da narrativa de custos

E depois há o DeepSeek. Que veio baralhar todas as contas.

O DeepSeek V4, lançado em abril de 2026, cobra 0.14 dólares por milhão de tokens de input e 0.28 dólares por milhão de tokens de output para o modelo Flash. Isto é — e não estou a exagerar — entre 10x e 90x mais barato do que os modelos de fronteira americanos, dependendo do modelo com que compares. E o V4 Pro, o modelo completo com 1.6 triliões de parâmetros, compete directamente com o GPT-5.4 e o Claude Opus 4.6 em benchmarks de código e raciocínio.

Como é que o DeepSeek consegue isto? Três razões fundamentais.

A arquitectura Mixture-of-Experts permite que um modelo com 1.6 triliões de parâmetros active apenas 49 mil milhões em cada inferência, reduzindo drasticamente o compute necessário. O V4 introduziu mecanismos de atenção comprimida que reduzem a memória de KV cache em 9.5x a 13.7x comparado com o V3. E o treino em FP4 e FP8 reduz os requisitos de memória para armazenar os pesos do modelo.

Mas há uma razão mais profunda, e é esta que importa para a nossa discussão: o DeepSeek é open-weight. Os seus modelos estão disponíveis sob licença MIT. Qualquer provedor de inferência pode descarregá-los e servi-los. E múltiplos provedores independentes no OpenRouter servem o DeepSeek V3 e R1 a preços muito próximos dos da própria DeepSeek — o que significa que os preços do DeepSeek não são artificiais. Não são subsídios disfarçados. São o reflexo real do custo de servir um modelo bem optimizado.

E se os preços do DeepSeek são reais, isso levanta uma questão brutal para a OpenAI e a Anthropic: porque é que os vossos modelos custam 10x a 90x mais? A resposta tem duas componentes. A primeira é que os modelos proprietários americanos são, em muitos benchmarks, genuinamente superiores — especialmente em tarefas de raciocínio complexo multi-step. A segunda é que uma parte significativa do preço que pagas à OpenAI ou à Anthropic não é pelo custo de inferência — é pelo custo de treino, pela investigação, pelos salários de investigadores que ganham centenas de milhares de dólares por ano, pela infraestrutura, e sim, pela margem de lucro que financia tudo isto.

O DeepSeek demonstra que o custo marginal de servir tokens está a convergir para perto de zero. O que resta — e que alguém tem de pagar — é tudo o que vem antes do token ser servido.

A era do subsídio está a acabar — e os IPOs vão forçar a conversa

Há um evento que vai mudar tudo isto: os IPOs.

Tanto a Anthropic como a OpenAI estão a preparar ofertas públicas. A Anthropic contratou a Wilson Sonsini e está em conversações com Goldman Sachs e JPMorgan para um IPO potencialmente tão cedo quanto outubro de 2026, com avaliações que bancos estimam entre 400 e 800 mil milhões de dólares. A OpenAI procura uma avaliação na ordem do trilião de dólares.

Quando estas empresas passam a ser públicas, tudo muda. Investidores institucionais não aceitam perdas de 14 mil milhões por ano com a mesma paciência que venture capitalists. As demonstrações financeiras auditadas vão revelar exactamente quanto custa servir cada token, quanto se perde em utilizadores gratuitos, e qual é a verdadeira margem por linha de produto. E a pressão para mostrar um caminho credível para a rentabilidade vai ser imensa.

O Nick Turley, head do ChatGPT na OpenAI, já o admitiu publicamente num podcast: ter um plano ilimitado de IA é como ter um plano ilimitado de electricidade — simplesmente não faz sentido. A Anthropic já agiu: moveu-se de pricing flat-rate para facturação por token nos seus contratos enterprise, descontinuou os tipos de seat legacy, e implementou limites semanais no Claude Code que afectam os utilizadores mais intensivos.

A CNBC publicou uma análise em abril de 2026 que é particularmente lúcida sobre isto. Os tokens estão a tornar-se a métrica distorcida da indústria. A Jensen Huang, CEO da Nvidia, disse que ficaria alarmado se um engenheiro que ganha 500 mil dólares por ano não consumisse pelo menos 250 mil dólares em compute. A Meta e a Shopify criaram leaderboards internos que medem quantos tokens os funcionários consomem. O Ali Ghodsi, CEO da Databricks, pôs o dedo na ferida: quando o objectivo se torna queimar tokens, é fácil encontrar formas de queimar dinheiro.

O Eric Glyman, CEO da Ramp, reportou que os gastos em IA entre os clientes da Ramp cresceram 13x no último ano, e que ninguém sabe como orçamentar para isso. A ferramenta de tracking de tokens que a Ramp lançou existe precisamente porque as empresas estão a acordar para o facto de que os seus custos de IA são imprevisíveis — e artificialmente baixos.

O que isto significa para ti, que estás a construir em cima destas APIs

Se tens um produto que depende de APIs da OpenAI ou da Anthropic, há uma pergunta que devias estar a fazer e que provavelmente não estás: o meu modelo de negócio sobrevive a uma duplicação do preço dos tokens?

Porque essa duplicação não é um cenário hipotético. É o cenário base quando a torneira do venture capital fechar ou quando os investidores públicos pós-IPO exigirem margens reais. Segundo as análises que citei, os preços actuais estão subsidiados por um factor de 1.5x a 3x. Uma normalização gradual ao longo de 12 a 24 meses é o cenário mais provável — e foi exactamente o que o AI Automation Global projectou no seu relatório de março de 2026.

Concretamente, o que recomendo — e o que faço nos ambientes que opero:

Testa o teu P&L com preços de token a 2x e 3x dos actuais. Se o teu produto deixa de ser viável com tokens a 10 dólares por milhão de input em vez de 5, tens um problema estrutural que precisas de resolver antes que o mercado o resolva por ti.

Avalia seriamente modelos open-weight para as tuas workloads de volume. O DeepSeek V4 Flash a 0.14 dólares por milhão de tokens de input não é um modelo de brinquedo — compete com modelos que custam 20x mais. Para tarefas de classificação, triagem, extracção de entidades, e geração de texto standard, modelos open-weight servidos localmente ou por provedores independentes são mais do que suficientes. E são imunes a aumentos de preço decididos em São Francisco.

Implementa routing inteligente. O LiteLLM, que já cobri num post anterior, permite exactamente isto: enviar queries simples para modelos baratos e queries complexas para modelos de fronteira. A diferença de custo entre o DeepSeek Chat a 0.30 dólares por milhão de tokens e o Claude Opus 4.6 a 5 dólares é de 17x. Se 70% das tuas queries podem ser servidas pelo modelo barato — e para a maioria dos casos de uso podem — o teu custo médio por token cai drasticamente.

Considera seriamente o self-hosting para workloads de alto volume. A MindStudio estima que acima de 50 a 200 mil dólares mensais em chamadas API, correr a tua própria infraestrutura de inferência pode poupar mais de 50%. O break-even de self-hosting versus API está a descer à medida que o hardware melhora e os modelos open-weight se aproximam da fronteira. O que era impraticável há dois anos é agora uma decisão legítima de engenharia.

Monitoriza os teus custos de IA com a mesma disciplina que aplicas à tua infraestrutura cloud. O FinOps para IA está a emergir como disciplina porque os custos de inferência escalaram ao ponto de se tornarem uma das linhas de maior crescimento nos orçamentos de engenharia. Se não estás a medir custo por feature, custo por utilizador, e custo por workflow, estás a voar às cegas numa tempestade de preços que vai mudar.

A fantasia de que “os custos vão baixar naturalmente” — o muro energético desperta a cegueira colectiva…

Há uma narrativa reconfortante que circula nas apresentações de investidores e nos earnings calls das empresas de IA. É mais ou menos esta: “Sim, os custos actuais são altos e estamos a operar com prejuízo, mas a eficiência computacional melhora exponencialmente, os chips ficam mais baratos, e o custo por token vai convergir para quase zero. É só uma questão de tempo.”

É uma narrativa conveniente. E é uma narrativa que ignora completamente o elefante mais pesado da sala: a electricidade. Ou mais precisamente, a falta dela.

Porque podes optimizar a arquitectura do modelo quanto quiseres. Podes comprimir KV caches, treinar em FP4, usar Mixture-of-Experts para activar apenas uma fracção dos parâmetros. Tudo isto ajuda — e ajuda significativamente, como o DeepSeek demonstrou. Mas no final do dia, cada token que é gerado requer uma GPU a consumir electricidade, num data center que precisa de ser arrefecido, ligado a uma rede eléctrica que foi construída para um mundo onde a procura de electricidade crescia a menos de 1% ao ano.

Esse mundo acabou.

Os números que deviam tirar o sono a quem faz planos de negócio com IA

A Agência Internacional de Energia projecta que o consumo global de electricidade por data centers vai ultrapassar os 1000 TWh até ao final de 2026. Para pôr isto em perspectiva: é o equivalente ao consumo eléctrico total do Japão. O consumo duplicou em menos de quatro anos, um fenómeno sem precedente na história moderna da energia.

Nos Estados Unidos especificamente, a Bloom Energy estima que a procura total de energia por data centers vai quase duplicar de 80 GW em 2025 para 150 GW em 2028. O Departamento de Energia dos EUA prevê que os data centers possam consumir até 12% de toda a electricidade nacional até 2030. Não estamos a falar de uma tendência gradual — estamos a falar de um choque energético concentrado em regiões específicas, sobre infraestrutura que em 70% dos casos está a aproximar-se do fim do seu ciclo de vida útil.

E aqui está o problema que torna a narrativa de “os custos vão baixar” particularmente irreal até alguém inventar algum tipo novo de fonte energética que seja rápida de implementar, segura e ao mesmo tempo muito barata: mesmo que cada chip individual se torne mais eficiente por watt, a procura total de compute está a crescer mais depressa do que a eficiência melhora. Chips melhores não significam menos electricidade no total — significam mais capacidade instalada, mais modelos em produção, mais agentes a correr 24/7, e no final, mais watts consumidos. É o paradoxo de Jevons aplicado à IA: quando tornas algo mais eficiente, as pessoas usam mais, e o consumo total aumenta.

O caso PJM: quando a IA aumenta a tua conta de electricidade

Se achas que isto é teórico, deixa-me falar-te do que está a acontecer agora mesmo no PJM Interconnection — o maior operador de rede eléctrica dos Estados Unidos, que serve 65 milhões de pessoas em 13 estados.

Os preços no mercado de capacidade do PJM — o mecanismo que garante que existem centrais eléctricas suficientes para satisfazer a procura — subiram de 28.92 dólares por megawatt-dia no período 2024-2025 para 329.17 dólares por megawatt-dia no período 2026-2027. Isto é um aumento de mais de 10 vezes. Segundo a Monitoring Analytics, o monitor independente do mercado do PJM, os data centers foram responsáveis por 63% deste aumento de preços — o que se traduz em 9.3 mil milhões de dólares em custos adicionais que são recuperados através de facturas de electricidade mais altas para todos os consumidores da região.

Lê outra vez: 9.3 mil milhões de dólares num único ano que os consumidores domésticos pagam a mais na conta da luz por causa dos data centers de IA.

O NRDC estima que os custos cumulativos adicionais para os consumidores do PJM podem atingir entre 100 e 163 mil milhões de dólares até 2033. A família média na região enfrenta um aumento estimado de 70 dólares por mês na factura eléctrica até 2028. Em Washington D.C., os clientes da Pepco já viram as suas facturas subir 21 dólares por mês, dos quais cerca de 10 dólares são directamente atribuíveis ao aumento dos preços de capacidade causado pelos data centers.

E o mais grave: pela primeira vez na sua história, o PJM não conseguiu garantir capacidade suficiente no leilão de capacidade para cumprir a sua margem de reserva de fiabilidade. A rede eléctrica da região está cheia. Os data centers estão a ligar-se à rede mais depressa do que é possível construir novas fontes de geração. Segundo o próprio PJM, a região pode cair abaixo dos standards de fiabilidade já em junho de 2027 — o que significa risco real de blackouts rotativos durante tempestades de inverno e ondas de calor.

A Governadora da Virgínia, Abigail Spanberger, juntou-se a uma coligação bipartidária de governadores em abril de 2026 para exigir que o PJM garanta que os data centers paguem a sua parte justa dos custos de infraestrutura energética. A Virgínia — conhecida como “Data Center Alley” — aprovou uma nova classe tarifária para hyperscalers que entra em vigor em janeiro de 2027. O Oregon tornou-se o primeiro estado a criar uma classe tarifária dedicada para data centers. Pelo menos seis estados introduziram moratórias de construção de data centers.

Isto não são sinais de uma indústria cujos custos estão a baixar. São sinais de uma indústria que está a atingir os limites físicos da infraestrutura que a suporta.

O tempo de construção é o verdadeiro bottleneck

E aqui está o detalhe que mata a narrativa optimista: o tempo de construção.

Um data center pode ser construído em dois a três anos. Uma central eléctrica demora cinco a dez anos, entre licenciamento, construção, e ligação à rede. Novas linhas de transmissão demoram ainda mais. Os fabricantes de turbinas a gás têm as carteiras de encomendas cheias — o tempo de espera actual para uma nova turbina ultrapassa os cinco anos. E os projectos de energia renovável, que são mais rápidos de construir, enfrentam filas de ligação à rede no PJM que ultrapassam os 85 GW — mais de 100 GW de capacidade à espera de aprovação para se ligar.

A CNN reportou em abril de 2026 o que qualquer engenheiro de infraestrutura sabe: a rede eléctrica dos Estados Unidos é velha, fragmentada, e não foi desenhada para este tipo de crescimento. É uma colecção de três redes semi-conectadas — Este, Oeste, e Texas — construída maioritariamente entre os anos 50 e 70. E 70% dessa infraestrutura está a aproximar-se do fim da sua vida útil.

Mesmo que as empresas de IA quisessem resolver o problema energético com dinheiro — e têm dinheiro para isso, em teoria — não conseguem comprimir as leis da física e os processos de licenciamento. Não podes construir uma central nuclear em dois anos. Não podes duplicar a capacidade de transmissão de uma região num trimestre. Não podes plantar uma subestação como quem planta uma rack de servidores.

O resultado é que a expansão de capacidade de compute está limitada não pela tecnologia dos chips, não pelo preço das GPUs, e não pela vontade dos investidores — mas pela capacidade física da rede eléctrica de entregar watts às máquinas que precisam deles. E essa limitação não se resolve com software, não se resolve com optimização de modelos, e não se resolve com rondas de financiamento.

O que isto significa para o custo do token a médio prazo

Juntando tudo: os custos de electricidade estão a subir, não a descer. Os preços de capacidade no maior mercado eléctrico dos EUA multiplicaram-se por 10 em dois anos. Vários estados estão a criar novas classes tarifárias e a impor taxas de impacto sobre data centers. As energias renováveis não conseguem acompanhar o ritmo de crescimento da procura. E a infraestrutura de rede eléctrica tem bottlenecks de construção de 5 a 10 anos.

Quando ouves um CEO de uma empresa de IA dizer que “os custos por token vão continuar a cair”, pergunta-lhe de onde vem a electricidade para servir esses tokens. Porque a resposta, em muitas regiões dos Estados Unidos e da Europa, é: ninguém sabe. A procura cresce exponencialmente. A oferta cresce linearmente, quando cresce. E a diferença entre exponencial e linear é exactamente onde se esconde o aumento de custos que ninguém está a incluir nos seus modelos financeiros.

A eficiência computacional melhora? Melhora. As arquitecturas MoE reduzem o compute por token? Reduzem. Mas nada disto anula o facto de que estamos a tentar alimentar uma indústria com uma fome energética sem precedentes numa rede eléctrica que foi construída para um mundo que já não existe.

E isso, para quem está a construir produtos e negócios em cima de IA, é talvez o risco mais subestimado de todos.

Venture capital não é um modelo de pricing

Há uma coisa que aprendi ao longo de muitos anos a operar infraestrutura, e que se aplica directamente a esta situação: o preço que pagas hoje por um serviço subsidiado não é o preço que vais pagar amanhã. Isto é verdade para cloud computing, para SaaS, para telecomunicações, e agora para IA.

Quando a Amazon lançou o AWS, os preços eram quase predatórios. Quando o Uber lançou, as viagens eram absurdamente baratas. Quando o WeWork oferecia escritórios, os preços desafiavam a realidade. Em todos estes casos, os preços iniciais foram financiados por venture capital com a expectativa de que o volume compensaria as margens. Em alguns casos compensou — o AWS é hoje um negócio extraordinariamente rentável. Em outros não — pergunta ao WeWork como correu.

A IA está no mesmo ponto da curva. Os preços actuais dos tokens são preços de conquista de mercado, não preços de equilíbrio. São financiados por rondas de investimento que totalizam mais de 200 mil milhões de dólares só em 2025. E quando o dinheiro parar de fluir — ou quando os mercados públicos exigirem retorno — os preços vão ajustar-se.

A questão não é se os preços vão subir. É quando, quanto, e se o teu negócio está preparado para isso.

Eu sei que este tipo de post não é o mais popular. As pessoas preferem posts sobre o modelo novo que saiu, sobre a feature nova que ficou disponível, sobre o benchmark que bateu o recorde. Mas a realidade financeira desta indústria é mais importante do que qualquer benchmark, porque é ela que vai determinar se daqui a dois anos ainda podes construir o que estás a construir ao preço a que estás a construir.

Espero que tenham gostado do post. Como sempre, se acharem alguma coisa fora do sítio, ou que denote reparo, já sabem onde me encontrar.
Um abraço. Nuno

Fontes e leitura adicional:

  • Martin Alderson, “Are OpenAI and Anthropic Really Losing Money on Inference?” (agosto 2025): https://martinalderson.com/posts/are-openai-and-anthropic-really-losing-money-on-inference/
  • Martin Alderson, “No, it doesn’t cost Anthropic $5k per Claude Code user” (março 2026): https://martinalderson.com/posts/no-it-doesnt-cost-anthropic-5k-per-claude-code-user/
  • CNBC, “AI demand is inflated, and only Anthropic is being realistic” (abril 2026): https://www.cnbc.com/2026/04/17/ai-tokens-anthropic-openai-nvidia.html
  • Uncover Alpha, “The Era of Subsidized AI Model Usage is Over” (abril 2026): https://www.uncoveralpha.com/p/the-era-of-subsidized-ai-model-usage
  • AI Automation Global, “OpenAI Lost $5B on $3.7B Revenue: The AI Inference Cost Crisis” (março 2026): https://aiautomationglobal.com/blog/ai-inference-cost-crisis-openai-economics-2026
  • SaaStr, “Anthropic Just Passed OpenAI in Revenue” (abril 2026): https://www.saastr.com/anthropic-just-passed-openai-in-revenue-while-spending-4x-less-to-train-their-models/
  • The Information / Yahoo Finance, “OpenAI’s own forecast predicts $14 billion loss in 2026” (janeiro 2026): https://finance.yahoo.com/news/openais-own-forecast-predicts-14-150445813.html
  • RD World Online, “Facing $14B losses in 2026, OpenAI is now seeking $100B in funding” (janeiro 2026): https://www.rdworldonline.com/facing-14b-losses-in-2026-openai-is-now-seeking-100b-in-funding-but-can-it-ever-turn-a-profit/
  • Oplexa, “AI Inference Cost Crisis 2026” (março 2026): https://oplexa.com/ai-inference-cost-crisis-2026/
  • IEA, “Energy demand from AI” (2026): https://www.iea.org/reports/energy-and-ai/energy-demand-from-ai
  • Tech Insider, “The AI Data Center Power Crisis” (abril 2026): https://tech-insider.org/ai-data-center-power-crisis-2026/
  • CNN, “There are fixes for AI’s toll on the power grid. Here’s why they’re not happening” (abril 2026): https://www.cnn.com/2026/04/23/business/ai-compute-power-electricity-grid
  • IEEFA, “Projected data center growth spurs PJM capacity prices by factor of 10” (julho 2025): https://ieefa.org/resources/projected-data-center-growth-spurs-pjm-capacity-prices-factor-10
  • Introl Blog, “PJM $100B Rate Shock: Data Centers vs Ratepayers” (fevereiro 2026): https://introl.com/blog/pjm-rate-shock-100-billion-data-center-electricity-2026
  • NRDC, “Rising Demand from Data Centers Driving Reliability, Cost Concerns” (novembro 2025): https://www.nrdc.org/press-releases/rising-demand-data-centers-driving-reliability-cost-concerns
  • American Action Forum, “Virginia’s New Data Center Electricity Rate Class” (janeiro 2026): https://www.americanactionforum.org/insight/virginias-new-data-center-electricity-rate-class/
  • American Action Forum, “Emergency Energy Auction to Prevent Data Center-driven Rate Increases” (janeiro 2026): https://www.americanactionforum.org/insight/emergency-energy-auction-to-prevent-data-center-driven-rate-increases/
  • Governor of Virginia, “Spanberger joins bipartisan coalition on PJM energy affordability” (abril 2026): https://www.governor.virginia.gov/newsroom/news-releases/2026/april-releases/name-1116140-en.html
  • Utility Dive, “Solving PJM’s data center problem” (dezembro 2025): https://www.utilitydive.com/news/solving-pjms-data-center-problem/805600/