O colapso dos custos de inferência de IA

O custo de executar um modelo de IA com qualidade equivalente ao GPT-3.5 caiu de cerca de 20 USD por milhão de tokens no final de 2022 para aproximadamente 0,07 USD por milhão de tokens em outubro de 2024 — uma redução de mais de 280 vezes em cerca de 18 meses. A IA capaz tornou-se drasticamente mais barata de implementar.

20 $/M tokensNov 20220.07 $/M tokensOct 2024
Custo de consultar um modelo de nível GPT-3.5, USD por milhão de tokens (Stanford AI Index 2025).

Source: Stanford HAI — AI Index 2025: State of AI in 10 Charts (2025)

What it means

Uma queda de 280 vezes no custo da IA capaz em menos de dois anos é a razão pela qual aplicações que eram antieconómicas em 2023 — analisar cada registo de manutenção, cada fluxo de sensores, cada imagem de qualidade — são agora acessíveis para correr em contínuo. Para um operador, a mensagem prática é que a barreira orçamental para aplicar IA em todas as operações praticamente desapareceu.

Context

O Stanford AI Index acompanha o preço de atingir um limiar de qualidade fixo (cerca de 64,8% no benchmark MMLU) em vez do preço de um único modelo nomeado. Consoante a tarefa, o relatório constata que os preços de inferência caem entre 9 e 900 vezes por ano. Como a métrica mantém a qualidade fixa enquanto o hardware e os modelos melhoram, capta ganhos económicos genuínos em vez de simples descontos.

Related charts

Related topics

All industrial data & charts →