Gargalo da IA generativa não é o chip, é a memória

Os números de contexto são claros. Nas últimas duas décadas, o poder de computação cresceu 60 mil vezes. A largura de banda da memória DRAM cresceu 100 vezes. A banda de interconexão entre chips cresceu 30 vezes. Processadores ficam ociosos porque dados não chegam da memória rápido o bastante. Não importa a velocidade do chip se ele não recebe informação no ritmo necessário.

Modelos de linguagem do tipo decoder, como GPT e Claude, sofrem mais porque têm intensidade aritmética baixa: fazem poucas operações para cada byte movido. Na inferência, acesso ao cache de chave-valor e carregamento de pesos dominam a latência. No treinamento, memória necessária é três a quatro vezes o tamanho do modelo por causa das ativações e estados do otimizador. Quando o modelo não cabe num acelerador, pesos e caches precisam ser transferidos entre GPUs, o que é lento.

Data center e edge: escalas diferentes, problema igual

Nos data centers, a resposta da indústria tem sido empilhar mais GPUs, mais memória HBM e conexões mais rápidas. Funciona, mas a custo alto e com retorno menor a cada rodada. Na ponta, a situação é pior. Limites de energia, custo e temperatura significam que não existe solução boa para rodar modelos grandes localmente. A largura de banda de memória não escala para baixo como o poder de processamento.

Quando se olha para o custo real de operar um modelo, memória domina: carregamento de pesos, armazenamento de ativações, movimentação do cache e comunicação entre GPUs. Juntos, esses itens respondem por fatia crescente da latência, do consumo de energia e do gasto com infraestrutura. Os próximos avanços reais em IA generativa não virão de chips mais rápidos. Virão de arquiteturas centradas em memória e de movimentação de dados mais inteligente.

Fonte: Anil Shanbhag et al., “The Memory Wall in AI: A Technical Analysis”, artigo apresentado no ISSCC 2025; dados complementares de relatórios públicos da Nvidia e da Micron Technology.