Chunking: o que funciona de verdade

Uma das coisas que mais se tem falado desde que o Google publicou seu guia de otimizações e melhores práticas para SEO na era de buscas em LLM (onde, como belamente dito pelo Google, é tudo SEO), é o chunking. Essa tática, ou comportamento, ainda está sendo defendido por alguns consultores de SEO como uma das best practices. E eu tô aqui para explicar porque esse debate tá errado.

O que é o chunking na prática

Chunking é uma técnica de processamento de linguagem natural – pelo menos, nesse contexto de LLM. É um verbo que vem da palavra “chunk”, naco, pedaço. Uma tradução possível seria “empedaçar”. Basicamente, o conceito, como tem sido vendido pelos GEO bro’s, diz respeito a escrever de forma agrupada, em “nacos” de informação facilmente digeríveis por IA’s e LLM’s.

O que é uma grande bobagem. Para entender como os chunkings – que realmente funcionam e existem, só não dessa forma no Processamento de Linguagem Natural (não confunda com programação neurolinguística, por favor), ou PLN – é necessário dar uma volta pela história de desenvolvimento de programas de PLN. Uma história, indiretamente, dos LLMs.

Chunking no PLN

No PLN o Chunking é um processo de agrupamento de palavras para processamento. Desde os n-grams já vinham sendo estudadas várias formas de processar grandes conjuntos de dados. Lei de Zipf, n-grams, Bag-Of-Words, todos esses são conceitos necessários do PLN que você pode (ou não) já ter ouvido falar. No embbed – quando vetorizamos um texto em n dimensões – os chunks servem para dar uma maior precisão em um termo ao pegarmos kwics (keywords in context).

O chunking surgiu como um ganho exponencial de produtividade depois que os modelos de embbed começaram a pipocar pelo Arxiv. É uma técnica que agrupa um pedaço do texto e mede a sua vetorização como um todo, usando grupos de tokens e tirando sua média. Uma representação visual de chunking em contextos de PLN seria mais ou menos assim:

O chunking não é novo

Em várias patentes o Google já vinha mostrando uma certa predisposição para fazer uma recuperação de informação através de chunking de alguns documentos. O Mark Williams-Cook, por exemplo, tem uma extensa coleção de exemplos de metadescrições que foram reescritas em páginas a partir de trechos do texto (o que você pode associar com os chunks) mais adequados à uma querie.

Onde os GEO bro’s estão errando

O problema maior dos GEO bro’s é basicamente julgar que eles sabem o tamanho de um chunk para o processamento ou como ele será vetorizado. Para uma otimização ser realmente baseada em chunks, ela precisa ser profundamente diferente do que a experiência tem ditado que ela é:

O que os GEO bros precisam

Noção real do tamanho da janela de contexto dos LLM’s do Google;
Noção das dimensões e dos modelos que estão embedando os chunks;
Alguma ideia da média de chunks e alinhamento semântico da concorrência.

O que eles tem

Uma vaga ideia dos top 5 textos da concorrência baseado em análise de SERP;
Uma comparação entre parágrafo = chunk;
Uma impressão totalmente equivocada de que a resposta de um LLM vai puxar exatamente o que ele acha que é um chunk.

O resultado desse mix macabro

Honestamente, não tem como isso funcionar. Dentro do que eles precisam, tudo é proprietário do código – você não vai ver isso em nenhum exploit ou de API do Google. Se eu for desmentir um por um os pontos que eles assumem como verdade, eu seguiria uma linha mais ou menos assim:

Janela de atenção do ser humano

Numa análise, nenhum ser humano vai analisar múltiplos textos – e por múltiplos, leia mais de cinco. Raramente mais de três. Digo isso porque os funcionários são preguiçosos? Não, mas porque eles tem, normalmente, mais de um cliente, oito horas por dia, múltiplas outras tarefas que tomam atenção, tempo e energia, três recursos que temos cada vez menos.

Consequentemente ninguém vai estar analisando o match de chunks de cada texto do concorrente versos o seu. A ideia de que o top 5 é o que o Google gosta é fundamentalmente errada. Esses 5 são também influenciados por backlinks, internal linking, tempo de existência, match com perfis de usuários por IP, e claro, não são os analisados pelo QFO da LLM.

Parágrafo não é o mesmo que Chunk

A ideia de que o parágrafo de um texto vai ser um equivalente ao chunk? Besteira. Isso é o comportamento típico de que porque dois conceitos são parecidos eles são equivalentes. Um parágrafo é uma unidade textual do texto escrito. Um chunk está associado ao volume da janela de atenção de um LLM + pistas textuais. Vamos dizer que eu escreva um texto assim:

Casar pode ser a maior alegria da sua vida. Uma pessoa ao seu lado, uma festa com seus amados, um vestido lindo ou um terno estiloso e muita comida boa.

Ou não, pode ser horrível.

Para garantir que o último não aconteça, a Loja de Casamentos vai te ajudar…

Nesse caso, o chunk poderia muito bem pegar os dois primeiros parágrafos e dar a ele uma pontuação semântica no embbed que vai dizer, basicamente, que o trecho é ambíguo quanto à dimensão “qualidade do casamento” e o segundo é mais próximo do conceito de “venda”. O que importa é muito mais se o chunk está coerente entre si – ou seja, não pega tokens externos – e a janela de atenção do algoritmo. Ambas coisas que você, SEO, tem zero controle.

Como consequência, você não controla o que vai

O LLM pode puxar exatamente, palavra-por-palavra, o que você postou no seu site ou se esforçou para colocar nos seus PRs e backlinks. Ambas as abordagens são válidas e dialogam com o fator estatístico de como um LLM gera o conteúdo. Porém as respostas de um LLM não virão exatamente iguais aos chunks que consome, não possui nenhum compromisso de fazer isso e, francamente, afirmar o contrário é só um grande desconhecimento de como a coisa funciona.

Para você entender, volte à imagem. Está vendo que cada dimensão tem um número? Vamos simplificar isso e usar a famosa analogia da rainha. Em um gráfico com um eixo X de “realeza” e um eixo Y de “gênero”, temos no topo do eixo X o máximo da realeza, e no fundo, o máximo da subserviência. No de gênero, temos feminino à esquerda, masculino à direita. Nessa situação, o ponto do rei estaria no extremo superior direito, a rainha no superior esquerdo, a escravizada no inferior esquerdo, o escravizado no inferior direito. Matematicamente eles estariam representados com a notação (Xvalor, Yvalor).

Só que você nota que o valor Y vai ser o mesmo para a rainha e a escravizada, e o valor X vai ser o mesmo para a rainha e o rei? É assim que um LLM nota o token: uma série de direções e escolhendo a mais provável com base no seu treino e feedbacks recebidos. As vezes isso significa puxar exatamente, palavra-por-palavra, o que você deu? Sim. Mas você sabe como e em que condições? Não.

Algumas recomendações práticas

Chunking é uma técnica de PLN, não uma tática de criação de conteúdo. Ter isso em mente vai ajudar o gestor a não se preocupar com mais um hot topic da semana, o criador de conteúdo a tentar continuar fazendo bons materiais e o GEO bro continua tentando prospectar, situação que eu não quero que ele pare nunca (cada GEO bro triste é um Victor feliz).

Porém, eu concordo com o Willian Porto: esse papo de que o Google gosta de conteúdo útil é balela. Medir utilidade é através de métricas também falsificáveis por um desenvolvedor experiente. O que eu faria, honestamente, é ser mais preocupado com o quanto uma unidade de informação está bem amarrada e coerente no conteúdo. Isso eu sinto confiança em dizer que influencia o chunking.

Basicamente você quer definições bem amarradas que não se contradigam no conteúdo. Esse conteúdo mesmo faz isso. Eu digo lá em cima que “No PLN o Chunking é um processo de agrupamento de palavras para processamento.” e nesse mesmo H2, afirmo que “Chunking é uma técnica de PLN, não uma tática de criação de conteúdo”. Ambos dizem a mesma coisa, com palavras diferentes, o segundo acrescentando uma camada de oposição que o primeiro não tem, mas que, por sua vez, é mais detalhado tecnicamente do que o segundo.

Eu vou dizer que escrevi isso pensando em chunking? Não. Escrevi com a mentalidade de um bom redator, um jornalista de formação. O que muitas vezes a gente esquece é que todos esses sistemas tentam replicar o que aprendemos instintivamente e com uma finesse muito maior do que o sistema mais moderno consegue entregar: passar ideias com coerência, coesão e qualidade.

Chunking não é o que você pensa: o que o Google disse, o que estão vendendo, o que você precisa saber