Seu Nome Não Existe Para a IA | Vishva Vidya

# Seu nome não existe para a IA

*Temporada 2, Episódio 1 — IA e Vedānta*

Bem-vindos de volta. Se você acompanhou a primeira temporada desta série, fez uma viagem completa: começamos entendendo o que é um Large Language Model, aquele motor gigante que devora texto e gera respostas. Passamos pela janela de contexto — a memória de curto prazo da IA, que esquece tudo quando enche. Vimos as alucinações, quando a máquina inventa fatos com a cara mais séria do mundo. Descobrimos que o treinamento funciona como saṃskāra, impressões profundas que moldam comportamento. Aprendemos sobre fine-tuning, alinhamento, o problema de controlar algo que você não entende completamente. E terminamos com uma pergunta que ficou no ar: quem é o observador de tudo isso?

A temporada 2 começa com algo que vai mudar a forma como você pensa sobre linguagem. Pronto?

Quando você digita "strawberry" — morango, em inglês — pra uma IA, o que ela vê? Não é a palavra "strawberry". Ela vê algo como "Str", "aw", "berry". Três pedaços. Três tokens. E é por isso que, quando você pede pra ela contar quantas letras "r" tem em "strawberry", ela erra. Porque ela nunca viu a palavra inteira. Ela vê pedaços.

Isso se chama tokenização. É o primeiro passo de tudo que uma IA faz com texto. Antes de entender, antes de gerar, antes de qualquer coisa — ela fatia. Transforma a linguagem humana em pedacinhos que cabem no seu sistema de processamento.

O método mais comum pra fazer isso tem um nome bonito: BPE, Byte Pair Encoding. Funciona assim — imagine que a IA olha pra um texto gigantesco, bilhões de palavras, e começa vendo cada caractere como uma unidade separada. A letra "a" é um token. A letra "b" é outro. Depois, ela vai procurando quais pares aparecem mais juntos. "th" aparece muito em inglês? Gruda num token só. "the" aparece mais ainda? Vira um token único. Ela vai fundindo pares frequentes até criar um vocabulário de mais ou menos cinquenta mil tokens.

Resultado: palavras comuns viram um token só. "The" é um token. "Hello" é um token. Mas palavras raras ou longas são fatiadas sem piedade. "Pneumoultramicroscopicossilicovulcanoconiótico" — aquela palavra gigante da medicina — pode virar quinze tokens diferentes. E aqui tem um detalhe que pouca gente sabe: essa fatiação não é a mesma em todas as línguas. Português tem mais tokens por frase que inglês. Uma frase de vinte palavras em português pode gastar o dobro de tokens que a mesma frase em inglês. Isso significa que conversar com a IA em português literalmente custa mais caro e gasta mais memória de contexto.

Cada vez que você manda uma mensagem pro ChatGPT, ela é primeiro picotada em tokens. A resposta é gerada token por token — aquele efeito de digitação que você vê não é estilo, é o modelo cuspindo um pedacinho de cada vez. Quando a IA "trava" no meio de uma resposta? Ela está calculando o próximo token. Quando ela faz um trocadilho ruim? Provavelmente é porque a piada depende de ver a palavra inteira, e ela só vê fragmentos.

Agora, o que é curioso — e aqui entra algo que os filósofos indianos já pensavam milênios atrás. Na tradição do Vedānta, existe um conceito chamado nāma-rūpa — nome e forma. A ideia é simples e profunda ao mesmo tempo: tudo que percebemos é filtrado pelo nome que damos e pela forma que enxergamos. Você vê um "morango" porque sua mente recortou a realidade contínua em um objeto separado, deu um nome, e disse "isso é uma coisa". Mas na base, não existem divisões. As fronteiras são invenção da mente.

A IA faz algo parecido, mas ao contrário. Ela desfaz as divisões que nós criamos. Onde você vê "strawberry" — uma unidade com significado — ela vê "Str", "aw", "berry". Fragmentos sem significado individual. É como se ela ignorasse completamente o nāma, o nome, e visse só pedaços arbitrários de rūpa, forma.

Isso levanta uma pergunta incômoda: se até a IA não vê o mundo como nós, será que as divisões que fazemos — entre palavras, entre objetos, entre "eu" e "você" — são tão reais quanto parecem? Ou são apenas tokens convenientes que inventamos pra processar uma realidade que, no fundo, é contínua?

Se a IA não vê palavras como nós... o que mais ela vê diferente? No próximo episódio, vamos descobrir que a IA tem medo de morrer. E não é metáfora.