Teoria da Informação

O que é teoria da informação?

Teoria da informação (information theory) é o estudo matemático da incerteza (uncertainty), informação e compressão (compression). Em IA (AI) e aprendizado de máquina (machine learning), ela fornece:

  • Quantidades que medem incerteza e dependência (por exemplo, entropia (entropy), informação mútua (mutual information))
  • Princípios que conectam probabilidade à compressão (por exemplo, “modelos melhores comprimem melhor”)
  • Objetivos que aparecem diretamente no aprendizado (por exemplo, perda de entropia cruzada (cross-entropy), regularização por KL (KL regularization))
  • Limites do que é possível (por exemplo, capacidade do canal (channel capacity), compromissos taxa–distorção (rate–distortion trade-offs))

Um modelo mental útil é:

Um modelo probabilístico atribui probabilidades a resultados.
Essas probabilidades implicam um comprimento de código ideal (ideal code length) para descrever resultados.
Aprender um modelo muitas vezes é equivalente a encontrar probabilidades que levam a descrições curtas.

A teoria da informação se encaixa naturalmente ao lado de Probabilidade e Estatística (que fornece distribuições e inferência) e de Otimização (que fornece a maquinaria para ajustar modelos minimizando perdas informacionais).

Para definições e fórmulas centrais, veja o aprofundamento: Entropia, KL, Informação Mútua.

Compressão como o “significado operacional” da probabilidade

De probabilidade a comprimento de código

Suponha que um modelo atribua probabilidade (p(x)) a um resultado (x). As ideias de codificação de fonte de Shannon mostram que um código ótimo (livre de prefixo (prefix-free)) pode atingir um comprimento médio de código próximo de:

[ \ell(x) \approx -\log_2 p(x) \quad \text{bits} ]

Logo:

  • Eventos de alta probabilidade recebem códigos curtos
  • Eventos de baixa probabilidade recebem códigos longos

Isso conecta modelagem à compressão: se o seu modelo atribui boas probabilidades aos dados reais, ele consegue comprimir esses dados bem.

Um exemplo concreto (lançamentos de moeda)

Se uma moeda é justa, (p(H)=p(T)=0.5), então (-\log_2 0.5 = 1) bit por lançamento.

Se uma moeda é viciada, digamos (p(H)=0.9), então “cara” pode ser codificada com menos bits em média do que “coroa”, e a quantidade média de bits por lançamento cai abaixo de 1. A queda é capturada exatamente pela entropia.

Por que pessoas de ML se importam

Muitos objetivos de ML são “objetivos de compressão” disfarçados:

  • O treinamento por máxima verossimilhança (maximum likelihood) de um classificador é equivalente a minimizar a log-verossimilhança negativa (negative log-likelihood) média, isto é, o comprimento de código esperado.
  • A perda de entropia cruzada (usada em toda parte em classificação e modelagem de linguagem) mede quantos bits extras você gasta ao codificar dados com a distribuição errada.

Esse é um dos motivos pelos quais a entropia cruzada é tão central em Redes Neurais e em Arquitetura Transformer: não é apenas conveniente — ela está ligada a um princípio de otimalidade.

Quantidades centrais (visão geral)

A teoria da informação tem algumas quantidades que aparecem repetidamente em IA:

  • Entropia (H(X)): incerteza de uma variável aleatória; mínimo de bits médios para codificá-la.
  • Entropia cruzada (H(p, q)): comprimento de código esperado quando os dados seguem (p), mas você codifica usando o modelo (q).
  • Divergência KL (D_{\mathrm{KL}}(p|q)): “bits extras” por usar (q) em vez de (p).
  • Informação mútua (I(X;Y)): quanto saber (X) reduz a incerteza sobre (Y) (dependência).
  • Entropia condicional (H(Y|X)): incerteza remanescente em (Y) após observar (X).

Elas são cobertas em detalhe em: Entropia, KL, Informação Mútua. Aqui, focamos em como essas ideias impulsionam aprendizado e representação.

Aprendizado como compressão: funções de perda por uma lente informacional

Log-verossimilhança negativa e entropia cruzada

Se seu conjunto de dados é ({(x_i, y_i)}), um classificador probabilístico modela (q_\theta(y|x)). O objetivo padrão de treinamento é:

[ \min_\theta ; -\sum_i \log q_\theta(y_i|x_i) ]

Isso é ao mesmo tempo:

  • estimação por máxima verossimilhança (visão estatística)
  • mínimo comprimento de código esperado para rótulos dado os inputs (visão informacional)

Em bibliotecas de aprendizado profundo, isso é a “perda de entropia cruzada”. Ela é fundamental para aprendizado supervisionado e modelagem de linguagem (log-probabilidade negativa por token).

Perplexidade (modelos de linguagem)

Em modelagem de linguagem, frequentemente reportamos perplexidade (perplexity):

[ \text{PPL} = 2^{H} \quad \text{where } H = \text{average negative log}_2 \text{ likelihood per token} ]

A perplexidade é interpretável como o “fator de ramificação efetivo”: menor perplexidade significa menos próximos tokens plausíveis, em média — de forma equivalente, melhor compressão de texto.

Divergência KL como regularização (e como restrição)

A divergência KL aparece frequentemente como um regularizador (regularizer) que mantém uma distribuição aprendida próxima de uma distribuição a priori ou de referência:

  • Inferência variacional (variational inference): minimizar (D_{\mathrm{KL}}(q(z)|p(z|x))) indiretamente via o limite inferior da evidência (ELBO, evidence lower bound).
  • Otimização de políticas em aprendizado por reforço (reinforcement learning, RL): manter uma nova política próxima de uma antiga via restrições por KL.
  • Controle de mudança de distribuição (distribution shift): penalizar a divergência entre um modelo e uma linha de base.

Isso faz ponte com raciocínio e decisões bayesianas: Teoria da Decisão Bayesiana.

Aprendizado de representações como gerenciamento de informação

Uma representação (Z=f(X)) é “boa” quando captura o que você precisa, enquanto descarta o que você não precisa. A teoria da informação formaliza essa tensão.

A ideia do Gargalo de Informação

O princípio do Gargalo de Informação (Information Bottleneck) formula o aprendizado de representações como:

  • Manter (Z) informativo sobre o alvo (Y): maximizar (I(Z;Y))
  • Tornar (Z) compacto / invariante limitando a informação de (X): minimizar (I(Z;X))

Isso leva a um objetivo como:

[ \max ; I(Z;Y) - \beta I(Z;X) ]

Interpretação:

  • (I(Z;X)) mede quanto detalhe do input é retido (capacidade/complexidade).
  • (I(Z;Y)) mede informação relevante para a tarefa.

Essa visão motiva muitas práticas modernas: adicionar ruído, gargalos, restrições do tipo dropout (dropout-like) e arquiteturas conscientes de compressão.

Autoencoders Variacionais (Variational Autoencoders, VAEs): um gargalo prático

Um VAE aprende:

  • um codificador (encoder) (q_\phi(z|x))
  • um decodificador (decoder) (p_\theta(x|z))
  • uma distribuição a priori (prior) (p(z))

O objetivo do VAE (ELBO) é:

[ \mathbb{E}{q\phi(z|x)}[\log p_\theta(x|z)] ;-; D_{\mathrm{KL}}(q_\phi(z|x)|p(z)) ]

Leitura pela teoria da informação:

  • O termo de reconstrução incentiva (z) a manter informação para reconstruir (x).
  • O termo KL limita quanta informação pode ser armazenada em (z) (uma pressão de compressão).

Essa conexão ajuda a explicar fenômenos como “colapso posterior (posterior collapse)” e por que ajustar (\beta) em (\beta)-VAEs muda o desemaranhamento e a capacidade.

Aprendizado contrastivo e informação mútua (InfoNCE)

Métodos auto-supervisionados (self-supervised) frequentemente tentam aprender representações que tornem “pares correspondentes” (por exemplo, duas visões aumentadas da mesma imagem) semelhantes. Muitas dessas perdas (por exemplo, InfoNCE) são motivadas como limites inferiores da informação mútua entre visões.

Mesmo quando a interpretação estrita de IM pode ser sutil, a conclusão prática é consistente:

  • Aprender (Z) que preserva estrutura compartilhada entre visões (conteúdo)
  • Descartar variação irrelevante introduzida por aumentos

Isso conecta a qualidade da representação a quanta estrutura previsível é retida.

Incerteza em IA: entropia como medida prática

A entropia fornece um controle numérico direto sobre “quão incerto” um modelo está.

Entropia preditiva para classificação

Dadas probabilidades previstas (p(y|x)), a entropia preditiva (predictive entropy) é:

[ H(Y|x) = -\sum_y p(y|x)\log p(y|x) ]

  • Baixa entropia: previsão confiante
  • Alta entropia: previsão incerta

Isso é amplamente usado em:

  • Aprendizado ativo (consultar pontos incertos)
  • Detecção fora da distribuição (out-of-distribution, OOD) (com ressalvas)
  • Triagem de saídas do modelo para revisão humana

Incerteza aleatória vs epistêmica (brevemente)

A entropia de uma única saída softmax (softmax) mistura fontes de incerteza. Para separá-las, praticantes frequentemente usam ensembles (ensembles) ou métodos bayesianos aproximados:

  • Aleatória (aleatoric): ruído inerente nos dados (irredutível)
  • Epistêmica (epistemic): incerteza sobre os parâmetros do modelo (redutível com mais dados)

A entropia ainda tem um papel, mas muitas vezes você a computa a partir de múltiplas amostras preditivas.

Canais, capacidade e por que isso importa em sistemas de ML

A teoria da informação originalmente estudou comunicação em canais ruidosos. Os conceitos reaparecem em pipelines de ML:

  • Sensores → pré-processamento → modelo
  • Tokenização (tokenization) → modelo → geração
  • Gradientes/atualizações transmitidos em treinamento distribuído

Capacidade do canal (intuição)

Um canal ruidoso tem uma taxa máxima de informação confiável (capacidade). Na prática de ML, isso se traduz em restrições como:

  • largura de banda limitada para treinamento distribuído (compressão de gradientes)
  • bits limitados para inferência quantizada
  • janela de contexto limitada em modelos de linguagem (um tipo de gargalo)

Mesmo que você não compute explicitamente a capacidade de Shannon, o princípio “ruído + largura de banda limitada impõe limites duros” orienta o projeto de sistemas.

Taxa–distorção: perda controlada e compromissos de representação

A teoria taxa–distorção (rate–distortion theory) formaliza compressão com perdas:

  • Taxa (rate): bits usados (quão compacto)
  • Distorção (distortion): quanto erro você tolera

Em termos de ML, isso espelha objetivos regularizados que equilibram:

  • tamanho do modelo / capacidade de representação / taxa de bits (bitrate)
  • erro de reconstrução ou de tarefa

Exemplos:

  • Compressão aprendida de imagem/áudio com codecs neurais
  • Quantização e poda (pruning): reduzir taxa (bits/parâmetros) mantendo a distorção (acurácia) aceitável
  • Autoencoders: distorção é a perda de reconstrução; taxa frequentemente é imposta via gargalos ou modelos de entropia

Isso também é conceitualmente próximo do compromisso viés–variância de Probabilidade e Estatística, mas com uma interpretação de codificação.

Comprimento Mínimo de Descrição (MDL): seleção de modelos como compressão

O princípio de Comprimento Mínimo de Descrição (Minimum Description Length, MDL) diz:

Prefira o modelo que fornece a menor descrição total de (modelo + dados dado o modelo).

Isso reinterpreta o sobreajuste:

  • Um modelo muito complexo pode ajustar bem os dados (descrição curta dos dados), mas é caro de descrever (descrição longa do modelo).
  • Um modelo simples é barato de descrever, mas pode codificar os dados mal.

Ecos modernos incluem:

  • regularização (penalizar complexidade)
  • comparação de modelos bayesiana (priors penalizam complexidade)
  • avaliação baseada em compressão de representações e modelos generativos

MDL é uma das pontes mais limpas entre teoria da informação e teoria do aprendizado estatístico.

Exemplos práticos

Exemplo 1: entropia de uma distribuição prevista (Python)

import numpy as np

def entropy(p, eps=1e-12):
    p = np.asarray(p, dtype=np.float64)
    p = np.clip(p, eps, 1.0)
    p = p / p.sum()
    return -np.sum(p * np.log2(p))

print(entropy([0.5, 0.5]))      # 1.0 bit (max uncertainty for 2 classes)
print(entropy([0.9, 0.1]))      # ~0.469 bits (more confident)
print(entropy([0.99, 0.01]))    # ~0.081 bits (very confident)

Em um loop de aprendizado ativo, você pode selecionar exemplos com a maior entropia preditiva.

Exemplo 2: entropia cruzada como “bits extras” de um modelo errado

Se a distribuição verdadeira de rótulos é (p), mas seu modelo prevê (q), então:

[ H(p,q) = H(p) + D_{\mathrm{KL}}(p|q) ]

Assim, a lacuna entre sua perda e a incerteza irredutível (H(p)) é exatamente a divergência KL — literalmente bits extras por exemplo devido a incompatibilidade do modelo.

Exemplo 3: compressão de tokens e modelagem de linguagem

Modelos de linguagem treinados com entropia cruzada estão implicitamente otimizando o comprimento de código do texto sob sua distribuição prevista. Isso também explica por que:

  • Uma tokenização melhor pode melhorar o desempenho (ela muda quais “símbolos” você codifica).
  • Os bits por token (bits-per-token) reportados dependem do esquema de tokenização; bits por caractere (bits-per-character) às vezes é usado para estimativas mais comparáveis.

Armadilhas comuns e sutilezas

Entropia diferencial pode ser negativa

Para variáveis contínuas, “entropia” vira entropia diferencial (differential entropy) (h(X)), que pode ser negativa e não é invariante a reparametrização (reparameterization). Em cenários contínuos, quantidades relativas como a divergência KL frequentemente são mais significativas.

Divergência KL é assimétrica

(D_{\mathrm{KL}}(p|q)\neq D_{\mathrm{KL}}(q|p)). A direção importa:

  • (D_{\mathrm{KL}}(p|q)) penaliza fortemente quando (q) atribui probabilidade minúscula a eventos que ocorrem sob (p) (cobertura de modos (mode-covering)).
  • (D_{\mathrm{KL}}(q|p)) tende a buscar modos (mode-seeking).

Essa distinção aparece na inferência variacional e no comportamento de modelagem generativa.

Estimar informação mútua é difícil em alta dimensão

Estimar IM a partir de amostras de forma ingênua é estatisticamente desafiador. Muitos métodos práticos baseados em IM dependem de:

  • limites variacionais (por exemplo, do estilo InfoNCE)
  • críticos paramétricos (parametric critics)
  • estratégias cuidadosas de amostragem de negativos (negative sampling)

Interpretações teóricas podem ser sutis; a utilidade empírica frequentemente permanece forte.

Onde a teoria da informação aparece em IA

Um mapa não exaustivo:

  • Aprendizado supervisionado: entropia cruzada, log-loss, métricas de calibração
  • Modelagem generativa (generative modeling): verossimilhança, bits por dimensão (bits-per-dimension), VAEs (ELBO = recon − KL)
  • Aprendizado de representações: gargalo de informação, objetivos contrastivos, redução de redundância
  • Aprendizado por reforço: regularização por entropia, aprendizado por reforço de máxima entropia (maximum-entropy RL), atualizações de política com restrição por KL (KL-constrained policy updates)
  • Sistemas: compressão de modelo, quantização, limites de comunicação em treinamento distribuído
  • Avaliação: perplexidade, taxas de compressão, pontuação baseada em verossimilhança

Essas aplicações frequentemente combinam medidas de informação com métodos numéricos de Otimização (por exemplo, variantes de descida do gradiente estocástica (stochastic gradient descent, SGD)) e estruturas de Álgebra Linear.

Resumo

A teoria da informação fornece à IA uma linguagem precisa para incerteza e um vínculo operacional entre probabilidade e compressão:

  • Entropia quantifica incerteza e o comprimento mínimo esperado de código.
  • Entropia cruzada e divergência KL explicam por que perdas baseadas em verossimilhança são naturais e interpretáveis como “bits extras”.
  • Informação mútua e princípios de gargalo formalizam o que significa que representações sejam informativas e, ainda assim, compactas.
  • Taxa–distorção e MDL conectam aprendizado à compressão com perdas e à seleção de modelos.

Para as definições-chave e as identidades e derivações mais comuns em ML, continue em: Entropia, KL, Informação Mútua.