Variáveis Aleatórias e Distribuições
Por que variáveis aleatórias importam em ML
O aprendizado de máquina (machine learning) é, em sua essência, raciocinar sob incerteza. Os dados são ruidosos, os rótulos podem estar errados, os ambientes mudam e os modelos generalizam de forma imperfeita. Variáveis aleatórias (random variables) e distribuições de probabilidade (probability distributions) fornecem a linguagem para expressar:
- Incerteza nos dados (ruído de medição, ausência de dados, resultados estocásticos)
- Incerteza nos modelos (posteriores bayesianas, variabilidade de ensembles)
- Algoritmos estocásticos (amostragem de mini-batches, dropout, exploração aleatorizada)
- Aprendizado baseado em verossimilhança (máxima verossimilhança, perdas probabilísticas)
Muitos objetivos padrão de ML são mais fáceis de entender como “ajustar uma distribuição aos dados”. Por exemplo:
- Erro quadrático em regressão linear corresponde a assumir ruído Gaussiano.
- Perda de entropia cruzada para classificação corresponde a uma verossimilhança Categórica (ou Bernoulli).
- Predição de contagens frequentemente usa verossimilhanças Poisson ou Binomial Negativa.
Este artigo constrói as bases: o que são variáveis aleatórias, como distribuições são representadas e como raciocinar sobre aleatoriedade na prática.
Variáveis aleatórias: a ideia básica
Uma variável aleatória (VA) é uma função que mapeia resultados de um processo aleatório para números. Você pode pensar nela como “um resumo numérico de um experimento aleatório”.
Exemplos:
- (X) = resultado de um lançamento de dado (valores em ({1,2,3,4,5,6}))
- (Y) = tempo até um usuário clicar em um anúncio (valores em ([0,\infty)))
- (Z) = rótulo de classe de uma imagem (valores em ({1,\dots,K}))
- (W) = um vetor de leituras de sensores (valores em (\mathbb{R}^d))
Discretas, contínuas e mistas
- VAs discretas assumem valores em um conjunto contável (por exemplo, inteiros, categorias).
- VAs contínuas assumem valores em um intervalo (por exemplo, números reais).
- Distribuições mistas combinam ambas (por exemplo, contagens “infladas em zero”: uma massa pontual em 0 mais um componente contínuo/de contagem).
A distinção importa porque probabilidades são calculadas de maneiras diferentes.
Distribuições: PMF, PDF e CDF
Uma distribuição de probabilidade especifica quão prováveis são diferentes valores de uma VA.
Função de massa de probabilidade (PMF) para VAs discretas
Para uma VA discreta (X), a função de massa de probabilidade (PMF, probability mass function) é: [ p(x) = \Pr(X = x) ] com (p(x) \ge 0) e (\sum_x p(x) = 1).
Exemplo: dado justo: (p(x)=1/6) para (x \in {1,\dots,6}).
Função densidade de probabilidade (PDF) para VAs contínuas
Para uma VA contínua (X), usamos uma função densidade de probabilidade (PDF, probability density function) (f(x)) tal que: [ \Pr(a \le X \le b) = \int_a^b f(x),dx ] Importante: para variáveis contínuas, (\Pr(X=x)=0) para qualquer valor exato. A PDF é uma densidade, não uma probabilidade.
Função de distribuição acumulada (CDF) para ambas
A função de distribuição acumulada (CDF, cumulative distribution function) sempre existe: [ F(x) = \Pr(X \le x) ] Propriedades:
- Não decrescente
- (\lim_{x\to -\infty} F(x)=0), (\lim_{x\to \infty} F(x)=1)
- Para VAs contínuas, (F'(x)=f(x)) onde for diferenciável
CDFs são úteis para calcular probabilidades, quantis e para amostragem (via CDF inversa quando disponível).
Esperança, variância e momentos
Esperança (média)
O valor esperado é o valor médio no longo prazo sob amostragem repetida.
Discreta: [ \mathbb{E}[X] = \sum_x x,p(x) ] Contínua: [ \mathbb{E}[X] = \int x,f(x),dx ]
Em ML, a esperança aparece em toda parte: minimização de risco, log-verossimilhança esperada, recompensa esperada e limites de generalização.
Variância e desvio padrão
A variância mede a dispersão em torno da média: [ \mathrm{Var}(X)=\mathbb{E}[(X-\mu)^2] = \mathbb{E}[X^2] - (\mathbb{E}[X])^2 ] O desvio padrão é (\sigma=\sqrt{\mathrm{Var}(X)}).
Covariância e correlação (aleatoriedade multivariada)
Para duas VAs (X,Y): [ \mathrm{Cov}(X,Y) = \mathbb{E}[(X-\mathbb{E}X)(Y-\mathbb{E}Y)] ] A correlação reescala a covariância: [ \rho_{XY} = \frac{\mathrm{Cov}(X,Y)}{\sqrt{\mathrm{Var}(X)\mathrm{Var}(Y)}} ]
Para vetores (X \in \mathbb{R}^d), a matriz de covariância (\Sigma) captura todas as covariâncias par a par e é central em modelos Gaussianos, PCA e estimação de incerteza.
Distribuições conjunta, marginal e condicional
Problemas de ML tipicamente envolvem múltiplas variáveis: atributos, rótulos, variáveis latentes, parâmetros.
- Distribuição conjunta: (p(x,y))
- Marginal: (p(x)=\sum_y p(x,y)) (ou (\int p(x,y),dy))
- Condicional: (p(y\mid x)=\frac{p(x,y)}{p(x)}) quando (p(x)>0)
Independência
(X) e (Y) são independentes se: [ p(x,y)=p(x)p(y) ] Suposições de independência simplificam a modelagem, mas podem estar erradas; muitos modelos de ML trocam realismo por tratabilidade.
Regra de Bayes (o cavalo de batalha)
[ p(y\mid x)=\frac{p(x\mid y)p(y)}{p(x)} ] Isso sustenta classificação probabilística, modelagem generativa e inferência bayesiana de parâmetros. Veja Inferência Bayesiana para a perspectiva completa de aprendizado (priores, verossimilhanças, posteriores).
Transformações de variáveis aleatórias
Transformações permitem derivar novas distribuições a partir de antigas — crucial em engenharia de atributos, modelagem probabilística e amostragem.
Transformações lineares
Se (Y=aX+b), então:
- (\mathbb{E}[Y]=a\mathbb{E}[X]+b)
- (\mathrm{Var}(Y)=a^2\mathrm{Var}(X))
Se (X\sim \mathcal{N}(\mu,\sigma^2)), então (aX+b \sim \mathcal{N}(a\mu+b, a^2\sigma^2)).
Transformações não lineares (intuição)
- Se (X\sim \mathcal{N}(\mu,\sigma^2)), então (Y=\exp(X)) é Lognormal (positiva, com cauda pesada).
- Elevar ao quadrado, recortar (clipping), tomar máximos ou aplicar softmax — tudo isso altera distribuições de maneiras que importam para calibração e incerteza.
Em aprendizado profundo (deep learning) moderno, a amostragem diferenciável frequentemente usa transformações “reparametrizadas” (por exemplo, amostrar uma Normal via (X=\mu+\sigma\epsilon), (\epsilon\sim\mathcal{N}(0,1))) para permitir aprendizado baseado em gradientes.
Distribuições comuns (e quando usá-las)
Abaixo estão as distribuições que você vê com mais frequência na prática de ML. Para cada uma, as perguntas-chave são:
- Quais valores são possíveis (suporte)?
- Que forma/caudas você espera?
- Como a variância se relaciona com a média?
- A distribuição codifica um modelo de ruído razoável?
Bernoulli
Use para: resultados binários (clique/não clique, correto/incorreto).
- Suporte: ({0,1})
- Parâmetro: (p=\Pr(X=1))
- Média: (p), Variância: (p(1-p))
Em classificação binária, a verossimilhança Bernoulli leva à perda logarítmica / entropia cruzada.
Categórica
Use para: rótulos um-de-(K).
- Suporte: ({1,\dots,K})
- Parâmetros: probabilidades de classe (\pi_1,\dots,\pi_K) somando 1
Classificadores softmax modelam (p(y\mid x)) como Categórica.
Binomial e Multinomial
Use para: contagens de sucessos em ensaios fixos.
- Binomial: número de sucessos em (n) ensaios Bernoulli independentes.
- Média: (np), Variância: (np(1-p))
- Multinomial: contagens em (K) categorias em (n) ensaios.
Elas surgem em testes A/B, rotulagem em lotes e contagens de palavras (embora texto frequentemente viole independência).
Geométrica / Binomial Negativa
Use para: número de ensaios até o sucesso (Geométrica) ou dados de contagem com superdispersão (Binomial Negativa).
- A Binomial Negativa é comum quando a variância excede a média (ao contrário de Poisson).
- Útil para modelar contagens de eventos com heterogeneidade (por exemplo, variabilidade na atividade de usuários).
Poisson
Use para: contagens de eventos em um intervalo fixo (chegadas, cliques, falhas) quando eventos ocorrem independentemente com taxa constante.
- Suporte: ({0,1,2,\dots})
- Parâmetro: (\lambda > 0)
- Média: (\lambda), Variância: (\lambda)
Na prática, muitos conjuntos de dados reais de contagem são superdispersos (variância > média), motivando modelos de Binomial Negativa.
Uniforme
Use para: baselines “não informativos” em intervalos limitados, inicialização aleatória, priores simples.
- Uniforme contínua em ([a,b]): densidade constante, média ((a+b)/2)
A Uniforme raramente é um bom modelo de dados, mas frequentemente é um modelo conveniente de amostragem.
Normal (Gaussiana)
Use para: ruído de medição, efeitos agregados, resíduos contínuos, variáveis latentes.
- Suporte: (\mathbb{R})
- Parâmetros: média (\mu), variância (\sigma^2)
- Simétrica, caudas relativamente leves
Razões-chave para aparecer em todo lugar:
- Teorema Central do Limite (somas/médias tendem a Normal)
- Conveniência matemática (conjugação, operações em forma fechada)
- A Normal multivariada modela correlações via matrizes de covariância
Em regressão, assumir ruído Gaussiano produz o objetivo familiar de erro quadrático.
t de Student
Use para: modelagem robusta de resíduos contínuos com outliers/caudas pesadas.
- Caudas mais pesadas do que a Normal
- Com poucos graus de liberdade, tolera erros grandes ocasionais melhor do que a Gaussiana
Comum em regressão robusta e modelagem de incerteza quando outliers são esperados.
Laplace (dupla exponencial)
Use para: sinais esparsos e resíduos robustos; conecta-se à perda L1.
- Pico mais agudo e caudas mais pesadas do que a Normal
- O log-verossimilhança negativo corresponde ao erro absoluto
Isso se conecta a ideias de regularização L1 frequentemente usadas em modelagem esparsa.
Exponencial
Use para: tempos de espera entre eventos Poisson; fundamentos de modelagem de sobrevivência/tempo até evento.
- Suporte: ([0,\infty))
- Parâmetro: taxa (\lambda>0) (às vezes escala (1/\lambda))
- Propriedade sem memória: (\Pr(X>s+t \mid X>s)=\Pr(X>t))
Frequentemente é um bloco de construção para modelos de tempo mais flexíveis.
Gama
Use para: quantidades contínuas positivas; tempo de espera até o (k)-ésimo evento Poisson; prior sobre taxas.
- Suporte: ((0,\infty))
- Parâmetros: forma (k), escala (\theta) (ou taxa (\beta=1/\theta))
- Assimetria e comportamento de cauda flexíveis
A Gama é amplamente usada na modelagem bayesiana de taxas Poisson.
Beta
Use para: probabilidades em ([0,1]); incerteza sobre probabilidades de Bernoulli/Categórica.
- Suporte: ([0,1])
- Parâmetros: (\alpha,\beta>0)
- Formas flexíveis (tipo uniforme, em U, com pico, etc.)
Na atualização bayesiana, a Beta é conjugada a verossimilhanças Bernoulli/Binomial. Veja Inferência Bayesiana para como priores são atualizados com dados.
Dirichlet
Use para: distribuições sobre vetores de probabilidade ((\pi_1,\dots,\pi_K)); prior bayesiano para Categórica/Multinomial.
- Suporte: simplexo ({\pi_k\ge 0,\ \sum_k \pi_k=1})
- Parâmetros: vetor de concentração (\alpha_1,\dots,\alpha_K)
Usada em modelos de tópicos e modelos de mistura (historicamente proeminentes em ML clássico).
Lognormal
Use para: quantidades positivas que variam por ordens de magnitude (durações, rendas, algumas latências).
- Se (\log X) é Normal, então (X) é Lognormal
- Cauda direita pesada, estritamente positiva
Um bom padrão quando os dados são positivos e efeitos multiplicativos dominam.
Como raciocinar sobre aleatoriedade (os grandes teoremas, na prática)
Lei dos Grandes Números (LGN): médias se estabilizam
Se (X_1,\dots,X_n) são i.i.d. com média (\mu), então a média amostral (\bar{X}) converge para (\mu) à medida que (n) cresce.
Conclusão prática: médias empíricas tornam-se confiáveis com dados suficientes, mas “suficiente” depende da variância e do peso das caudas.
Teorema Central do Limite (TCL): somas parecem Normais
Sob condições amplas, a soma normalizada de variáveis i.i.d. se aproxima de uma distribuição Normal: [ \sqrt{n},\frac{\bar{X}-\mu}{\sigma} \Rightarrow \mathcal{N}(0,1) ]
Conclusão prática:
- Intervalos de confiança e normalidade aproximada frequentemente funcionam para (n) grande
- Caudas pesadas ou dependência forte podem quebrar aproximações do TCL
Intuição de concentração: quão rápido as médias convergem?
Mesmo sem provas completas, ajuda saber:
- A desigualdade de Chebyshev fornece um limite geral (mas frouxo) usando apenas a variância.
- Limites de Hoeffding/Chernoff fornecem limites mais fortes para variáveis limitadas ou subexponenciais.
Essas ideias motivam limites de generalização e quantificação de incerteza em ML.
Distribuições como verossimilhanças: conectando probabilidade a perdas
Um hábito poderoso em ML: tratar a saída do seu modelo como parâmetros de uma distribuição e treinar maximizando a verossimilhança (ou minimizando o log-verossimilhança negativo, NLL).
Exemplos:
Regressão (ruído Gaussiano)
(y = f_\theta(x) + \epsilon,\ \epsilon \sim \mathcal{N}(0,\sigma^2))
Minimizar NLL vira (escalado) erro quadrático médio.Classificação binária (Bernoulli)
(y \sim \mathrm{Bernoulli}(p_\theta(x)))
NLL vira entropia cruzada binária.Classificação multiclasse (Categórica)
(y \sim \mathrm{Categorical}(\pi_\theta(x)))
NLL vira entropia cruzada softmax.
Esse enquadramento facilita:
- escolher perdas apropriadas,
- modelar heteroscedasticidade (ruído dependente da entrada),
- interpretar saídas como probabilidades calibradas.
Para avaliar predições probabilísticas, use métricas adequadas como perda logarítmica ou escore de Brier; veja Regras de Pontuação Apropriadas.
Amostragem e Monte Carlo: calculando esperanças na prática
Muitas esperanças são difíceis de computar analiticamente, especialmente em modelos probabilísticos modernos. Monte Carlo aproxima: [ \mathbb{E}[g(X)] \approx \frac{1}{N}\sum_{i=1}^N g(x_i),\quad x_i \sim p(x) ]
Exemplo: estimativa Monte Carlo de uma média e sua incerteza
import numpy as np
rng = np.random.default_rng(0)
# Exponential waiting times with rate lambda=2.0 (mean 0.5)
lam = 2.0
N = 10000
x = rng.exponential(scale=1/lam, size=N)
mc_mean = x.mean()
mc_std_error = x.std(ddof=1) / np.sqrt(N)
mc_mean, mc_std_error
Interpretação:
mc_meanestima (\mathbb{E}[X]).mc_std_errorestima o erro padrão da média (o quanto a estimativa variaria em conjuntos de dados repetidos).
Isso se conecta diretamente a intervalos de confiança e testes de hipóteses; veja Estimação e Teste de Hipóteses.
Escolhendo uma distribuição no trabalho real de ML
Um checklist prático:
Suporte (restrições)
- Probabilidade? Use Beta (escalar) ou Dirichlet (vetorial).
- Contagem? Poisson ou Binomial Negativa.
- Contínua positiva? Gama, Lognormal, Exponencial.
Comportamento de cauda e outliers
- Outliers frequentes: t de Student ou Laplace podem se ajustar melhor do que a Normal.
Relação média–variância
- Poisson impõe Var = Média (frequentemente rígido demais).
- Superdispersão sugere Binomial Negativa ou modelos de mistura.
Interpretabilidade e avaliação
- Se as saídas devem ser probabilidades calibradas, use perdas probabilísticas e verifique calibração (regras de pontuação apropriadas).
Seleção de modelo e penalização
- Ao comparar modelos probabilísticos, critérios como AIC/BIC podem ser úteis; veja Critérios de Informação.
Armadilhas comuns
- Confundir altura da PDF com probabilidade: em distribuições contínuas, probabilidade é a área sob a curva, não o valor da curva em um ponto.
- Assumir Normalidade por padrão: a Gaussiana é conveniente, mas caudas pesadas e assimetria são comuns em dados reais.
- Ignorar dependência: muitas suposições de “i.i.d.” falham (séries temporais, comportamento de usuários, dados espaciais).
- Interpretar mal “aleatório”: aleatoriedade modela incerteza ou variabilidade; não significa “sem estrutura” ou “imprevisível”.
Onde isso aparece ao longo da IA
Variáveis aleatórias e distribuições são fundamentais para:
- Aprendizado supervisionado probabilístico (verossimilhanças, calibração)
- ML bayesiano e quantificação de incerteza (Inferência Bayesiana)
- Avaliação de predições probabilísticas (Regras de Pontuação Apropriadas)
- Testes estatísticos e estimação por intervalos (Estimação e Teste de Hipóteses)
- Comparação de modelos probabilísticos (Critérios de Informação)
- Otimização estocástica e ruído de gradiente em treinamento em larga escala (relacionado a Descida do Gradiente)
Entender distribuições não é apenas “base matemática” — é um kit de ferramentas prático para escolher perdas, diagnosticar falta de ajuste e construir modelos que expressem incerteza corretamente.