Variáveis Aleatórias e Distribuições

Por que variáveis aleatórias importam em ML

O aprendizado de máquina (machine learning) é, em sua essência, raciocinar sob incerteza. Os dados são ruidosos, os rótulos podem estar errados, os ambientes mudam e os modelos generalizam de forma imperfeita. Variáveis aleatórias (random variables) e distribuições de probabilidade (probability distributions) fornecem a linguagem para expressar:

  • Incerteza nos dados (ruído de medição, ausência de dados, resultados estocásticos)
  • Incerteza nos modelos (posteriores bayesianas, variabilidade de ensembles)
  • Algoritmos estocásticos (amostragem de mini-batches, dropout, exploração aleatorizada)
  • Aprendizado baseado em verossimilhança (máxima verossimilhança, perdas probabilísticas)

Muitos objetivos padrão de ML são mais fáceis de entender como “ajustar uma distribuição aos dados”. Por exemplo:

  • Erro quadrático em regressão linear corresponde a assumir ruído Gaussiano.
  • Perda de entropia cruzada para classificação corresponde a uma verossimilhança Categórica (ou Bernoulli).
  • Predição de contagens frequentemente usa verossimilhanças Poisson ou Binomial Negativa.

Este artigo constrói as bases: o que são variáveis aleatórias, como distribuições são representadas e como raciocinar sobre aleatoriedade na prática.

Variáveis aleatórias: a ideia básica

Uma variável aleatória (VA) é uma função que mapeia resultados de um processo aleatório para números. Você pode pensar nela como “um resumo numérico de um experimento aleatório”.

Exemplos:

  • (X) = resultado de um lançamento de dado (valores em ({1,2,3,4,5,6}))
  • (Y) = tempo até um usuário clicar em um anúncio (valores em ([0,\infty)))
  • (Z) = rótulo de classe de uma imagem (valores em ({1,\dots,K}))
  • (W) = um vetor de leituras de sensores (valores em (\mathbb{R}^d))

Discretas, contínuas e mistas

  • VAs discretas assumem valores em um conjunto contável (por exemplo, inteiros, categorias).
  • VAs contínuas assumem valores em um intervalo (por exemplo, números reais).
  • Distribuições mistas combinam ambas (por exemplo, contagens “infladas em zero”: uma massa pontual em 0 mais um componente contínuo/de contagem).

A distinção importa porque probabilidades são calculadas de maneiras diferentes.

Distribuições: PMF, PDF e CDF

Uma distribuição de probabilidade especifica quão prováveis são diferentes valores de uma VA.

Função de massa de probabilidade (PMF) para VAs discretas

Para uma VA discreta (X), a função de massa de probabilidade (PMF, probability mass function) é: [ p(x) = \Pr(X = x) ] com (p(x) \ge 0) e (\sum_x p(x) = 1).

Exemplo: dado justo: (p(x)=1/6) para (x \in {1,\dots,6}).

Função densidade de probabilidade (PDF) para VAs contínuas

Para uma VA contínua (X), usamos uma função densidade de probabilidade (PDF, probability density function) (f(x)) tal que: [ \Pr(a \le X \le b) = \int_a^b f(x),dx ] Importante: para variáveis contínuas, (\Pr(X=x)=0) para qualquer valor exato. A PDF é uma densidade, não uma probabilidade.

Função de distribuição acumulada (CDF) para ambas

A função de distribuição acumulada (CDF, cumulative distribution function) sempre existe: [ F(x) = \Pr(X \le x) ] Propriedades:

  • Não decrescente
  • (\lim_{x\to -\infty} F(x)=0), (\lim_{x\to \infty} F(x)=1)
  • Para VAs contínuas, (F'(x)=f(x)) onde for diferenciável

CDFs são úteis para calcular probabilidades, quantis e para amostragem (via CDF inversa quando disponível).

Esperança, variância e momentos

Esperança (média)

O valor esperado é o valor médio no longo prazo sob amostragem repetida.

Discreta: [ \mathbb{E}[X] = \sum_x x,p(x) ] Contínua: [ \mathbb{E}[X] = \int x,f(x),dx ]

Em ML, a esperança aparece em toda parte: minimização de risco, log-verossimilhança esperada, recompensa esperada e limites de generalização.

Variância e desvio padrão

A variância mede a dispersão em torno da média: [ \mathrm{Var}(X)=\mathbb{E}[(X-\mu)^2] = \mathbb{E}[X^2] - (\mathbb{E}[X])^2 ] O desvio padrão é (\sigma=\sqrt{\mathrm{Var}(X)}).

Covariância e correlação (aleatoriedade multivariada)

Para duas VAs (X,Y): [ \mathrm{Cov}(X,Y) = \mathbb{E}[(X-\mathbb{E}X)(Y-\mathbb{E}Y)] ] A correlação reescala a covariância: [ \rho_{XY} = \frac{\mathrm{Cov}(X,Y)}{\sqrt{\mathrm{Var}(X)\mathrm{Var}(Y)}} ]

Para vetores (X \in \mathbb{R}^d), a matriz de covariância (\Sigma) captura todas as covariâncias par a par e é central em modelos Gaussianos, PCA e estimação de incerteza.

Distribuições conjunta, marginal e condicional

Problemas de ML tipicamente envolvem múltiplas variáveis: atributos, rótulos, variáveis latentes, parâmetros.

  • Distribuição conjunta: (p(x,y))
  • Marginal: (p(x)=\sum_y p(x,y)) (ou (\int p(x,y),dy))
  • Condicional: (p(y\mid x)=\frac{p(x,y)}{p(x)}) quando (p(x)>0)

Independência

(X) e (Y) são independentes se: [ p(x,y)=p(x)p(y) ] Suposições de independência simplificam a modelagem, mas podem estar erradas; muitos modelos de ML trocam realismo por tratabilidade.

Regra de Bayes (o cavalo de batalha)

[ p(y\mid x)=\frac{p(x\mid y)p(y)}{p(x)} ] Isso sustenta classificação probabilística, modelagem generativa e inferência bayesiana de parâmetros. Veja Inferência Bayesiana para a perspectiva completa de aprendizado (priores, verossimilhanças, posteriores).

Transformações de variáveis aleatórias

Transformações permitem derivar novas distribuições a partir de antigas — crucial em engenharia de atributos, modelagem probabilística e amostragem.

Transformações lineares

Se (Y=aX+b), então:

  • (\mathbb{E}[Y]=a\mathbb{E}[X]+b)
  • (\mathrm{Var}(Y)=a^2\mathrm{Var}(X))

Se (X\sim \mathcal{N}(\mu,\sigma^2)), então (aX+b \sim \mathcal{N}(a\mu+b, a^2\sigma^2)).

Transformações não lineares (intuição)

  • Se (X\sim \mathcal{N}(\mu,\sigma^2)), então (Y=\exp(X)) é Lognormal (positiva, com cauda pesada).
  • Elevar ao quadrado, recortar (clipping), tomar máximos ou aplicar softmax — tudo isso altera distribuições de maneiras que importam para calibração e incerteza.

Em aprendizado profundo (deep learning) moderno, a amostragem diferenciável frequentemente usa transformações “reparametrizadas” (por exemplo, amostrar uma Normal via (X=\mu+\sigma\epsilon), (\epsilon\sim\mathcal{N}(0,1))) para permitir aprendizado baseado em gradientes.

Distribuições comuns (e quando usá-las)

Abaixo estão as distribuições que você vê com mais frequência na prática de ML. Para cada uma, as perguntas-chave são:

  • Quais valores são possíveis (suporte)?
  • Que forma/caudas você espera?
  • Como a variância se relaciona com a média?
  • A distribuição codifica um modelo de ruído razoável?

Bernoulli

Use para: resultados binários (clique/não clique, correto/incorreto).

  • Suporte: ({0,1})
  • Parâmetro: (p=\Pr(X=1))
  • Média: (p), Variância: (p(1-p))

Em classificação binária, a verossimilhança Bernoulli leva à perda logarítmica / entropia cruzada.

Categórica

Use para: rótulos um-de-(K).

  • Suporte: ({1,\dots,K})
  • Parâmetros: probabilidades de classe (\pi_1,\dots,\pi_K) somando 1

Classificadores softmax modelam (p(y\mid x)) como Categórica.

Binomial e Multinomial

Use para: contagens de sucessos em ensaios fixos.

  • Binomial: número de sucessos em (n) ensaios Bernoulli independentes.
    • Média: (np), Variância: (np(1-p))
  • Multinomial: contagens em (K) categorias em (n) ensaios.

Elas surgem em testes A/B, rotulagem em lotes e contagens de palavras (embora texto frequentemente viole independência).

Geométrica / Binomial Negativa

Use para: número de ensaios até o sucesso (Geométrica) ou dados de contagem com superdispersão (Binomial Negativa).

  • A Binomial Negativa é comum quando a variância excede a média (ao contrário de Poisson).
  • Útil para modelar contagens de eventos com heterogeneidade (por exemplo, variabilidade na atividade de usuários).

Poisson

Use para: contagens de eventos em um intervalo fixo (chegadas, cliques, falhas) quando eventos ocorrem independentemente com taxa constante.

  • Suporte: ({0,1,2,\dots})
  • Parâmetro: (\lambda > 0)
  • Média: (\lambda), Variância: (\lambda)

Na prática, muitos conjuntos de dados reais de contagem são superdispersos (variância > média), motivando modelos de Binomial Negativa.

Uniforme

Use para: baselines “não informativos” em intervalos limitados, inicialização aleatória, priores simples.

  • Uniforme contínua em ([a,b]): densidade constante, média ((a+b)/2)

A Uniforme raramente é um bom modelo de dados, mas frequentemente é um modelo conveniente de amostragem.

Normal (Gaussiana)

Use para: ruído de medição, efeitos agregados, resíduos contínuos, variáveis latentes.

  • Suporte: (\mathbb{R})
  • Parâmetros: média (\mu), variância (\sigma^2)
  • Simétrica, caudas relativamente leves

Razões-chave para aparecer em todo lugar:

  • Teorema Central do Limite (somas/médias tendem a Normal)
  • Conveniência matemática (conjugação, operações em forma fechada)
  • A Normal multivariada modela correlações via matrizes de covariância

Em regressão, assumir ruído Gaussiano produz o objetivo familiar de erro quadrático.

t de Student

Use para: modelagem robusta de resíduos contínuos com outliers/caudas pesadas.

  • Caudas mais pesadas do que a Normal
  • Com poucos graus de liberdade, tolera erros grandes ocasionais melhor do que a Gaussiana

Comum em regressão robusta e modelagem de incerteza quando outliers são esperados.

Laplace (dupla exponencial)

Use para: sinais esparsos e resíduos robustos; conecta-se à perda L1.

  • Pico mais agudo e caudas mais pesadas do que a Normal
  • O log-verossimilhança negativo corresponde ao erro absoluto

Isso se conecta a ideias de regularização L1 frequentemente usadas em modelagem esparsa.

Exponencial

Use para: tempos de espera entre eventos Poisson; fundamentos de modelagem de sobrevivência/tempo até evento.

  • Suporte: ([0,\infty))
  • Parâmetro: taxa (\lambda>0) (às vezes escala (1/\lambda))
  • Propriedade sem memória: (\Pr(X>s+t \mid X>s)=\Pr(X>t))

Frequentemente é um bloco de construção para modelos de tempo mais flexíveis.

Gama

Use para: quantidades contínuas positivas; tempo de espera até o (k)-ésimo evento Poisson; prior sobre taxas.

  • Suporte: ((0,\infty))
  • Parâmetros: forma (k), escala (\theta) (ou taxa (\beta=1/\theta))
  • Assimetria e comportamento de cauda flexíveis

A Gama é amplamente usada na modelagem bayesiana de taxas Poisson.

Beta

Use para: probabilidades em ([0,1]); incerteza sobre probabilidades de Bernoulli/Categórica.

  • Suporte: ([0,1])
  • Parâmetros: (\alpha,\beta>0)
  • Formas flexíveis (tipo uniforme, em U, com pico, etc.)

Na atualização bayesiana, a Beta é conjugada a verossimilhanças Bernoulli/Binomial. Veja Inferência Bayesiana para como priores são atualizados com dados.

Dirichlet

Use para: distribuições sobre vetores de probabilidade ((\pi_1,\dots,\pi_K)); prior bayesiano para Categórica/Multinomial.

  • Suporte: simplexo ({\pi_k\ge 0,\ \sum_k \pi_k=1})
  • Parâmetros: vetor de concentração (\alpha_1,\dots,\alpha_K)

Usada em modelos de tópicos e modelos de mistura (historicamente proeminentes em ML clássico).

Lognormal

Use para: quantidades positivas que variam por ordens de magnitude (durações, rendas, algumas latências).

  • Se (\log X) é Normal, então (X) é Lognormal
  • Cauda direita pesada, estritamente positiva

Um bom padrão quando os dados são positivos e efeitos multiplicativos dominam.

Como raciocinar sobre aleatoriedade (os grandes teoremas, na prática)

Lei dos Grandes Números (LGN): médias se estabilizam

Se (X_1,\dots,X_n) são i.i.d. com média (\mu), então a média amostral (\bar{X}) converge para (\mu) à medida que (n) cresce.

Conclusão prática: médias empíricas tornam-se confiáveis com dados suficientes, mas “suficiente” depende da variância e do peso das caudas.

Teorema Central do Limite (TCL): somas parecem Normais

Sob condições amplas, a soma normalizada de variáveis i.i.d. se aproxima de uma distribuição Normal: [ \sqrt{n},\frac{\bar{X}-\mu}{\sigma} \Rightarrow \mathcal{N}(0,1) ]

Conclusão prática:

  • Intervalos de confiança e normalidade aproximada frequentemente funcionam para (n) grande
  • Caudas pesadas ou dependência forte podem quebrar aproximações do TCL

Intuição de concentração: quão rápido as médias convergem?

Mesmo sem provas completas, ajuda saber:

  • A desigualdade de Chebyshev fornece um limite geral (mas frouxo) usando apenas a variância.
  • Limites de Hoeffding/Chernoff fornecem limites mais fortes para variáveis limitadas ou subexponenciais.

Essas ideias motivam limites de generalização e quantificação de incerteza em ML.

Distribuições como verossimilhanças: conectando probabilidade a perdas

Um hábito poderoso em ML: tratar a saída do seu modelo como parâmetros de uma distribuição e treinar maximizando a verossimilhança (ou minimizando o log-verossimilhança negativo, NLL).

Exemplos:

  • Regressão (ruído Gaussiano)
    (y = f_\theta(x) + \epsilon,\ \epsilon \sim \mathcal{N}(0,\sigma^2))
    Minimizar NLL vira (escalado) erro quadrático médio.

  • Classificação binária (Bernoulli)
    (y \sim \mathrm{Bernoulli}(p_\theta(x)))
    NLL vira entropia cruzada binária.

  • Classificação multiclasse (Categórica)
    (y \sim \mathrm{Categorical}(\pi_\theta(x)))
    NLL vira entropia cruzada softmax.

Esse enquadramento facilita:

  • escolher perdas apropriadas,
  • modelar heteroscedasticidade (ruído dependente da entrada),
  • interpretar saídas como probabilidades calibradas.

Para avaliar predições probabilísticas, use métricas adequadas como perda logarítmica ou escore de Brier; veja Regras de Pontuação Apropriadas.

Amostragem e Monte Carlo: calculando esperanças na prática

Muitas esperanças são difíceis de computar analiticamente, especialmente em modelos probabilísticos modernos. Monte Carlo aproxima: [ \mathbb{E}[g(X)] \approx \frac{1}{N}\sum_{i=1}^N g(x_i),\quad x_i \sim p(x) ]

Exemplo: estimativa Monte Carlo de uma média e sua incerteza

import numpy as np

rng = np.random.default_rng(0)

# Exponential waiting times with rate lambda=2.0 (mean 0.5)
lam = 2.0
N = 10000
x = rng.exponential(scale=1/lam, size=N)

mc_mean = x.mean()
mc_std_error = x.std(ddof=1) / np.sqrt(N)

mc_mean, mc_std_error

Interpretação:

  • mc_mean estima (\mathbb{E}[X]).
  • mc_std_error estima o erro padrão da média (o quanto a estimativa variaria em conjuntos de dados repetidos).

Isso se conecta diretamente a intervalos de confiança e testes de hipóteses; veja Estimação e Teste de Hipóteses.

Escolhendo uma distribuição no trabalho real de ML

Um checklist prático:

  1. Suporte (restrições)

    • Probabilidade? Use Beta (escalar) ou Dirichlet (vetorial).
    • Contagem? Poisson ou Binomial Negativa.
    • Contínua positiva? Gama, Lognormal, Exponencial.
  2. Comportamento de cauda e outliers

    • Outliers frequentes: t de Student ou Laplace podem se ajustar melhor do que a Normal.
  3. Relação média–variância

    • Poisson impõe Var = Média (frequentemente rígido demais).
    • Superdispersão sugere Binomial Negativa ou modelos de mistura.
  4. Interpretabilidade e avaliação

    • Se as saídas devem ser probabilidades calibradas, use perdas probabilísticas e verifique calibração (regras de pontuação apropriadas).
  5. Seleção de modelo e penalização

Armadilhas comuns

  • Confundir altura da PDF com probabilidade: em distribuições contínuas, probabilidade é a área sob a curva, não o valor da curva em um ponto.
  • Assumir Normalidade por padrão: a Gaussiana é conveniente, mas caudas pesadas e assimetria são comuns em dados reais.
  • Ignorar dependência: muitas suposições de “i.i.d.” falham (séries temporais, comportamento de usuários, dados espaciais).
  • Interpretar mal “aleatório”: aleatoriedade modela incerteza ou variabilidade; não significa “sem estrutura” ou “imprevisível”.

Onde isso aparece ao longo da IA

Variáveis aleatórias e distribuições são fundamentais para:

Entender distribuições não é apenas “base matemática” — é um kit de ferramentas prático para escolher perdas, diagnosticar falta de ajuste e construir modelos que expressem incerteza corretamente.