Variáveis Aleatórias e Distribuições

Por que variáveis aleatórias importam em ML

O aprendizado de máquina (machine learning) é, em sua essência, raciocinar sob incerteza. Os dados são ruidosos, os rótulos podem estar errados, os ambientes mudam e os modelos generalizam de forma imperfeita. Variáveis aleatórias (random variables) e distribuições de probabilidade (probability distributions) fornecem a linguagem para expressar:

Incerteza nos dados (ruído de medição, ausência de dados, resultados estocásticos)
Incerteza nos modelos (posteriores bayesianas, variabilidade de ensembles)
Algoritmos estocásticos (amostragem de mini-batches, dropout, exploração aleatorizada)
Aprendizado baseado em verossimilhança (máxima verossimilhança, perdas probabilísticas)

Muitos objetivos padrão de ML são mais fáceis de entender como “ajustar uma distribuição aos dados”. Por exemplo:

Erro quadrático em regressão linear corresponde a assumir ruído Gaussiano.
Perda de entropia cruzada para classificação corresponde a uma verossimilhança Categórica (ou Bernoulli).
Predição de contagens frequentemente usa verossimilhanças Poisson ou Binomial Negativa.

Este artigo constrói as bases: o que são variáveis aleatórias, como distribuições são representadas e como raciocinar sobre aleatoriedade na prática.

Variáveis aleatórias: a ideia básica

Uma variável aleatória (VA) é uma função que mapeia resultados de um processo aleatório para números. Você pode pensar nela como “um resumo numérico de um experimento aleatório”.

Exemplos:

(X) = resultado de um lançamento de dado (valores em ({1,2,3,4,5,6}))
(Y) = tempo até um usuário clicar em um anúncio (valores em ([0,\infty)))
(Z) = rótulo de classe de uma imagem (valores em ({1,\dots,K}))
(W) = um vetor de leituras de sensores (valores em (\mathbb{R}^d))

Discretas, contínuas e mistas

VAs discretas assumem valores em um conjunto contável (por exemplo, inteiros, categorias).
VAs contínuas assumem valores em um intervalo (por exemplo, números reais).
Distribuições mistas combinam ambas (por exemplo, contagens “infladas em zero”: uma massa pontual em 0 mais um componente contínuo/de contagem).

A distinção importa porque probabilidades são calculadas de maneiras diferentes.

Distribuições: PMF, PDF e CDF

Uma distribuição de probabilidade especifica quão prováveis são diferentes valores de uma VA.

Função de massa de probabilidade (PMF) para VAs discretas

Para uma VA discreta (X), a função de massa de probabilidade (PMF, probability mass function) é: [ p(x) = \Pr(X = x) ] com (p(x) \ge 0) e (\sum_x p(x) = 1).

Exemplo: dado justo: (p(x)=1/6) para (x \in {1,\dots,6}).

Função densidade de probabilidade (PDF) para VAs contínuas

Para uma VA contínua (X), usamos uma função densidade de probabilidade (PDF, probability density function) (f(x)) tal que: [ \Pr(a \le X \le b) = \int_a^b f(x),dx ] Importante: para variáveis contínuas, (\Pr(X=x)=0) para qualquer valor exato. A PDF é uma densidade, não uma probabilidade.

Função de distribuição acumulada (CDF) para ambas

A função de distribuição acumulada (CDF, cumulative distribution function) sempre existe: [ F(x) = \Pr(X \le x) ] Propriedades:

Não decrescente
(\lim_{x\to -\infty} F(x)=0), (\lim_{x\to \infty} F(x)=1)
Para VAs contínuas, (F'(x)=f(x)) onde for diferenciável

CDFs são úteis para calcular probabilidades, quantis e para amostragem (via CDF inversa quando disponível).

Esperança, variância e momentos

Esperança (média)

O valor esperado é o valor médio no longo prazo sob amostragem repetida.

Discreta: [ \mathbb{E}[X] = \sum_x x,p(x) ] Contínua: [ \mathbb{E}[X] = \int x,f(x),dx ]

Em ML, a esperança aparece em toda parte: minimização de risco, log-verossimilhança esperada, recompensa esperada e limites de generalização.

Variância e desvio padrão

A variância mede a dispersão em torno da média: [ \mathrm{Var}(X)=\mathbb{E}[(X-\mu)^2] = \mathbb{E}[X^2] - (\mathbb{E}[X])^2 ] O desvio padrão é (\sigma=\sqrt{\mathrm{Var}(X)}).

Covariância e correlação (aleatoriedade multivariada)

Para duas VAs (X,Y): [ \mathrm{Cov}(X,Y) = \mathbb{E}[(X-\mathbb{E}X)(Y-\mathbb{E}Y)] ] A correlação reescala a covariância: [ \rho_{XY} = \frac{\mathrm{Cov}(X,Y)}{\sqrt{\mathrm{Var}(X)\mathrm{Var}(Y)}} ]

Para vetores (X \in \mathbb{R}^d), a matriz de covariância (\Sigma) captura todas as covariâncias par a par e é central em modelos Gaussianos, PCA e estimação de incerteza.

Distribuições conjunta, marginal e condicional

Problemas de ML tipicamente envolvem múltiplas variáveis: atributos, rótulos, variáveis latentes, parâmetros.

Distribuição conjunta: (p(x,y))
Marginal: (p(x)=\sum_y p(x,y)) (ou (\int p(x,y),dy))
Condicional: (p(y\mid x)=\frac{p(x,y)}{p(x)}) quando (p(x)>0)

Independência

(X) e (Y) são independentes se: [ p(x,y)=p(x)p(y) ] Suposições de independência simplificam a modelagem, mas podem estar erradas; muitos modelos de ML trocam realismo por tratabilidade.

Regra de Bayes (o cavalo de batalha)

[ p(y\mid x)=\frac{p(x\mid y)p(y)}{p(x)} ] Isso sustenta classificação probabilística, modelagem generativa e inferência bayesiana de parâmetros. Veja Inferência Bayesiana para a perspectiva completa de aprendizado (priores, verossimilhanças, posteriores).

Transformações de variáveis aleatórias

Transformações permitem derivar novas distribuições a partir de antigas — crucial em engenharia de atributos, modelagem probabilística e amostragem.

Transformações lineares

Se (Y=aX+b), então:

(\mathbb{E}[Y]=a\mathbb{E}[X]+b)
(\mathrm{Var}(Y)=a^2\mathrm{Var}(X))

Se (X\sim \mathcal{N}(\mu,\sigma^2)), então (aX+b \sim \mathcal{N}(a\mu+b, a^2\sigma^2)).

Transformações não lineares (intuição)

Se (X\sim \mathcal{N}(\mu,\sigma^2)), então (Y=\exp(X)) é Lognormal (positiva, com cauda pesada).
Elevar ao quadrado, recortar (clipping), tomar máximos ou aplicar softmax — tudo isso altera distribuições de maneiras que importam para calibração e incerteza.

Em aprendizado profundo (deep learning) moderno, a amostragem diferenciável frequentemente usa transformações “reparametrizadas” (por exemplo, amostrar uma Normal via (X=\mu+\sigma\epsilon), (\epsilon\sim\mathcal{N}(0,1))) para permitir aprendizado baseado em gradientes.

Distribuições comuns (e quando usá-las)

Abaixo estão as distribuições que você vê com mais frequência na prática de ML. Para cada uma, as perguntas-chave são:

Quais valores são possíveis (suporte)?
Que forma/caudas você espera?
Como a variância se relaciona com a média?
A distribuição codifica um modelo de ruído razoável?

Bernoulli

Use para: resultados binários (clique/não clique, correto/incorreto).

Suporte: ({0,1})
Parâmetro: (p=\Pr(X=1))
Média: (p), Variância: (p(1-p))

Em classificação binária, a verossimilhança Bernoulli leva à perda logarítmica / entropia cruzada.

Categórica

Use para: rótulos um-de-(K).

Suporte: ({1,\dots,K})
Parâmetros: probabilidades de classe (\pi_1,\dots,\pi_K) somando 1

Classificadores softmax modelam (p(y\mid x)) como Categórica.

Binomial e Multinomial

Use para: contagens de sucessos em ensaios fixos.

Binomial: número de sucessos em (n) ensaios Bernoulli independentes.
- Média: (np), Variância: (np(1-p))
Multinomial: contagens em (K) categorias em (n) ensaios.

Elas surgem em testes A/B, rotulagem em lotes e contagens de palavras (embora texto frequentemente viole independência).

Geométrica / Binomial Negativa

Use para: número de ensaios até o sucesso (Geométrica) ou dados de contagem com superdispersão (Binomial Negativa).

A Binomial Negativa é comum quando a variância excede a média (ao contrário de Poisson).
Útil para modelar contagens de eventos com heterogeneidade (por exemplo, variabilidade na atividade de usuários).

Poisson

Use para: contagens de eventos em um intervalo fixo (chegadas, cliques, falhas) quando eventos ocorrem independentemente com taxa constante.

Suporte: ({0,1,2,\dots})
Parâmetro: (\lambda > 0)
Média: (\lambda), Variância: (\lambda)

Na prática, muitos conjuntos de dados reais de contagem são superdispersos (variância > média), motivando modelos de Binomial Negativa.

Uniforme

Use para: baselines “não informativos” em intervalos limitados, inicialização aleatória, priores simples.

Uniforme contínua em ([a,b]): densidade constante, média ((a+b)/2)

A Uniforme raramente é um bom modelo de dados, mas frequentemente é um modelo conveniente de amostragem.

Normal (Gaussiana)

Use para: ruído de medição, efeitos agregados, resíduos contínuos, variáveis latentes.

Suporte: (\mathbb{R})
Parâmetros: média (\mu), variância (\sigma^2)
Simétrica, caudas relativamente leves

Razões-chave para aparecer em todo lugar:

Teorema Central do Limite (somas/médias tendem a Normal)
Conveniência matemática (conjugação, operações em forma fechada)
A Normal multivariada modela correlações via matrizes de covariância

Em regressão, assumir ruído Gaussiano produz o objetivo familiar de erro quadrático.

t de Student

Use para: modelagem robusta de resíduos contínuos com outliers/caudas pesadas.

Caudas mais pesadas do que a Normal
Com poucos graus de liberdade, tolera erros grandes ocasionais melhor do que a Gaussiana

Comum em regressão robusta e modelagem de incerteza quando outliers são esperados.

Laplace (dupla exponencial)

Use para: sinais esparsos e resíduos robustos; conecta-se à perda L1.

Pico mais agudo e caudas mais pesadas do que a Normal
O log-verossimilhança negativo corresponde ao erro absoluto

Isso se conecta a ideias de regularização L1 frequentemente usadas em modelagem esparsa.

Exponencial

Use para: tempos de espera entre eventos Poisson; fundamentos de modelagem de sobrevivência/tempo até evento.

Suporte: ([0,\infty))
Parâmetro: taxa (\lambda>0) (às vezes escala (1/\lambda))
Propriedade sem memória: (\Pr(X>s+t \mid X>s)=\Pr(X>t))

Frequentemente é um bloco de construção para modelos de tempo mais flexíveis.

Gama

Use para: quantidades contínuas positivas; tempo de espera até o (k)-ésimo evento Poisson; prior sobre taxas.

Suporte: ((0,\infty))
Parâmetros: forma (k), escala (\theta) (ou taxa (\beta=1/\theta))
Assimetria e comportamento de cauda flexíveis

A Gama é amplamente usada na modelagem bayesiana de taxas Poisson.

Beta

Use para: probabilidades em ([0,1]); incerteza sobre probabilidades de Bernoulli/Categórica.

Suporte: ([0,1])
Parâmetros: (\alpha,\beta>0)
Formas flexíveis (tipo uniforme, em U, com pico, etc.)

Na atualização bayesiana, a Beta é conjugada a verossimilhanças Bernoulli/Binomial. Veja Inferência Bayesiana para como priores são atualizados com dados.

Dirichlet

Use para: distribuições sobre vetores de probabilidade ((\pi_1,\dots,\pi_K)); prior bayesiano para Categórica/Multinomial.

Suporte: simplexo ({\pi_k\ge 0,\ \sum_k \pi_k=1})
Parâmetros: vetor de concentração (\alpha_1,\dots,\alpha_K)

Usada em modelos de tópicos e modelos de mistura (historicamente proeminentes em ML clássico).

Lognormal

Use para: quantidades positivas que variam por ordens de magnitude (durações, rendas, algumas latências).

Se (\log X) é Normal, então (X) é Lognormal
Cauda direita pesada, estritamente positiva

Um bom padrão quando os dados são positivos e efeitos multiplicativos dominam.

Como raciocinar sobre aleatoriedade (os grandes teoremas, na prática)

Lei dos Grandes Números (LGN): médias se estabilizam

Se (X_1,\dots,X_n) são i.i.d. com média (\mu), então a média amostral (\bar{X}) converge para (\mu) à medida que (n) cresce.

Conclusão prática: médias empíricas tornam-se confiáveis com dados suficientes, mas “suficiente” depende da variância e do peso das caudas.

Teorema Central do Limite (TCL): somas parecem Normais

Sob condições amplas, a soma normalizada de variáveis i.i.d. se aproxima de uma distribuição Normal: [ \sqrt{n},\frac{\bar{X}-\mu}{\sigma} \Rightarrow \mathcal{N}(0,1) ]

Conclusão prática:

Intervalos de confiança e normalidade aproximada frequentemente funcionam para (n) grande
Caudas pesadas ou dependência forte podem quebrar aproximações do TCL

Intuição de concentração: quão rápido as médias convergem?

Mesmo sem provas completas, ajuda saber:

A desigualdade de Chebyshev fornece um limite geral (mas frouxo) usando apenas a variância.
Limites de Hoeffding/Chernoff fornecem limites mais fortes para variáveis limitadas ou subexponenciais.

Essas ideias motivam limites de generalização e quantificação de incerteza em ML.

Distribuições como verossimilhanças: conectando probabilidade a perdas

Um hábito poderoso em ML: tratar a saída do seu modelo como parâmetros de uma distribuição e treinar maximizando a verossimilhança (ou minimizando o log-verossimilhança negativo, NLL).

Exemplos:

Regressão (ruído Gaussiano)
(y = f_\theta(x) + \epsilon,\ \epsilon \sim \mathcal{N}(0,\sigma^2))
Minimizar NLL vira (escalado) erro quadrático médio.
Classificação binária (Bernoulli)
(y \sim \mathrm{Bernoulli}(p_\theta(x)))
NLL vira entropia cruzada binária.
Classificação multiclasse (Categórica)
(y \sim \mathrm{Categorical}(\pi_\theta(x)))
NLL vira entropia cruzada softmax.

Esse enquadramento facilita:

escolher perdas apropriadas,
modelar heteroscedasticidade (ruído dependente da entrada),
interpretar saídas como probabilidades calibradas.

Para avaliar predições probabilísticas, use métricas adequadas como perda logarítmica ou escore de Brier; veja Regras de Pontuação Apropriadas.

Amostragem e Monte Carlo: calculando esperanças na prática

Muitas esperanças são difíceis de computar analiticamente, especialmente em modelos probabilísticos modernos. Monte Carlo aproxima: [ \mathbb{E}[g(X)] \approx \frac{1}{N}\sum_{i=1}^N g(x_i),\quad x_i \sim p(x) ]

Exemplo: estimativa Monte Carlo de uma média e sua incerteza

import numpy as np

rng = np.random.default_rng(0)

# Exponential waiting times with rate lambda=2.0 (mean 0.5)
lam = 2.0
N = 10000
x = rng.exponential(scale=1/lam, size=N)

mc_mean = x.mean()
mc_std_error = x.std(ddof=1) / np.sqrt(N)

mc_mean, mc_std_error

Interpretação:

mc_mean estima (\mathbb{E}[X]).
mc_std_error estima o erro padrão da média (o quanto a estimativa variaria em conjuntos de dados repetidos).

Isso se conecta diretamente a intervalos de confiança e testes de hipóteses; veja Estimação e Teste de Hipóteses.

Escolhendo uma distribuição no trabalho real de ML

Um checklist prático:

Suporte (restrições)
- Probabilidade? Use Beta (escalar) ou Dirichlet (vetorial).
- Contagem? Poisson ou Binomial Negativa.
- Contínua positiva? Gama, Lognormal, Exponencial.
Comportamento de cauda e outliers
- Outliers frequentes: t de Student ou Laplace podem se ajustar melhor do que a Normal.
Relação média–variância
- Poisson impõe Var = Média (frequentemente rígido demais).
- Superdispersão sugere Binomial Negativa ou modelos de mistura.
Interpretabilidade e avaliação
- Se as saídas devem ser probabilidades calibradas, use perdas probabilísticas e verifique calibração (regras de pontuação apropriadas).
Seleção de modelo e penalização
- Ao comparar modelos probabilísticos, critérios como AIC/BIC podem ser úteis; veja Critérios de Informação.

Armadilhas comuns

Confundir altura da PDF com probabilidade: em distribuições contínuas, probabilidade é a área sob a curva, não o valor da curva em um ponto.
Assumir Normalidade por padrão: a Gaussiana é conveniente, mas caudas pesadas e assimetria são comuns em dados reais.
Ignorar dependência: muitas suposições de “i.i.d.” falham (séries temporais, comportamento de usuários, dados espaciais).
Interpretar mal “aleatório”: aleatoriedade modela incerteza ou variabilidade; não significa “sem estrutura” ou “imprevisível”.

Onde isso aparece ao longo da IA

Variáveis aleatórias e distribuições são fundamentais para:

Aprendizado supervisionado probabilístico (verossimilhanças, calibração)
ML bayesiano e quantificação de incerteza (Inferência Bayesiana)
Avaliação de predições probabilísticas (Regras de Pontuação Apropriadas)
Testes estatísticos e estimação por intervalos (Estimação e Teste de Hipóteses)
Comparação de modelos probabilísticos (Critérios de Informação)
Otimização estocástica e ruído de gradiente em treinamento em larga escala (relacionado a Descida do Gradiente)

Entender distribuições não é apenas “base matemática” — é um kit de ferramentas prático para escolher perdas, diagnosticar falta de ajuste e construir modelos que expressem incerteza corretamente.