Probabilidade e Estatística
Por que probabilidade e estatística importam na IA (AI)
Sistemas modernos de IA operam sob incerteza:
- Os dados são ruidosos, incompletos e frequentemente enviesados.
- Os modelos são aproximações imperfeitas da realidade.
- As previsões precisam generalizar para casos não vistos.
- Muitas tarefas envolvem inerentemente aleatoriedade (comportamento de usuários, ruído de sensores, ambientes estocásticos).
A probabilidade fornece uma linguagem para descrever incerteza. A estatística fornece ferramentas para aprender com dados — estimar quantidades desconhecidas, quantificar erro e tomar decisões com base em evidências.
Em aprendizado de máquina (machine learning), essas ideias aparecem em toda parte: classificadores probabilísticos (probabilistic classifiers), estimativas de incerteza (uncertainty estimates), funções de perda (loss functions) como entropia cruzada (cross-entropy), regularização (regularization), métricas de avaliação (evaluation metrics), testes A/B (A/B testing) e seleção de modelos (model selection).
Este artigo constrói intuição e competência prática; aprofundamentos são cobertos em páginas relacionadas como Variáveis Aleatórias e Distribuições, Inferência Bayesiana, Estimação e Testes de Hipóteses, Regras de Pontuação Adequadas e Critérios de Informação.
Probabilidade: um cálculo da incerteza
Eventos e axiomas
Um espaço de probabilidade consiste em:
- Um espaço amostral ( \Omega ): todos os resultados possíveis
- Eventos (A \subseteq \Omega): conjuntos de resultados
- Uma medida de probabilidade (P(\cdot)) que satisfaz:
- (P(A) \ge 0)
- (P(\Omega)=1)
- Se (A_i) são disjuntos, (P(\cup_i A_i)=\sum_i P(A_i))
Esses axiomas fornecem regras consistentes para raciocinar sob incerteza.
Probabilidade condicional e regra de Bayes (Bayes’ rule)
A probabilidade condicional formaliza “probabilidade dada uma evidência”:
[ P(A \mid B) = \frac{P(A \cap B)}{P(B)} \quad \text{(para } P(B) > 0\text{)} ]
Daí segue a regra de Bayes:
[ P(A \mid B) = \frac{P(B \mid A)P(A)}{P(B)} ]
Em termos de aprendizado de máquina:
- (A) pode ser uma hipótese/rótulo/valor de parâmetro
- (B) são dados observados
- (P(B \mid A)) é uma verossimilhança (likelihood)
- (P(A)) é uma distribuição a priori (prior)
- (P(A \mid B)) é uma distribuição a posteriori (posterior)
Essa perspectiva é central para Inferência Bayesiana e Teoria Bayesiana da Decisão.
Independência e independência condicional
Dois eventos são independentes se:
[ P(A \cap B) = P(A)P(B) ]
A independência condicional costuma ser mais realista:
[ A \perp B \mid C \quad \Longleftrightarrow \quad P(A,B \mid C)=P(A \mid C)P(B \mid C) ]
Muitos modelos probabilísticos (por exemplo, Naive Bayes, modelos gráficos (graphical models)) são construídos ao afirmar independências condicionais. Em aprendizado profundo (deep learning), frequentemente assumimos que exemplos de treinamento são i.i.d. (independentes e identicamente distribuídos, independent and identically distributed) — uma suposição frequentemente violada em séries temporais (time series), sistemas de recomendação (recommender systems) e cenários de implantação (deployment settings).
Variáveis aleatórias e distribuições
Uma variável aleatória (X) mapeia resultados para números. Distribuições descrevem quão prováveis são valores diferentes.
- Discreta: função de massa de probabilidade (probability mass function, pmf) (p(x)=P(X=x))
- Contínua: função densidade de probabilidade (probability density function, pdf) (f(x)) em que (P(a \le X \le b)=\int_a^b f(x),dx)
Exemplos-chave usados em aprendizado de máquina:
- Bernoulli / Categórica (Categorical): rótulos, resultados binários
- Gaussiana (Normal): modelos de ruído, resíduos de regressão, vetores de embedding (embeddings) (aprox.)
- Multinomial: contagens entre categorias (saco de palavras (bag-of-words))
- Poisson: contagens de eventos
- Exponencial: tempos de espera
- Beta / Dirichlet: distribuições a priori para probabilidades
- Gama (Gamma): parâmetros positivos de escala/taxa
- t de Student (Student-t): caudas mais pesadas que a Gaussiana (robustez)
Para um catálogo e intuição mais profundos, veja Variáveis Aleatórias e Distribuições.
Esperança, variância e momentos
A esperança é o valor médio sob uma distribuição:
- Discreta: ( \mathbb{E}[X] = \sum_x x,p(x) )
- Contínua: ( \mathbb{E}[X] = \int x,f(x),dx )
A variância mede a dispersão:
[ \mathrm{Var}(X) = \mathbb{E}[(X-\mathbb{E}[X])^2] = \mathbb{E}[X^2] - (\mathbb{E}[X])^2 ]
Em aprendizado de máquina, esperanças aparecem constantemente:
- funções de risco/objetivo frequentemente são esperanças sobre dados
- gradientes são esperanças (e são aproximados por minilotes (minibatches))
- previsões probabilísticas buscam estimar esperanças condicionais como (P(Y \mid X))
Covariância e correlação (estatística multivariada)
Para variáveis aleatórias (X, Y):
[ \mathrm{Cov}(X,Y)=\mathbb{E}[(X-\mathbb{E}[X])(Y-\mathbb{E}[Y])] ]
Uma matriz de covariância ( \Sigma ) resume covariâncias par a par em dados vetoriais e é fundamental em modelos Gaussianos, análise de componentes principais (principal component analysis, PCA) e branqueamento (whitening). Isso se conecta diretamente a Álgebra Linear.
A correlação normaliza a covariância, mas atenção: correlação mede associação, não causalidade (confundimento (confounding) é comum em dados observacionais em aprendizado de máquina).
Teoremas centrais que justificam aprender a partir de dados
Lei dos Grandes Números (Law of Large Numbers, LLN)
Se (X_1,\dots,X_n) são i.i.d. com média (\mu), então a média amostral converge para (\mu) quando (n\to\infty):
[ \bar{X} = \frac{1}{n}\sum_{i=1}^n X_i \to \mu ]
Essa é a razão básica pela qual médias empíricas aproximam esperanças verdadeiras.
Teorema Central do Limite (Central Limit Theorem, CLT)
Sob condições amenas, somas/médias de variáveis i.i.d. tornam-se aproximadamente normais à medida que (n) cresce:
[ \sqrt{n}\frac{\bar{X}-\mu}{\sigma} \Rightarrow \mathcal{N}(0,1) ]
O TCL motiva intervalos de confiança aproximados e ajuda a explicar por que ruído Gaussiano é uma suposição de modelagem comum.
Da probabilidade à modelagem: verossimilhanças, perdas e aprendizado
Conjunta, marginal e condicional
Para atributos (X) e rótulos (Y), as probabilidades se relacionam por:
[ p(x,y) = p(y \mid x),p(x) = p(x \mid y),p(y) ]
Duas grandes abordagens de modelagem:
- Discriminativa (discriminative): modelar (p(y \mid x)) diretamente (regressão logística (logistic regression), redes neurais (neural nets))
- Gerativa (generative): modelar (p(x \mid y)) e (p(y)) (Naive Bayes, modelos de mistura (mixture models), modelos de difusão (diffusion models) em outra forma)
Verossimilhança e estimação de máxima verossimilhança (maximum likelihood estimation, MLE)
Suponha que os dados (D={x_i}{i=1}^n) sejam i.i.d. de (p\theta(x)). A verossimilhança é:
[ L(\theta) = \prod_{i=1}^n p_\theta(x_i) ]
A MLE escolhe (\hat{\theta}) que maximiza (L(\theta)), frequentemente maximizando a log-verossimilhança:
[ \hat{\theta} = \arg\max_\theta \sum_{i=1}^n \log p_\theta(x_i) ]
Na prática, a maior parte do treinamento em aprendizado de máquina é equivalente a minimizar a log-verossimilhança negativa (negative log-likelihood). Para classificação, a perda de entropia cruzada é a log-verossimilhança negativa de uma distribuição categórica.
Isso se conecta diretamente a Otimização, Cálculo e técnicas como Descida do Gradiente.
Exemplo: MLE de Bernoulli (lançamentos de moeda / taxa de cliques)
Se (x_i \in {0,1}) e (x_i \sim \text{Bernoulli}(p)):
[ \log L(p) = \sum_i x_i \log p + (1-x_i)\log(1-p) ]
A MLE é:
[ \hat{p} = \frac{1}{n}\sum_i x_i ]
Essa é a intuitiva “fração de sucessos”.
Máximo a posteriori (maximum a posteriori, MAP) e regularização
A estimação Bayesiana combina verossimilhança e a priori:
[ p(\theta \mid D) \propto p(D \mid \theta)p(\theta) ]
O MAP escolhe o parâmetro mais provável:
[ \hat{\theta}{MAP} = \arg\max\theta \log p(D \mid \theta) + \log p(\theta) ]
Muitos regularizadores são equivalentes a distribuições a priori:
- Regularização L2 (\lambda|\theta|^2) corresponde a uma distribuição a priori Gaussiana em (\theta)
- Regularização L1 corresponde a uma distribuição a priori de Laplace (promove esparsidade (sparsity))
Essa conexão ajuda a interpretar “regularização” como “preferências plausíveis sobre parâmetros”.
Estimação estatística: estimativas pontuais, intervalos e incerteza
Compromisso viés–variância (bias–variance tradeoff)
Um estimador (\hat{\theta}) tem:
- Viés (bias): erro sistemático ( \mathbb{E}[\hat{\theta}] - \theta )
- Variância (variance): sensibilidade ao ruído de amostragem
Em predição, frequentemente discutimos viés/variância como:
- alto viés → subajuste (underfitting) (rígido demais)
- alta variância → sobreajuste (overfitting) (sensível demais)
Regularização, mais dados e agregação em ensemble (ensembling) podem reduzir variância; modelos mais ricos reduzem viés, mas podem aumentar variância.
Intervalos de confiança (frequentista (frequentist)) vs intervalos críveis (Bayesiano)
- Um intervalo de confiança é um procedimento que, sob amostragem repetida, contém o verdadeiro parâmetro uma fração fixa das vezes (por exemplo, 95%).
- Um intervalo crível expressa diretamente probabilidade a posteriori sobre o parâmetro (por exemplo, (P(\theta \in [a,b]\mid D)=0.95)).
Ambos são úteis; eles respondem a perguntas diferentes e dependem de suposições diferentes. Veja Estimação e Testes de Hipóteses para detalhes e armadilhas comuns.
Bootstrap (bootstrapping) (incerteza prática com pouca matemática)
Métodos de bootstrap estimam incerteza reamostrando o conjunto de dados com reposição.
Exemplo (pseudocódigo estilo Python):
import numpy as np
def bootstrap_ci(values, stat_fn=np.mean, B=2000, alpha=0.05, seed=0):
rng = np.random.default_rng(seed)
n = len(values)
stats = []
for _ in range(B):
sample = rng.choice(values, size=n, replace=True)
stats.append(stat_fn(sample))
lo = np.quantile(stats, alpha / 2)
hi = np.quantile(stats, 1 - alpha / 2)
return lo, hi
Bootstrap é amplamente usado para métricas como acurácia (accuracy), AUC (AUC), erro de calibração (calibration error) e incremento de receita (revenue lift) em experimentos.
Testes de hipóteses (hypothesis testing) e raciocínio estatístico (e como dá errado)
Testes de hipóteses tentam detectar efeitos (por exemplo, “o modelo B é melhor que o modelo A”) enquanto controlam falsos positivos.
Conceitos comuns:
- Hipótese nula (H_0): sem efeito / sem diferença
- valor-p (p-value): probabilidade (sob (H_0)) de obter resultados pelo menos tão extremos quanto os observados
- Erro do tipo I (Type I error): falso positivo; Erro do tipo II (Type II error): falso negativo
- poder estatístico (power): probabilidade de detectar um efeito real
Armadilhas que frequentemente afetam a prática em aprendizado de máquina:
- Múltiplas comparações (multiple comparisons) (testar muitos modelos/métricas e reportar o melhor)
- Manipulação de significância (p-hacking) (mudar a análise até que a significância apareça)
- Vazamento de dados (data leakage) (informações do teste influenciam treinamento/seleção)
- Não independência (non-independence) (por exemplo, usuários repetidos, deriva temporal)
- Interpretação errada de valores-p (eles não são “a probabilidade de a hipótese ser verdadeira”)
Para um tratamento mais completo, veja Estimação e Testes de Hipóteses.
Predição probabilística e avaliação
Muitos sistemas de IA devem produzir probabilidades, não apenas rótulos rígidos — especialmente em cenários de alto risco (triagem médica, fraude, moderação de conteúdo).
Calibração (calibration)
Um modelo é calibrado se, entre exemplos previstos com probabilidade 0,8, cerca de 80% forem de fato positivos. Redes profundas (deep networks) modernas frequentemente são mal calibradas, especialmente sob mudança de distribuição (distribution shift).
Métodos de calibração: escalonamento por temperatura (temperature scaling), regressão isotônica (isotonic regression), escalonamento de Platt (Platt scaling) (para alguns modelos). Avaliar calibração está intimamente ligado a Regras de Pontuação Adequadas.
Regras de pontuação adequadas (proper scoring rules)
Uma regra de pontuação avalia previsões probabilísticas. Regras de pontuação adequadas incentivam probabilidades honestas. Exemplos:
- Pontuação logarítmica (log score) (entropia cruzada / log-verossimilhança negativa)
- Pontuação de Brier (Brier score) (erro quadrático sobre probabilidades)
Veja Regras de Pontuação Adequadas para entender por que isso importa e como se relaciona a objetivos de treinamento.
Estimação de Monte Carlo (Monte Carlo estimation): computando esperanças por amostragem
Muitas quantidades úteis são esperanças difíceis de computar analiticamente:
[ \mathbb{E}_{X \sim p}[f(X)] ]
Monte Carlo as aproxima com amostras:
[ \mathbb{E}[f(X)] \approx \frac{1}{N}\sum_{i=1}^N f(x_i), \quad x_i \sim p ]
Exemplo simples: estimar a média e sua incerteza:
import numpy as np
def mc_estimate_mean(f, sampler, N=10000, seed=0):
rng = np.random.default_rng(seed)
xs = sampler(rng, N) # draw samples
vals = f(xs)
mean = vals.mean()
stderr = vals.std(ddof=1) / np.sqrt(N)
return mean, stderr
Monte Carlo é fundamental em aprendizado de máquina probabilístico, computação Bayesiana e modelos generativos modernos. Artigos relacionados: Métodos de Monte Carlo e Monte Carlo via Cadeias de Markov (MCMC).
Seleção de modelos: equilibrando ajuste e complexidade
Um modelo que se ajusta extremamente bem aos dados de treinamento pode generalizar mal. Ferramentas estatísticas ajudam a formalizar esse compromisso.
Validação cruzada (cross-validation) (padrão prático)
- Dividir os dados em partições (folds)
- Treinar em (k-1) partições, avaliar na partição reservada
- Calcular a média de desempenho entre as partições
Isso aproxima o desempenho fora da amostra e reduz dependência de uma única divisão treino/teste (train/test split). Cuidado com vazamento ao fazer pré-processamento: ajuste escaladores/codificadores dentro de cada partição de treinamento.
Critérios de informação (information criteria) (AIC/BIC) e comparação baseada em verossimilhança
Quando verossimilhanças estão disponíveis, critérios de informação fornecem aproximações rápidas da generalização:
- AIC enfatiza acurácia preditiva
- BIC aproxima a evidência do modelo sob suposições
Veja Critérios de Informação para detalhes.
Exemplos práticos em aprendizado de máquina
Exemplo 1: filtro de spam com Naive Bayes (regra de Bayes em ação)
Seja (Y \in {\text{spam}, \text{ham}}) e (X) represente contagens de palavras. Naive Bayes assume independência condicional das palavras dado a classe:
[ p(x \mid y) = \prod_j p(x_j \mid y) ]
Então:
[ p(y \mid x) \propto p(y)\prod_j p(x_j \mid y) ]
Apesar de suposições de independência irreais, Naive Bayes frequentemente funciona bem como baseline devido a forte eficiência estatística e robustez.
Exemplo 2: regressão logística como modelagem probabilística
A regressão logística modela:
[ p(y=1 \mid x) = \sigma(w^\top x + b) ]
Treinar com entropia cruzada é MLE para uma verossimilhança de Bernoulli. Adicionar regularização L2 corresponde a MAP com uma distribuição a priori Gaussiana sobre os pesos. Isso é uma ponte concreta entre probabilidade, estatística e otimização.
Exemplo 3: limiares de decisão sensíveis à incerteza
Se um modelo retorna (p=\hat{P}(Y=1\mid x)), você pode escolher um limiar de decisão (decision threshold) (t) com base em custos:
- prever 1 se (p \ge t)
- caso contrário, prever 0
Se falsos positivos forem custosos (por exemplo, bloquear pagamentos legítimos), escolha um limiar maior. Esse é o núcleo da Teoria Bayesiana da Decisão: decisões devem combinar probabilidades com perda (loss).
“Pegadinhas” estatísticas comuns na prática de IA
- Mudança de conjunto de dados (dataset shift): distribuições de treinamento e implantação diferem. Probabilidades e estimativas de erro podem se tornar não confiáveis.
- Viés de seleção (selection bias): os dados de treinamento refletem um processo filtrado (por exemplo, apenas empréstimos aprovados), distorcendo relações aprendidas.
- Não estacionariedade (non-stationarity): o comportamento do usuário muda ao longo do tempo; suposições i.i.d. falham.
- Confundimento: variáveis correlacionadas podem enganar modelos e avaliações.
- Manipulação de métricas (metric hacking): otimizar uma métrica proxy pode piorar resultados reais (lei de Goodhart (Goodhart’s law) na prática).
Boa higiene estatística inclui desenho experimental cuidadoso, avaliação robusta e ceticismo em relação a resumos de número único.
Como isso se conecta ao restante do primer de matemática
Probabilidade e estatística formam um hub que se conecta a muitas outras fundações:
- Perdas como entropia cruzada se relacionam a entropia e divergência de Kullback–Leibler (KL divergence) em Teoria da Informação.
- Matrizes de covariância e Gaussianas multivariadas dependem de Álgebra Linear.
- Treinamento via maximização de verossimilhança depende de Cálculo e Otimização.
- Estimação baseada em amostragem depende de Métodos de Monte Carlo e Monte Carlo via Cadeias de Markov (MCMC).
- Agir sob incerteza é formalizado em Teoria Bayesiana da Decisão.
Resumo
Probabilidade e estatística fornecem:
- Um arcabouço principiado para incerteza (regras de probabilidade, regra de Bayes, independência)
- A maquinaria de distribuições (variáveis aleatórias, esperança, variância, covariância)
- A justificativa para aprender a partir de amostras (Lei dos Grandes Números, Teorema Central do Limite)
- Métodos práticos para estimação e avaliação (MLE/MAP, intervalos, bootstrap, calibração)
- Ferramentas para seleção de modelos e proteção contra sobreajuste (validação cruzada, critérios de informação)
- Hábitos de raciocínio estatístico que evitam falhas comuns em implantação (vazamento, múltiplas comparações, mudança)
Em IA, esses não são tópicos opcionais de pano de fundo — são a cola conceitual por trás de objetivos de treinamento, avaliação, tomada de decisão sensível à incerteza e implantação confiável.