Probabilidade e Estatística

Por que probabilidade e estatística importam na IA (AI)

Sistemas modernos de IA operam sob incerteza:

Os dados são ruidosos, incompletos e frequentemente enviesados.
Os modelos são aproximações imperfeitas da realidade.
As previsões precisam generalizar para casos não vistos.
Muitas tarefas envolvem inerentemente aleatoriedade (comportamento de usuários, ruído de sensores, ambientes estocásticos).

A probabilidade fornece uma linguagem para descrever incerteza. A estatística fornece ferramentas para aprender com dados — estimar quantidades desconhecidas, quantificar erro e tomar decisões com base em evidências.

Em aprendizado de máquina (machine learning), essas ideias aparecem em toda parte: classificadores probabilísticos (probabilistic classifiers), estimativas de incerteza (uncertainty estimates), funções de perda (loss functions) como entropia cruzada (cross-entropy), regularização (regularization), métricas de avaliação (evaluation metrics), testes A/B (A/B testing) e seleção de modelos (model selection).

Este artigo constrói intuição e competência prática; aprofundamentos são cobertos em páginas relacionadas como Variáveis Aleatórias e Distribuições, Inferência Bayesiana, Estimação e Testes de Hipóteses, Regras de Pontuação Adequadas e Critérios de Informação.

Probabilidade: um cálculo da incerteza

Eventos e axiomas

Um espaço de probabilidade consiste em:

Um espaço amostral ( \Omega ): todos os resultados possíveis
Eventos (A \subseteq \Omega): conjuntos de resultados
Uma medida de probabilidade (P(\cdot)) que satisfaz:
1. (P(A) \ge 0)
2. (P(\Omega)=1)
3. Se (A_i) são disjuntos, (P(\cup_i A_i)=\sum_i P(A_i))

Esses axiomas fornecem regras consistentes para raciocinar sob incerteza.

Probabilidade condicional e regra de Bayes (Bayes’ rule)

A probabilidade condicional formaliza “probabilidade dada uma evidência”:

[ P(A \mid B) = \frac{P(A \cap B)}{P(B)} \quad \text{(para } P(B) > 0\text{)} ]

Daí segue a regra de Bayes:

[ P(A \mid B) = \frac{P(B \mid A)P(A)}{P(B)} ]

Em termos de aprendizado de máquina:

(A) pode ser uma hipótese/rótulo/valor de parâmetro
(B) são dados observados
(P(B \mid A)) é uma verossimilhança (likelihood)
(P(A)) é uma distribuição a priori (prior)
(P(A \mid B)) é uma distribuição a posteriori (posterior)

Essa perspectiva é central para Inferência Bayesiana e Teoria Bayesiana da Decisão.

Independência e independência condicional

Dois eventos são independentes se:

[ P(A \cap B) = P(A)P(B) ]

A independência condicional costuma ser mais realista:

[ A \perp B \mid C \quad \Longleftrightarrow \quad P(A,B \mid C)=P(A \mid C)P(B \mid C) ]

Muitos modelos probabilísticos (por exemplo, Naive Bayes, modelos gráficos (graphical models)) são construídos ao afirmar independências condicionais. Em aprendizado profundo (deep learning), frequentemente assumimos que exemplos de treinamento são i.i.d. (independentes e identicamente distribuídos, independent and identically distributed) — uma suposição frequentemente violada em séries temporais (time series), sistemas de recomendação (recommender systems) e cenários de implantação (deployment settings).

Variáveis aleatórias e distribuições

Uma variável aleatória (X) mapeia resultados para números. Distribuições descrevem quão prováveis são valores diferentes.

Discreta: função de massa de probabilidade (probability mass function, pmf) (p(x)=P(X=x))
Contínua: função densidade de probabilidade (probability density function, pdf) (f(x)) em que (P(a \le X \le b)=\int_a^b f(x),dx)

Exemplos-chave usados em aprendizado de máquina:

Bernoulli / Categórica (Categorical): rótulos, resultados binários
Gaussiana (Normal): modelos de ruído, resíduos de regressão, vetores de embedding (embeddings) (aprox.)
Multinomial: contagens entre categorias (saco de palavras (bag-of-words))
Poisson: contagens de eventos
Exponencial: tempos de espera
Beta / Dirichlet: distribuições a priori para probabilidades
Gama (Gamma): parâmetros positivos de escala/taxa
t de Student (Student-t): caudas mais pesadas que a Gaussiana (robustez)

Para um catálogo e intuição mais profundos, veja Variáveis Aleatórias e Distribuições.

Esperança, variância e momentos

A esperança é o valor médio sob uma distribuição:

Discreta: ( \mathbb{E}[X] = \sum_x x,p(x) )
Contínua: ( \mathbb{E}[X] = \int x,f(x),dx )

A variância mede a dispersão:

[ \mathrm{Var}(X) = \mathbb{E}[(X-\mathbb{E}[X])^2] = \mathbb{E}[X^2] - (\mathbb{E}[X])^2 ]

Em aprendizado de máquina, esperanças aparecem constantemente:

funções de risco/objetivo frequentemente são esperanças sobre dados
gradientes são esperanças (e são aproximados por minilotes (minibatches))
previsões probabilísticas buscam estimar esperanças condicionais como (P(Y \mid X))

Covariância e correlação (estatística multivariada)

Para variáveis aleatórias (X, Y):

[ \mathrm{Cov}(X,Y)=\mathbb{E}[(X-\mathbb{E}[X])(Y-\mathbb{E}[Y])] ]

Uma matriz de covariância ( \Sigma ) resume covariâncias par a par em dados vetoriais e é fundamental em modelos Gaussianos, análise de componentes principais (principal component analysis, PCA) e branqueamento (whitening). Isso se conecta diretamente a Álgebra Linear.

A correlação normaliza a covariância, mas atenção: correlação mede associação, não causalidade (confundimento (confounding) é comum em dados observacionais em aprendizado de máquina).

Teoremas centrais que justificam aprender a partir de dados

Lei dos Grandes Números (Law of Large Numbers, LLN)

Se (X_1,\dots,X_n) são i.i.d. com média (\mu), então a média amostral converge para (\mu) quando (n\to\infty):

[ \bar{X} = \frac{1}{n}\sum_{i=1}^n X_i \to \mu ]

Essa é a razão básica pela qual médias empíricas aproximam esperanças verdadeiras.

Teorema Central do Limite (Central Limit Theorem, CLT)

Sob condições amenas, somas/médias de variáveis i.i.d. tornam-se aproximadamente normais à medida que (n) cresce:

[ \sqrt{n}\frac{\bar{X}-\mu}{\sigma} \Rightarrow \mathcal{N}(0,1) ]

O TCL motiva intervalos de confiança aproximados e ajuda a explicar por que ruído Gaussiano é uma suposição de modelagem comum.

Da probabilidade à modelagem: verossimilhanças, perdas e aprendizado

Conjunta, marginal e condicional

Para atributos (X) e rótulos (Y), as probabilidades se relacionam por:

[ p(x,y) = p(y \mid x),p(x) = p(x \mid y),p(y) ]

Duas grandes abordagens de modelagem:

Discriminativa (discriminative): modelar (p(y \mid x)) diretamente (regressão logística (logistic regression), redes neurais (neural nets))
Gerativa (generative): modelar (p(x \mid y)) e (p(y)) (Naive Bayes, modelos de mistura (mixture models), modelos de difusão (diffusion models) em outra forma)

Verossimilhança e estimação de máxima verossimilhança (maximum likelihood estimation, MLE)

Suponha que os dados (D={x_i}{i=1}^n) sejam i.i.d. de (p\theta(x)). A verossimilhança é:

[ L(\theta) = \prod_{i=1}^n p_\theta(x_i) ]

A MLE escolhe (\hat{\theta}) que maximiza (L(\theta)), frequentemente maximizando a log-verossimilhança:

[ \hat{\theta} = \arg\max_\theta \sum_{i=1}^n \log p_\theta(x_i) ]

Na prática, a maior parte do treinamento em aprendizado de máquina é equivalente a minimizar a log-verossimilhança negativa (negative log-likelihood). Para classificação, a perda de entropia cruzada é a log-verossimilhança negativa de uma distribuição categórica.

Isso se conecta diretamente a Otimização, Cálculo e técnicas como Descida do Gradiente.

Exemplo: MLE de Bernoulli (lançamentos de moeda / taxa de cliques)

Se (x_i \in {0,1}) e (x_i \sim \text{Bernoulli}(p)):

[ \log L(p) = \sum_i x_i \log p + (1-x_i)\log(1-p) ]

A MLE é:

[ \hat{p} = \frac{1}{n}\sum_i x_i ]

Essa é a intuitiva “fração de sucessos”.

Máximo a posteriori (maximum a posteriori, MAP) e regularização

A estimação Bayesiana combina verossimilhança e a priori:

[ p(\theta \mid D) \propto p(D \mid \theta)p(\theta) ]

O MAP escolhe o parâmetro mais provável:

[ \hat{\theta}{MAP} = \arg\max\theta \log p(D \mid \theta) + \log p(\theta) ]

Muitos regularizadores são equivalentes a distribuições a priori:

Regularização L2 (\lambda|\theta|^2) corresponde a uma distribuição a priori Gaussiana em (\theta)
Regularização L1 corresponde a uma distribuição a priori de Laplace (promove esparsidade (sparsity))

Essa conexão ajuda a interpretar “regularização” como “preferências plausíveis sobre parâmetros”.

Estimação estatística: estimativas pontuais, intervalos e incerteza

Compromisso viés–variância (bias–variance tradeoff)

Um estimador (\hat{\theta}) tem:

Viés (bias): erro sistemático ( \mathbb{E}[\hat{\theta}] - \theta )
Variância (variance): sensibilidade ao ruído de amostragem

Em predição, frequentemente discutimos viés/variância como:

alto viés → subajuste (underfitting) (rígido demais)
alta variância → sobreajuste (overfitting) (sensível demais)

Regularização, mais dados e agregação em ensemble (ensembling) podem reduzir variância; modelos mais ricos reduzem viés, mas podem aumentar variância.

Intervalos de confiança (frequentista (frequentist)) vs intervalos críveis (Bayesiano)

Um intervalo de confiança é um procedimento que, sob amostragem repetida, contém o verdadeiro parâmetro uma fração fixa das vezes (por exemplo, 95%).
Um intervalo crível expressa diretamente probabilidade a posteriori sobre o parâmetro (por exemplo, (P(\theta \in [a,b]\mid D)=0.95)).

Ambos são úteis; eles respondem a perguntas diferentes e dependem de suposições diferentes. Veja Estimação e Testes de Hipóteses para detalhes e armadilhas comuns.

Bootstrap (bootstrapping) (incerteza prática com pouca matemática)

Métodos de bootstrap estimam incerteza reamostrando o conjunto de dados com reposição.

Exemplo (pseudocódigo estilo Python):

import numpy as np

def bootstrap_ci(values, stat_fn=np.mean, B=2000, alpha=0.05, seed=0):
    rng = np.random.default_rng(seed)
    n = len(values)
    stats = []
    for _ in range(B):
        sample = rng.choice(values, size=n, replace=True)
        stats.append(stat_fn(sample))
    lo = np.quantile(stats, alpha / 2)
    hi = np.quantile(stats, 1 - alpha / 2)
    return lo, hi

Bootstrap é amplamente usado para métricas como acurácia (accuracy), AUC (AUC), erro de calibração (calibration error) e incremento de receita (revenue lift) em experimentos.

Testes de hipóteses (hypothesis testing) e raciocínio estatístico (e como dá errado)

Testes de hipóteses tentam detectar efeitos (por exemplo, “o modelo B é melhor que o modelo A”) enquanto controlam falsos positivos.

Conceitos comuns:

Hipótese nula (H_0): sem efeito / sem diferença
valor-p (p-value): probabilidade (sob (H_0)) de obter resultados pelo menos tão extremos quanto os observados
Erro do tipo I (Type I error): falso positivo; Erro do tipo II (Type II error): falso negativo
poder estatístico (power): probabilidade de detectar um efeito real

Armadilhas que frequentemente afetam a prática em aprendizado de máquina:

Múltiplas comparações (multiple comparisons) (testar muitos modelos/métricas e reportar o melhor)
Manipulação de significância (p-hacking) (mudar a análise até que a significância apareça)
Vazamento de dados (data leakage) (informações do teste influenciam treinamento/seleção)
Não independência (non-independence) (por exemplo, usuários repetidos, deriva temporal)
Interpretação errada de valores-p (eles não são “a probabilidade de a hipótese ser verdadeira”)

Para um tratamento mais completo, veja Estimação e Testes de Hipóteses.

Predição probabilística e avaliação

Muitos sistemas de IA devem produzir probabilidades, não apenas rótulos rígidos — especialmente em cenários de alto risco (triagem médica, fraude, moderação de conteúdo).

Calibração (calibration)

Um modelo é calibrado se, entre exemplos previstos com probabilidade 0,8, cerca de 80% forem de fato positivos. Redes profundas (deep networks) modernas frequentemente são mal calibradas, especialmente sob mudança de distribuição (distribution shift).

Métodos de calibração: escalonamento por temperatura (temperature scaling), regressão isotônica (isotonic regression), escalonamento de Platt (Platt scaling) (para alguns modelos). Avaliar calibração está intimamente ligado a Regras de Pontuação Adequadas.

Regras de pontuação adequadas (proper scoring rules)

Uma regra de pontuação avalia previsões probabilísticas. Regras de pontuação adequadas incentivam probabilidades honestas. Exemplos:

Pontuação logarítmica (log score) (entropia cruzada / log-verossimilhança negativa)
Pontuação de Brier (Brier score) (erro quadrático sobre probabilidades)

Veja Regras de Pontuação Adequadas para entender por que isso importa e como se relaciona a objetivos de treinamento.

Estimação de Monte Carlo (Monte Carlo estimation): computando esperanças por amostragem

Muitas quantidades úteis são esperanças difíceis de computar analiticamente:

[ \mathbb{E}_{X \sim p}[f(X)] ]

Monte Carlo as aproxima com amostras:

[ \mathbb{E}[f(X)] \approx \frac{1}{N}\sum_{i=1}^N f(x_i), \quad x_i \sim p ]

Exemplo simples: estimar a média e sua incerteza:

import numpy as np

def mc_estimate_mean(f, sampler, N=10000, seed=0):
    rng = np.random.default_rng(seed)
    xs = sampler(rng, N)          # draw samples
    vals = f(xs)
    mean = vals.mean()
    stderr = vals.std(ddof=1) / np.sqrt(N)
    return mean, stderr

Monte Carlo é fundamental em aprendizado de máquina probabilístico, computação Bayesiana e modelos generativos modernos. Artigos relacionados: Métodos de Monte Carlo e Monte Carlo via Cadeias de Markov (MCMC).

Seleção de modelos: equilibrando ajuste e complexidade

Um modelo que se ajusta extremamente bem aos dados de treinamento pode generalizar mal. Ferramentas estatísticas ajudam a formalizar esse compromisso.

Validação cruzada (cross-validation) (padrão prático)

Dividir os dados em partições (folds)
Treinar em (k-1) partições, avaliar na partição reservada
Calcular a média de desempenho entre as partições

Isso aproxima o desempenho fora da amostra e reduz dependência de uma única divisão treino/teste (train/test split). Cuidado com vazamento ao fazer pré-processamento: ajuste escaladores/codificadores dentro de cada partição de treinamento.

Critérios de informação (information criteria) (AIC/BIC) e comparação baseada em verossimilhança

Quando verossimilhanças estão disponíveis, critérios de informação fornecem aproximações rápidas da generalização:

AIC enfatiza acurácia preditiva
BIC aproxima a evidência do modelo sob suposições

Veja Critérios de Informação para detalhes.

Exemplos práticos em aprendizado de máquina

Exemplo 1: filtro de spam com Naive Bayes (regra de Bayes em ação)

Seja (Y \in {\text{spam}, \text{ham}}) e (X) represente contagens de palavras. Naive Bayes assume independência condicional das palavras dado a classe:

[ p(x \mid y) = \prod_j p(x_j \mid y) ]

Então:

[ p(y \mid x) \propto p(y)\prod_j p(x_j \mid y) ]

Apesar de suposições de independência irreais, Naive Bayes frequentemente funciona bem como baseline devido a forte eficiência estatística e robustez.

Exemplo 2: regressão logística como modelagem probabilística

A regressão logística modela:

[ p(y=1 \mid x) = \sigma(w^\top x + b) ]

Treinar com entropia cruzada é MLE para uma verossimilhança de Bernoulli. Adicionar regularização L2 corresponde a MAP com uma distribuição a priori Gaussiana sobre os pesos. Isso é uma ponte concreta entre probabilidade, estatística e otimização.

Exemplo 3: limiares de decisão sensíveis à incerteza

Se um modelo retorna (p=\hat{P}(Y=1\mid x)), você pode escolher um limiar de decisão (decision threshold) (t) com base em custos:

prever 1 se (p \ge t)
caso contrário, prever 0

Se falsos positivos forem custosos (por exemplo, bloquear pagamentos legítimos), escolha um limiar maior. Esse é o núcleo da Teoria Bayesiana da Decisão: decisões devem combinar probabilidades com perda (loss).

“Pegadinhas” estatísticas comuns na prática de IA

Mudança de conjunto de dados (dataset shift): distribuições de treinamento e implantação diferem. Probabilidades e estimativas de erro podem se tornar não confiáveis.
Viés de seleção (selection bias): os dados de treinamento refletem um processo filtrado (por exemplo, apenas empréstimos aprovados), distorcendo relações aprendidas.
Não estacionariedade (non-stationarity): o comportamento do usuário muda ao longo do tempo; suposições i.i.d. falham.
Confundimento: variáveis correlacionadas podem enganar modelos e avaliações.
Manipulação de métricas (metric hacking): otimizar uma métrica proxy pode piorar resultados reais (lei de Goodhart (Goodhart’s law) na prática).

Boa higiene estatística inclui desenho experimental cuidadoso, avaliação robusta e ceticismo em relação a resumos de número único.

Como isso se conecta ao restante do primer de matemática

Probabilidade e estatística formam um hub que se conecta a muitas outras fundações:

Perdas como entropia cruzada se relacionam a entropia e divergência de Kullback–Leibler (KL divergence) em Teoria da Informação.
Matrizes de covariância e Gaussianas multivariadas dependem de Álgebra Linear.
Treinamento via maximização de verossimilhança depende de Cálculo e Otimização.
Estimação baseada em amostragem depende de Métodos de Monte Carlo e Monte Carlo via Cadeias de Markov (MCMC).
Agir sob incerteza é formalizado em Teoria Bayesiana da Decisão.

Resumo

Probabilidade e estatística fornecem:

Um arcabouço principiado para incerteza (regras de probabilidade, regra de Bayes, independência)
A maquinaria de distribuições (variáveis aleatórias, esperança, variância, covariância)
A justificativa para aprender a partir de amostras (Lei dos Grandes Números, Teorema Central do Limite)
Métodos práticos para estimação e avaliação (MLE/MAP, intervalos, bootstrap, calibração)
Ferramentas para seleção de modelos e proteção contra sobreajuste (validação cruzada, critérios de informação)
Hábitos de raciocínio estatístico que evitam falhas comuns em implantação (vazamento, múltiplas comparações, mudança)

Em IA, esses não são tópicos opcionais de pano de fundo — são a cola conceitual por trás de objetivos de treinamento, avaliação, tomada de decisão sensível à incerteza e implantação confiável.

Tópico pai

←Introdução à Matemática

Subtópicos

Estimação de Máxima Verossimilhança (Maximum Likelihood Estimation, MLE)Explica a estimação de máxima verossimilhança (maximum likelihood estimation, MLE) como um método geral para ajustar modelos probabilísticos, escolhendo parâmetros que maximizam a verossimilhança dos dados observados. Aborda a log-verossimilhança (log-likelihood), a otimização baseada em gradiente (gradient-based optimization), conexões com a entropia cruzada (cross-entropy) e a divergência KL (Kullback–Leibler), além de questões práticas como identificabilidade (identifiability), viés/variância (bias/variance) e regularização (regularization).
Critérios de InformaçãoAIC/BIC e critérios relacionados para comparação e seleção de modelos.
Estimação e Teste de HipótesesEstimação pontual e por intervalo, valores-p (p-values) e armadilhas comuns em testes.
Inferência BayesianaPrios (priors), posteriores (posteriors), verossimilhanças (likelihoods) e atualização bayesiana (Bayesian updating) para aprender com dados.
Inferência VariacionalApresenta a inferência variacional como uma abordagem baseada em otimização para aproximar distribuições a posteriori Bayesianas, escolhendo uma família tratável e minimizando a divergência KL (Kullback-Leibler) (maximizando o ELBO (Evidence Lower Bound)). Cobre ideias centrais como inferência variacional de campo médio (mean-field VI), ascensão por coordenadas (coordinate ascent), inferência variacional estocástica/caixa-preta (stochastic/black-box VI) e como a inferência variacional se relaciona com a inferência Bayesiana, MCMC (Markov chain Monte Carlo) e VAEs (Variational Autoencoders).
Informação de FisherDefine a informação de Fisher como uma medida de quanto uma variável aleatória (via sua verossimilhança (likelihood)) informa sobre um parâmetro desconhecido, incluindo formas equivalentes via a função escore (score) e a Hessiana esperada (expected Hessian). Cobre propriedades e usos importantes, como o limite de Cramér–Rao (Cramér–Rao bound), a normalidade assintótica e a variância do estimador de máxima verossimilhança (MLE), e seu papel em aproximações de Laplace (Laplace approximations) e em gradientes naturais (natural gradients).
Limite Inferior da Evidência (Evidence Lower Bound, ELBO)Define o Limite Inferior da Evidência (Evidence Lower Bound, ELBO) como um limite inferior tratável da log-verossimilhança marginal usado em inferência variacional. Explica sua decomposição em uma log-verossimilhança esperada (termo de reconstrução) menos um regularizador de divergência KL (Kullback-Leibler), e como maximizar o ELBO corresponde a minimizar a divergência KL em relação ao posterior verdadeiro (com conexões a VAEs).
Maximização da ExpectativaAborda o algoritmo de Maximização da Expectativa (Expectation–Maximization, EM) para estimativa por máxima verossimilhança/MAP em modelos de variáveis latentes: a etapa E (cálculo das estatísticas suficientes esperadas sob a posteriori atual sobre as variáveis ocultas) e a etapa M (atualização dos parâmetros), incluindo intuição sobre convergência e usos comuns, como modelos de mistura gaussiana, HMMs (Baum–Welch) e aprendizado de parâmetros em redes bayesianas com dados ausentes.
Priors Conjugados (Conjugate Priors)Explica priors conjugados (conjugate priors) na inferência bayesiana (Bayesian inference): pares prior–verossimilhança (prior–likelihood) que produzem posteriores (posteriors) na mesma família de distribuições, permitindo atualização bayesiana em forma fechada (closed-form Bayesian updating). Aborda exemplos comuns (Beta–Bernoulli, Dirichlet–Categórica/Multinomial, Normal–Normal, Gama–Poisson) e por que são úteis na prática (por exemplo, amostragem de Thompson (Thompson sampling) e atualizações online (online updates)).
Programação ProbabilísticaIntroduz programação probabilística: especificar modelos bayesianos como programas e usar inferência automatizada (automated inference) (por exemplo, MCMC, inferência variacional (variational inference)) para calcular posteriores. Aborda abstrações centrais (variáveis aleatórias (random variables), modelos generativos (generative models), condicionamento (conditioning)), fluxos de trabalho típicos e quando a programação probabilística é útil versus inferência derivada manualmente.
Regras de Pontuação AdequadasComo avaliar previsões probabilísticas (pontuação logarítmica (log score), pontuação de Brier (Brier score)) e por que isso importa.
Variáveis Aleatórias e DistribuiçõesDistribuições comuns e como raciocinar sobre a aleatoriedade.