Modelos Lineares e Geometria

Por que “modelos lineares (linear models)” são fundamentalmente geométricos

Modelos lineares muitas vezes são apresentados como equações simples — retas para regressão, hiperplanos para classificação. O que os torna poderosos é que eles traduzem o aprendizado em geometria em um espaço vetorial (vector space):

Pontos de dados se tornam vetores em (\mathbb{R}^d)
Parâmetros do modelo se tornam um vetor (w \in \mathbb{R}^d) (mais um intercepto (intercept) (b))
Predições e decisões vêm de produtos escalares (dot products) (w^\top x)
O treinamento se torna a escolha de um hiperplano (hyperplane) (classificação) ou de uma projeção (projection) (regressão)

Esse ponto de vista geométrico ajuda a explicar:

o que é uma fronteira de decisão (decision boundary),
quando os dados são linearmente separáveis (linearly separable),
como a regularização (regularization) muda as soluções,
por que escalar características (features) importa,
e como modelos lineares se relacionam com modelos modernos como Redes Neurais.

Se você quiser revisar vetores, normas e produtos escalares, veja Introdução à Matemática.

Dados como pontos em um espaço de características (feature space)

Suponha que cada exemplo seja representado por um vetor de características (feature vector):

[ x = [x_1, x_2, \dots, x_d]^\top \in \mathbb{R}^d ]

Um conjunto de dados é, então, uma nuvem de pontos em um espaço (d)-dimensional. Os rótulos variam conforme a tarefa:

Regressão (regression): (y \in \mathbb{R})
Classificação binária (binary classification): (y \in {-1, +1}) ou (y \in {0,1})
Classificação multiclasse (multiclass classification): (y \in {1,\dots,K})

Adicionando o intercepto como geometria

Um modelo linear costuma ser escrito como:

[ \hat{y} = w^\top x + b ]

Geometricamente, (b) desloca o hiperplano para longe da origem. Um truque comum é incorporar (b) ao vetor de pesos ao ampliar as características:

[ \tilde{x} = \begin{bmatrix} x \ 1 \end{bmatrix}, \quad \tilde{w} = \begin{bmatrix} w \ b \end{bmatrix} \Rightarrow \hat{y} = \tilde{w}^\top \tilde{x} ]

Agora o modelo é um produto escalar puro em (\mathbb{R}^{d+1}).

Produtos escalares, ângulos e “alinhamento (alignment)”

O produto escalar pode ser escrito como:

[ w^\top x = |w||x|\cos(\theta) ]

Então (para magnitudes fixas) o escore é alto quando:

(x) aponta em uma direção similar a (w) (ângulo (\theta) pequeno),
e baixo/negativo quando aponta na direção oposta.

É por isso que modelos lineares podem ser interpretados como medindo o alinhamento com uma direção aprendida (w).

Hiperplanos: a geometria das fronteiras de decisão

Um hiperplano em (\mathbb{R}^d) é o conjunto de pontos que satisfaz:

[ w^\top x + b = 0 ]

Em 2D, um hiperplano é uma reta.
Em 3D, é um plano.
Em dimensões mais altas, é uma superfície plana ((d-1))-dimensional.

O vetor (w) é normal (perpendicular) ao hiperplano: ele aponta na direção em que o escore aumenta mais rapidamente.

Distância assinada até a fronteira

Uma quantidade geométrica-chave é a distância assinada (signed distance) de um ponto (x) ao hiperplano:

[ \text{dist}(x) = \frac{w^\top x + b}{|w|} ]

Positivo significa um lado da fronteira.
Negativo significa o outro lado.
A magnitude é “o quão longe” o ponto está da fronteira.

Essa distância aparece em classificadores baseados em margem, como as máquinas de vetores de suporte (Support Vector Machines, SVMs), e ajuda a construir intuição sobre confiança: pontos longe da fronteira frequentemente são mais fáceis de classificar.

Regras de decisão para classificação

Um classificador linear simples usa:

[ \hat{y} = \text{sign}(w^\top x + b) ]

A fronteira de decisão é onde o sinal muda ((w^\top x + b = 0)).
Os dois semiespaços correspondem às classes previstas.

Essa fronteira é sempre linear no espaço de características de entrada. Se ela parece curva depende de como você engenheirou as características (mais sobre isso adiante).

Regressão linear como projeção (geometria de mínimos quadrados)

Na regressão linear, você prevê um valor real:

[ \hat{y} = w^\top x + b ]

Dada uma matriz de projeto (design matrix) (X \in \mathbb{R}^{n \times d}) e alvos (y \in \mathbb{R}^n), os mínimos quadrados ordinários (ordinary least squares) escolhem (w) para minimizar:

[ \min_w |Xw - y|_2^2 ]

A visão de projeção

O conjunto de todas as predições possíveis (Xw) forma um subespaço (o espaço coluna (column space) de (X)). Mínimos quadrados encontra o vetor de predição (\hat{y} = Xw^*) que é a projeção ortogonal (orthogonal projection) de (y) nesse subespaço.

Geometricamente:

(y) é um ponto em (\mathbb{R}^n)
(\hat{y}) é o ponto mais próximo de (y) que você consegue alcançar variando (w)
o resíduo (r = y - \hat{y}) é ortogonal ao espaço coluna de (X)

Essa ortogonalidade leva às equações normais (normal equations):

[ X^\top(Xw - y) = 0 \quad \Rightarrow \quad X^\top X w = X^\top y ]

Isso também explica por que colinearidade (collinearity) (colunas quase dependentes) causa instabilidade: (X^\top X) fica mal-condicionada (ill-conditioned).

Exemplo prático: ajuste com mínimos quadrados (NumPy)

import numpy as np

# Synthetic data: y ≈ 2x + 1 with noise
rng = np.random.default_rng(0)
x = rng.uniform(-2, 2, size=50)
y = 2 * x + 1 + rng.normal(scale=0.5, size=50)

# Design matrix with intercept
X = np.c_[x, np.ones_like(x)]  # columns: [x, 1]

# Solve min ||Xw - y|| using least squares
w, b = np.linalg.lstsq(X, y, rcond=None)[0]
print(w, b)

# Predict
y_hat = w * x + b

Geometricamente, np.linalg.lstsq está computando a projeção de (y) sobre o span das colunas ([x, 1]).

Regularização como geometria (Ridge e Lasso)

Regularização constrange o modelo para evitar pesos excessivamente grandes, o que frequentemente melhora a generalização (generalization) (veja Teoria do Aprendizado).

Regressão Ridge (Ridge regression) (L2): [ \min_w |Xw-y|_2^2 + \lambda |w|_2^2 ]

Adiciona uma penalização proporcional ao comprimento ao quadrado de (w)
Geometricamente, prefere soluções dentro de uma bola L2 (uma esfera no espaço de pesos)
Produz encolhimento suave (raramente coeficientes exatamente zero)

Lasso (Lasso) (L1): [ \min_w |Xw-y|_2^2 + \lambda |w|_1 ]

A bola L1 tem “cantos”, então o ótimo frequentemente cai sobre um eixo
Explica geometricamente por que o Lasso induz esparsidade (muitos pesos exatamente 0)

Em ambos os casos, você pode pensar no aprendizado como um equilíbrio entre:

ajuste aos dados (ficar perto do alvo/projeção)
simplicidade dos pesos (ficar perto da origem no espaço de parâmetros)

Classificação linear: separabilidade e margens

Separabilidade linear

Um conjunto de dados binário é linearmente separável se existirem (w, b) tais que:

[ y_i(w^\top x_i + b) > 0 \quad \forall i ]

Ou seja:

todos os exemplos positivos ficam de um lado do hiperplano
todos os exemplos negativos ficam do outro lado

Em 2D, isso significa que você consegue desenhar uma reta separando as classes. Em dimensões mais altas, é um hiperplano.

Um fato sutil, mas importante, em alta dimensionalidade: conforme a dimensão cresce, pontos aleatórios têm maior probabilidade de serem separáveis. Isso pode facilitar o treinamento, mas pode prejudicar a generalização a menos que você controle a complexidade (regularização, margens, etc.).

O perceptron: intuição de “empurrar o hiperplano”

O algoritmo clássico do perceptron (perceptron) atualiza (w) sempre que ele classifica um ponto de forma incorreta:

se (y_i(w^\top x_i + b) \le 0), atualize (w \leftarrow w + \eta y_i x_i)

Geometricamente, você está ajustando o vetor normal (w) para rotacionar/deslocar a fronteira e colocar o ponto mal classificado no lado correto. O perceptron converge se os dados forem separáveis (com uma margem).

Regressão logística: mesma fronteira, interpretação probabilística

A regressão logística (logistic regression) usa o mesmo escore linear (s = w^\top x + b), mas o mapeia para uma probabilidade:

[ P(y=1 \mid x) = \sigma(w^\top x + b) = \frac{1}{1+e^{-(w^\top x + b)}} ]

A fronteira de decisão para (P=0.5) ainda é (w^\top x + b = 0)
A geometria determina a fronteira; a sigmoide (sigmoid) determina a calibração de confiança e a perda

O treinamento normalmente usa otimização baseada em gradiente (gradient-based optimization), veja Descida do Gradiente.

Máquinas de vetores de suporte: geometria de margem máxima

Uma SVM linear escolhe o hiperplano separador com a maior margem (margin), aproximadamente maximizando a menor distância assinada de qualquer ponto até a fronteira.

No caso de margem rígida (hard-margin) (separável):

[ \min_w \frac{1}{2}|w|^2 \quad \text{s.t. } y_i(w^\top x_i + b) \ge 1 ]

Implicações geométricas:

Minimizar (|w|) maximiza a margem, porque a distância escala como ((w^\top x + b)/|w|).
A fronteira é determinada por alguns pontos críticos chamados vetores de suporte (support vectors) (pontos mais próximos da fronteira).

No caso não separável, variáveis de folga (slack variables) permitem algumas violações, fazendo uma troca entre margem e erros.

Modelos lineares multiclasse: múltiplos hiperplanos

Para (K) classes, um modelo linear comum aprende um vetor de pesos por classe:

[ s_k(x) = w_k^\top x + b_k ] [ \hat{y} = \arg\max_k s_k(x) ]

Geometricamente, o espaço é particionado em regiões nas quais o escore de cada classe é o maior. As fronteiras entre a classe (a) e (b) ocorrem quando:

[ (w_a - w_b)^\top x + (b_a - b_b) = 0 ]

Assim, mesmo a classificação linear multiclasse é construída inteiramente a partir de hiperplanos.

Com uma softmax (softmax), esses escores se tornam probabilidades (regressão logística multinomial (multinomial logistic regression)), o que é um baseline padrão para muitos problemas.

Quando fronteiras lineares não são suficientes: geometria das características

Modelos lineares só são “lineares” no espaço de características. Muitas vezes, você pode torná-los drasticamente mais expressivos mudando as características.

Exemplo: XOR não é linearmente separável

O padrão XOR em 2D não pode ser separado por uma única reta. Geometricamente, nenhum hiperplano divide os positivos e negativos.

Mas, se você mapear as características para um espaço de maior dimensionalidade, um separador linear pode existir. Por exemplo, adicionar uma característica de interação (interaction feature) (x_1 x_2) muda a geometria.

Expansões de base e interações

Formas comuns de criar fronteiras de decisão não lineares mantendo um modelo linear:

Características polinomiais (polynomial features): ([x_1, x_2] \to [x_1, x_2, x_1^2, x_1x_2, x_2^2, \dots])
Splines (splines) / características lineares por partes (piecewise linear): úteis em regressão
Codificação one-hot (one-hot encoding): transforma categorias em uma geometria na qual cada categoria ganha seu próprio eixo
Embeddings aprendidos (learned embeddings): comuns em sistemas modernos; ainda assim, frequentemente alimentados em uma “cabeça” linear (linear “head”)

Após tal transformação (\phi(x)), o modelo é linear em (\phi(x)):

[ \hat{y} = w^\top \phi(x) + b ]

Essa perspectiva também é a porta de entrada para métodos com kernel (kernelized methods) (que computam produtos escalares no espaço de características de forma implícita), frequentemente discutidos em Máquinas de Vetores de Suporte e métodos de kernel (kernel methods).

Armadilhas geométricas práticas (e como lidar com elas)

Escalonamento de características muda a geometria

Como produtos escalares e distâncias dependem das escalas das coordenadas, o escalonamento afeta fortemente modelos lineares.

Se uma característica tem valores em ([0, 10^6]) e outra em ([0, 1]), a característica de grande escala pode dominar (w^\top x), não porque é mais importante, mas por causa das unidades.

Correções comuns:

padronizar cada característica para média zero e variância unitária
usar escalonamento robusto (robust scaling) para características com caudas pesadas
normalizar vetores (comum em espaços de texto e de embeddings)

O escalonamento é especialmente importante para:

otimização baseada em gradiente (condicionamento (conditioning))
regularização L1/L2 (a penalização depende das magnitudes dos coeficientes)
classificadores baseados em margem (a distância depende de (|w|))

Colinearidade: características “quase na mesma direção”

Se duas características são altamente correlacionadas, o modelo tem muitas soluções quase equivalentes. Geometricamente, as colunas da matriz de projeto apontam em direções similares, então o espaço coluna fica próximo de ser de menor dimensionalidade.

Sintomas:

coeficientes instáveis (especialmente sem regularização)
alta variância no (w) ajustado

Correções:

regressão Ridge
redução de dimensionalidade (dimensionality reduction) (por exemplo, ACP (Análise de Componentes Principais, PCA))
seleção / engenharia de características

Outliers e geometria da perda

Mínimos quadrados penaliza fortemente resíduos grandes por causa do quadrado. Geometricamente, ele se esforça muito para puxar a projeção em direção a valores atípicos (outliers).

Alternativas robustas (comuns na prática):

perda de Huber (Huber loss) (quadrática perto de 0, linear para resíduos grandes)
erro absoluto (absolute error) (perda L1 (L1 loss))

Para classificação, a perda hinge (hinge loss) (SVM) e a perda logística (logistic loss) se comportam de maneira diferente perto da fronteira, moldando o quão fortemente os pontos influenciam o hiperplano.

Interpretando modelos lineares geometricamente (e por que eles continuam úteis)

Mesmo com a dominância atual do aprendizado profundo (deep learning), modelos lineares são amplamente usados porque são:

Rápidos para treinar e prever
Baselines fortes que muitas vezes igualam modelos mais complexos com boas características
Interpretáveis: os pesos indicam diretamente direções influentes no espaço de características
Bem-comportados: objetivos convexos (convex objectives) para muitas perdas comuns (mínimos quadrados, perda logística)

Em muitos sistemas modernos, um modelo profundo produz características, e a camada final é efetivamente um classificador ou regressor linear. Entender a geometria dessa última camada ajuda a explicar como o aprendizado de representações (representation learning) torna tarefas complexas linearmente separáveis.

Principais conclusões

Um modelo linear define uma direção (w); predições são guiadas pelo produto escalar (w^\top x).
Fronteiras de decisão na classificação são hiperplanos (w^\top x + b = 0); (w) é normal à fronteira.
A distância assinada ((w^\top x + b)/|w|) fornece uma noção limpa de confiança e margem.
Regressão por mínimos quadrados é a projeção ortogonal de (y) no espaço coluna de (X).
Regularização restringe soluções no espaço de pesos, mudando a geometria e melhorando a generalização.
Problemas não lineares frequentemente se tornam linearmente solucionáveis via mapas de características (feature maps) (expansão de base, interações, embeddings).

Para um contexto mais profundo sobre por que margens e regularização ajudam na generalização, conecte essa geometria à Teoria do Aprendizado.