Fundamentos

A inteligência artificial (artificial intelligence, AI) é a área dedicada a construir sistemas que percebem, raciocinam, aprendem e agem — muitas vezes sob incerteza e restrições de recursos. “Fundamentos” cobre as ideias que fazem a IA funcionar: como formalizamos a inteligência, os caminhos históricos que moldaram o campo, os pré-requisitos matemáticos e computacionais, e as questões filosóficas que ainda influenciam a prática moderna.

O que “IA” Significa: Definições Centrais e Perspectivas

A IA não é uma técnica única; é uma coleção de abordagens voltadas a produzir comportamento inteligente em máquinas. Diferentes definições enfatizam objetivos diferentes:

Agir como humanos: sistemas que se comportam como humanos (por exemplo, passando no Teste de Turing).
Pensar como humanos: modelos da cognição humana (mais próximos da ciência cognitiva).
Pensar racionalmente: raciocínio correto de acordo com lógica e probabilidade.
Agir racionalmente: escolher ações que maximizam objetivos esperados (comum na IA moderna).

Um enquadramento particularmente útil é o agente racional (rational agent):

Um agente observa um ambiente e escolhe ações para maximizar uma medida de sucesso (utilidade/recompensa), dadas suas informações e restrições.

Essa perspectiva conecta planejamento clássico, raciocínio probabilístico e aprendizado por reforço em um único arcabouço conceitual.

Uma Breve História da IA (Por que o Campo é Como é)

A IA passou por ciclos de otimismo, retrocessos (“invernos da IA”) e avanços impulsionados por algoritmos, dados e capacidade computacional.

Raízes iniciais (anos 1940–1960): computação, lógica e IA simbólica

Marcos importantes incluem:

Computação formal: as ideias de Alan Turing sobre computação e o Teste de Turing.
Raciocínio simbólico: os primeiros sistemas de IA usavam lógica e regras para representar conhecimento e derivar conclusões.
Perceptrons: modelos neurais iniciais mostraram potencial, mas tinham limitações (por exemplo, separabilidade linear).

Essa era consolidou a crença de que a inteligência poderia ser codificada como símbolos e regras.

Sistemas especialistas e limites (anos 1970–1980)

“Sistemas especialistas” aplicavam regras elaboradas manualmente em domínios como medicina e engenharia. Funcionavam em cenários restritos, mas tinham dificuldade com:

fragilidade (regras falham fora de suas suposições),
engenharia de conhecimento custosa,
dificuldade em lidar com incerteza.

Essas limitações empurraram a pesquisa em direção a métodos probabilísticos e baseados em aprendizado.

Aprendizado estatístico e IA probabilística (anos 1990–2000)

À medida que os dados cresceram, a IA adotou cada vez mais ferramentas estatísticas:

redes bayesianas (Bayesian networks), modelos ocultos de Markov (hidden Markov models), máquinas de vetores de suporte (support vector machines) e mais.
Uma mudança de “programar a inteligência” para aprender a partir de dados.

Aprendizado profundo e modelos fundacionais (anos 2010–presente)

Vários fatores convergiram:

grandes conjuntos de dados,
aceleração com GPU/TPU,
melhores métodos de treinamento (por exemplo, otimizadores aprimorados, regularização),
arquiteturas como CNNs e especialmente Transformers (Transformers).

Essa era produziu os modernos “modelos fundacionais (foundation models)”: grandes modelos pré-treinados adaptados a muitas tarefas via ajuste fino (fine-tuning) ou formulação de prompts (prompting) (ver Arquitetura Transformer).

O Modelo de Agente: A Abstração Unificadora

Muitos problemas de IA podem ser expressos como:

Estado: a informação relevante sobre o mundo (às vezes oculta).
Observações: o que o agente pode perceber.
Ações: o que ele pode fazer.
Dinâmica de transição: como as ações mudam o estado.
Objetivo: o que o agente quer alcançar.

Exemplos:

Um motor de xadrez: estados são posições do tabuleiro; ações são lances legais; objetivo é vencer.
Um robô: estados incluem pose e ambiente; observações são leituras de sensores; objetivo é atingir metas com segurança.
Um sistema de recomendação: aproximações de estado incluem contexto do usuário; ações são itens ranqueados; objetivo é engajamento/satisfação sob restrições.

Esse enquadramento leva naturalmente a busca, planejamento, aprendizado e tomada de decisão sob incerteza.

Busca e Planejamento: Resolvendo Problemas Explorando Possibilidades

Busca como fundamento

Muitos problemas podem ser formulados como busca em um espaço de possibilidades:

caminhos mínimos,
escalonamento,
jogos,
resolução de quebra-cabeças,
síntese de programas.

Um exemplo canônico é a busca A* (A* search), que usa uma heurística para guiar a exploração.

# A* sketch (conceptual)
open_set = PriorityQueue()
open_set.push(start, priority=0)
came_from = {}
g = {start: 0}

while open_set:
    x = open_set.pop_min()  # node with lowest f = g + h
    if x == goal:
        return reconstruct_path(came_from, x)

    for y in neighbors(x):
        tentative = g[x] + cost(x, y)
        if y not in g or tentative < g[y]:
            came_from[y] = x
            g[y] = tentative
            f = tentative + h(y)  # heuristic estimate to goal
            open_set.push(y, priority=f)

Aplicações práticas:

sistemas de navegação,
otimização logística,
resolução de quebra-cabeças de restrições,
planejamento de uso de ferramentas para agentes.

Planejamento sob incerteza

Quando ações têm resultados incertos, o planejamento se torna probabilístico e sequencial, levando a processos de decisão de Markov (Markov decision processes, MDPs) e ao aprendizado por reforço (ver Aprendizado por Reforço).

Representação de Conhecimento e Raciocínio: Como a IA Codifica “Fatos” e “Regras”

Comportamento inteligente frequentemente exige representar informações e tirar inferências.

Representações simbólicas

A IA simbólica usa estruturas discretas como:

enunciados lógicos (por exemplo, “Todos os humanos são mortais”),
regras (“Se sintomas A e B então provável doença X”),
ontologias e grafos de conhecimento.

Pontos fortes:

interpretabilidade,
estrutura composicional,
restrições explícitas.

Pontos fracos:

fragilidade,
alto custo de autoria,
dificuldade com dados ruidosos.

Representações estatísticas

Sistemas modernos frequentemente representam conhecimento de forma implícita:

distribuições de probabilidade,
representações vetoriais (embeddings),
pesos de redes neurais.

Pontos fortes:

robustez a ruído,
aprende com dados,
escala para padrões complexos (visão, linguagem).

Pontos fracos:

mais difícil de interpretar,
pode codificar vieses,
exige dados/capacidade computacional substanciais.

Muitos sistemas reais combinam ambos (por exemplo, percepção neural + planejamento simbólico ou restrições baseadas em regras).

Probabilidade e Incerteza: Um Pilar Central

Ambientes do mundo real são incertos: sensores são ruidosos, eventos futuros são desconhecidos e dados são incompletos. A probabilidade dá à IA uma forma fundamentada de raciocinar sob incerteza.

Regra de Bayes

A regra de Bayes relaciona crenças prévias e evidências:

[ P(H \mid E) = \frac{P(E \mid H)P(H)}{P(E)} ]

Exemplo prático: testes médicos
Mesmo testes precisos podem produzir muitos falsos positivos quando a condição é rara. O raciocínio bayesiano obriga você a levar em conta as taxas-base, um erro humano comum.

Em aprendizado de máquina, essa ideia aparece em:

classificadores probabilísticos,
calibração (calibration),
inferência bayesiana e estimativa de incerteza.

Tópicos relacionados incluem Inferência Bayesiana e Modelos Gráficos Probabilísticos.

Aprendizado: De Dados à Generalização

O aprendizado de máquina (machine learning) é uma subárea importante da IA focada em aprender padrões e regras de decisão a partir de dados (ver Aprendizado de Máquina).

O modelo de aprendizado supervisionado

Você observa exemplos rotulados ((x, y)) e aprende uma função (f_\theta(x)) que prediz (y).

Um modelo simples, mas fundamental, é a regressão linear (linear regression):

# Fit y ≈ w*x + b by minimizing mean squared error (MSE)
w, b = 0.0, 0.0
lr = 0.01

for step in range(1000):
    y_pred = w*x + b
    dw = (2/n) * sum((y_pred - y) * x)
    db = (2/n) * sum(y_pred - y)
    w -= lr * dw
    b -= lr * db

Mesmo que você nunca implante regressão linear, ela ensina ideias-chave:

objetivos (funções de perda),
otimização,
sobreajuste (overfitting) vs. generalização,
metodologia de avaliação.

Aprendizado não supervisionado e auto-supervisionado

Muitos avanços modernos vêm de aprender sem rótulos explícitos:

não supervisionado (unsupervised): descobrir estrutura (agrupamento, estimação de densidade).
auto-supervisionado (self-supervised): criar sinais de aprendizado a partir dos próprios dados (por exemplo, prever tokens mascarados em linguagem).

Isso é central para modelos fundacionais.

Aprendizado por reforço (reinforcement learning, RL)

Em aprendizado por reforço, um agente aprende por sinais de recompensa de tentativa e erro, em vez de saídas rotuladas. Ele sustenta sistemas de jogos e algumas aplicações de robótica/controle, e também influencia técnicas de alinhamento (por exemplo, RLHF).

Veja Aprendizado por Reforço e Processos de Decisão de Markov.

Redes Neurais e Aprendizado Profundo: Aproximação de Funções em Escala

Redes neurais são aproximadores flexíveis de funções treinados com otimização baseada em gradiente (ver Redes Neurais).

Retropropagação e descida do gradiente

O treinamento tipicamente minimiza uma perda (L(\theta)) calculando gradientes e atualizando parâmetros:

[ \theta \leftarrow \theta - \eta \nabla_\theta L(\theta) ]

Esse é o coração da Descida do Gradiente e da Retropropagação.

Por que a profundidade importa

Modelos mais profundos podem expressar características hierárquicas complexas:

bordas → formas → objetos em visão,
caracteres → palavras → semântica em linguagem (em um sentido amplo).

A prática moderna também depende fortemente de:

inicialização,
normalização,
regularização,
truques e agendas de otimização,
treinamento distribuído em larga escala.

Transformers e modelos fundacionais

Transformers permitem modelagem escalável de sequências usando mecanismos de atenção e são a espinha dorsal de muitos sistemas de linguagem e multimodais (ver Arquitetura Transformer).

Essa mudança tem consequências práticas:

pré-treinar uma vez, adaptar muitas vezes,
prompting como uma nova interface,
capacidades emergentes em escala (com ressalvas importantes sobre avaliação e confiabilidade).

Otimização: Transformando Objetivos em Sistemas Funcionais

Quase todos os sistemas de IA envolvem otimizar alguma coisa:

uma perda de predição,
uma recompensa esperada,
um objetivo com restrições (acurácia vs. latência vs. custo),
uma troca entre múltiplos objetivos (qualidade vs. segurança).

Ideias fundamentais-chave:

otimização convexa vs. não convexa (convex vs. non-convex optimization) (redes profundas são não convexas, mas ainda treináveis na prática),
otimização estocástica (stochastic optimization) (SGD em minibatches (mini-batch SGD)),
regularização (regularization) (decaimento de pesos, dropout (dropout)),
restrições (constraints) (equidade, limites de recursos, regras de segurança).

Um modelo mental prático:

O design do modelo escolhe o espaço de hipóteses (hypothesis space).
A otimização encontra parâmetros dentro desse espaço.
Os dados determinam como é o “bom”.

Generalização, Avaliação e Rigor Científico

Sobreajuste e viés–variância

Um modelo pode se ajustar aos dados de treino, mas falhar em novos dados. Gerenciar isso requer:

divisões treino/validação/teste,
validação cruzada (cross-validation),
regularização,
disciplina adequada de atributos e pré-processamento.

Métricas e o que elas escondem

Acurácia muitas vezes é insuficiente. Dependendo da tarefa, você pode precisar de:

precisão/recall e ROC-AUC,
métricas de calibração,
métricas de ranqueamento (NDCG),
robustez e medidas de desempenho no pior caso.

Mudança de distribuição

Um modo de falha importante é o descompasso entre treinamento e serviço (training-serving mismatch):

os dados mudam com o tempo,
populações diferem,
sensores derivam,
adversários se adaptam.

Competência fundamental inclui pensar em termos de:

detecção fora da distribuição (out-of-distribution detection),
monitoramento e retreinamento,
raciocínio causal vs. correlacional (ver Inferência Causal).

Fundamentos Práticos: Como a IA Vira Software Real

O sistema de IA é mais do que o modelo

IA em produção exige:

pipelines de dados e rotulagem,
infraestrutura de treinamento,
harnesses de avaliação,
monitoramento e resposta a incidentes,
controles de privacidade e segurança,
design de experiência do usuário e ciclos de feedback.

Essa visão mais ampla é frequentemente capturada por “operações de aprendizado de máquina (MLOps)” (ver MLOps).

Exemplo: filtragem de spam como um sistema de IA ponta a ponta

Um filtro de spam prático ilustra muitos fundamentos ao mesmo tempo:

Representação: texto → atributos ou representações vetoriais.
Aprendizado: classificação supervisionada.
Incerteza: limiares ajustados para trocas entre precisão/recall.
Avaliação: conjuntos de teste + monitoramento ao vivo para deriva.
Adversários: spammers se adaptam (segurança/robustez).

Filosofia da IA: Questões que Ainda Importam na Prática

A IA herda debates filosóficos profundos que moldam prioridades de pesquisa e o design de sistemas.

O que é inteligência?

Inteligência é:

manipulação simbólica,
reconhecimento estatístico de padrões,
interação corporificada com o mundo,
otimização orientada por objetivos,
ou algum híbrido?

Respostas diferentes motivam arquiteturas e benchmarks diferentes.

Máquinas podem “entender”?

Essa questão afeta como interpretamos modelos de linguagem:

O argumento da Sala Chinesa (Chinese Room) desafia a ideia de que manipulação de símbolos implica entendimento.
O problema do ancoramento de símbolos (symbol grounding problem) pergunta como símbolos ganham significado ligado ao mundo real.

Na prática, essas questões aparecem como:

alucinações (hallucinations) e confabulação (confabulation) em modelos generativos,
generalização frágil fora das distribuições de treino,
dificuldade com raciocínio causal e uso confiável de ferramentas.

Racionalidade, valores e alinhamento

Sistemas modernos de IA otimizam objetivos, mas objetivos podem estar mal especificados. Isso leva a:

hackeamento de recompensa (reward hacking) / jogo de especificação (specification gaming),
desalinhamento entre métricas substitutas e metas reais,
consequências não intencionais em escala.

Essas preocupações motivam pesquisa em robustez e alinhamento (ver Alinhamento de IA).

Fundamentos também incluem pensar sobre:

viés e equidade,
privacidade,
transparência e responsabilização,
impactos trabalhistas e econômicos,
uso dual e riscos de segurança.

Esses temas não são “extras opcionais”; eles influenciam requisitos, avaliação e decisões de implantação.

Pré-requisitos: O que Você Precisa para Entender Bem IA

Uma base sólida vem de quatro pilares: matemática, programação, dados e pensamento de sistemas.

Matemática

Você não precisa de tudo isso para começar, mas isso se torna importante conforme você se aprofunda.

Álgebra linear: vetores, matrizes, autovalores; essencial para representações vetoriais e redes neurais.
Cálculo: derivadas, gradientes, regra da cadeia; essencial para otimização.
Probabilidade e estatística: distribuições, esperança, regra de Bayes, testes de hipótese.
Otimização: métodos de gradiente, noções básicas de convexidade, otimização com restrições.

Ciência da computação e programação

Estruturas de dados e algoritmos (busca, grafos, complexidade).
Computação numérica (ponto flutuante, estabilidade).
Fundamentos de engenharia de software (testes, modularidade, reprodutibilidade).

Python é comum, mas os fundamentos se transferem para qualquer linguagem.

Conhecimento de domínio e formulação do problema

O desempenho de IA depende fortemente de:

definir o alvo correto,
coletar os dados certos,
respeitar restrições do domínio (médico, jurídico, financeiro),
escolher métricas apropriadas e tolerâncias a falhas.

Sistemas e escalabilidade

A IA moderna frequentemente exige:

GPUs/aceleradores,
treinamento distribuído,
engenharia de latência/vazão,
implantação com consciência de custos.

Mesmo que você se especialize em teoria, entender essas restrições ajuda a projetar métodos viáveis.

Um Modelo Mental Unificador: A Pilha de IA

Pode ser útil pensar em IA em camadas:

Definição do problema: objetivos, restrições, métricas, partes interessadas.
Dados: coleta, rotulagem, pré-processamento, governança.
Representação: atributos, representações vetoriais, arquiteturas.
Aprendizado/Inferência: objetivos de treinamento, otimização, incerteza.
Avaliação: métricas offline, robustez, viés, testes de mudança.
Implantação: monitoramento, iteração, controles de segurança e proteção.

“Fundamentos” é sobre entender cada camada bem o suficiente para raciocinar sobre trade-offs.

Armadilhas Comuns (Mesmo para Profissionais Experientes)

Tratar benchmarks como realidade (super-otimizar para conjuntos de teste).
Confundir correlação com causalidade em decisões de alto impacto.
Ignorar mudança de distribuição e ciclos de feedback.
Assumir que “mais dados” sempre resolve vieses ou problemas de qualidade.
Confiar demais na confiança do modelo sem calibração.
Negligenciar fatores humanos: usuários se adaptam ao sistema, e o sistema muda o ambiente.

Para Onde Ir Depois

“Fundamentos” dá suporte a muitos ramos. Próximos tópicos naturais incluem:

Aprendizado de Máquina para paradigmas e fluxos de trabalho centrais
Redes Neurais e Retropropagação para a mecânica de aprendizado profundo
Teoria da Probabilidade e Inferência Bayesiana para incerteza
Aprendizado por Reforço para tomada de decisão sequencial
Arquitetura Transformer para modelos modernos de linguagem e multimodais
MLOps para operacionalizar modelos em produção
Alinhamento de IA para desafios de segurança e especificação de objetivos

“Fundamentos” trata, em última análise, de construir um entendimento transferível: princípios que permanecem úteis conforme modelos e ferramentas específicas evoluem.