Fundamentos

A inteligência artificial (artificial intelligence, AI) é a área dedicada a construir sistemas que percebem, raciocinam, aprendem e agem — muitas vezes sob incerteza e restrições de recursos. “Fundamentos” cobre as ideias que fazem a IA funcionar: como formalizamos a inteligência, os caminhos históricos que moldaram o campo, os pré-requisitos matemáticos e computacionais, e as questões filosóficas que ainda influenciam a prática moderna.

O que “IA” Significa: Definições Centrais e Perspectivas

A IA não é uma técnica única; é uma coleção de abordagens voltadas a produzir comportamento inteligente em máquinas. Diferentes definições enfatizam objetivos diferentes:

  • Agir como humanos: sistemas que se comportam como humanos (por exemplo, passando no Teste de Turing).
  • Pensar como humanos: modelos da cognição humana (mais próximos da ciência cognitiva).
  • Pensar racionalmente: raciocínio correto de acordo com lógica e probabilidade.
  • Agir racionalmente: escolher ações que maximizam objetivos esperados (comum na IA moderna).

Um enquadramento particularmente útil é o agente racional (rational agent):

Um agente observa um ambiente e escolhe ações para maximizar uma medida de sucesso (utilidade/recompensa), dadas suas informações e restrições.

Essa perspectiva conecta planejamento clássico, raciocínio probabilístico e aprendizado por reforço em um único arcabouço conceitual.

Uma Breve História da IA (Por que o Campo é Como é)

A IA passou por ciclos de otimismo, retrocessos (“invernos da IA”) e avanços impulsionados por algoritmos, dados e capacidade computacional.

Raízes iniciais (anos 1940–1960): computação, lógica e IA simbólica

Marcos importantes incluem:

  • Computação formal: as ideias de Alan Turing sobre computação e o Teste de Turing.
  • Raciocínio simbólico: os primeiros sistemas de IA usavam lógica e regras para representar conhecimento e derivar conclusões.
  • Perceptrons: modelos neurais iniciais mostraram potencial, mas tinham limitações (por exemplo, separabilidade linear).

Essa era consolidou a crença de que a inteligência poderia ser codificada como símbolos e regras.

Sistemas especialistas e limites (anos 1970–1980)

“Sistemas especialistas” aplicavam regras elaboradas manualmente em domínios como medicina e engenharia. Funcionavam em cenários restritos, mas tinham dificuldade com:

  • fragilidade (regras falham fora de suas suposições),
  • engenharia de conhecimento custosa,
  • dificuldade em lidar com incerteza.

Essas limitações empurraram a pesquisa em direção a métodos probabilísticos e baseados em aprendizado.

Aprendizado estatístico e IA probabilística (anos 1990–2000)

À medida que os dados cresceram, a IA adotou cada vez mais ferramentas estatísticas:

  • redes bayesianas (Bayesian networks), modelos ocultos de Markov (hidden Markov models), máquinas de vetores de suporte (support vector machines) e mais.
  • Uma mudança de “programar a inteligência” para aprender a partir de dados.

Aprendizado profundo e modelos fundacionais (anos 2010–presente)

Vários fatores convergiram:

  • grandes conjuntos de dados,
  • aceleração com GPU/TPU,
  • melhores métodos de treinamento (por exemplo, otimizadores aprimorados, regularização),
  • arquiteturas como CNNs e especialmente Transformers (Transformers).

Essa era produziu os modernos “modelos fundacionais (foundation models)”: grandes modelos pré-treinados adaptados a muitas tarefas via ajuste fino (fine-tuning) ou formulação de prompts (prompting) (ver Arquitetura Transformer).

O Modelo de Agente: A Abstração Unificadora

Muitos problemas de IA podem ser expressos como:

  • Estado: a informação relevante sobre o mundo (às vezes oculta).
  • Observações: o que o agente pode perceber.
  • Ações: o que ele pode fazer.
  • Dinâmica de transição: como as ações mudam o estado.
  • Objetivo: o que o agente quer alcançar.

Exemplos:

  • Um motor de xadrez: estados são posições do tabuleiro; ações são lances legais; objetivo é vencer.
  • Um robô: estados incluem pose e ambiente; observações são leituras de sensores; objetivo é atingir metas com segurança.
  • Um sistema de recomendação: aproximações de estado incluem contexto do usuário; ações são itens ranqueados; objetivo é engajamento/satisfação sob restrições.

Esse enquadramento leva naturalmente a busca, planejamento, aprendizado e tomada de decisão sob incerteza.

Busca e Planejamento: Resolvendo Problemas Explorando Possibilidades

Busca como fundamento

Muitos problemas podem ser formulados como busca em um espaço de possibilidades:

  • caminhos mínimos,
  • escalonamento,
  • jogos,
  • resolução de quebra-cabeças,
  • síntese de programas.

Um exemplo canônico é a busca A* (A* search), que usa uma heurística para guiar a exploração.

# A* sketch (conceptual)
open_set = PriorityQueue()
open_set.push(start, priority=0)
came_from = {}
g = {start: 0}

while open_set:
    x = open_set.pop_min()  # node with lowest f = g + h
    if x == goal:
        return reconstruct_path(came_from, x)

    for y in neighbors(x):
        tentative = g[x] + cost(x, y)
        if y not in g or tentative < g[y]:
            came_from[y] = x
            g[y] = tentative
            f = tentative + h(y)  # heuristic estimate to goal
            open_set.push(y, priority=f)

Aplicações práticas:

  • sistemas de navegação,
  • otimização logística,
  • resolução de quebra-cabeças de restrições,
  • planejamento de uso de ferramentas para agentes.

Planejamento sob incerteza

Quando ações têm resultados incertos, o planejamento se torna probabilístico e sequencial, levando a processos de decisão de Markov (Markov decision processes, MDPs) e ao aprendizado por reforço (ver Aprendizado por Reforço).

Representação de Conhecimento e Raciocínio: Como a IA Codifica “Fatos” e “Regras”

Comportamento inteligente frequentemente exige representar informações e tirar inferências.

Representações simbólicas

A IA simbólica usa estruturas discretas como:

  • enunciados lógicos (por exemplo, “Todos os humanos são mortais”),
  • regras (“Se sintomas A e B então provável doença X”),
  • ontologias e grafos de conhecimento.

Pontos fortes:

  • interpretabilidade,
  • estrutura composicional,
  • restrições explícitas.

Pontos fracos:

  • fragilidade,
  • alto custo de autoria,
  • dificuldade com dados ruidosos.

Representações estatísticas

Sistemas modernos frequentemente representam conhecimento de forma implícita:

  • distribuições de probabilidade,
  • representações vetoriais (embeddings),
  • pesos de redes neurais.

Pontos fortes:

  • robustez a ruído,
  • aprende com dados,
  • escala para padrões complexos (visão, linguagem).

Pontos fracos:

  • mais difícil de interpretar,
  • pode codificar vieses,
  • exige dados/capacidade computacional substanciais.

Muitos sistemas reais combinam ambos (por exemplo, percepção neural + planejamento simbólico ou restrições baseadas em regras).

Probabilidade e Incerteza: Um Pilar Central

Ambientes do mundo real são incertos: sensores são ruidosos, eventos futuros são desconhecidos e dados são incompletos. A probabilidade dá à IA uma forma fundamentada de raciocinar sob incerteza.

Regra de Bayes

A regra de Bayes relaciona crenças prévias e evidências:

[ P(H \mid E) = \frac{P(E \mid H)P(H)}{P(E)} ]

Exemplo prático: testes médicos
Mesmo testes precisos podem produzir muitos falsos positivos quando a condição é rara. O raciocínio bayesiano obriga você a levar em conta as taxas-base, um erro humano comum.

Em aprendizado de máquina, essa ideia aparece em:

  • classificadores probabilísticos,
  • calibração (calibration),
  • inferência bayesiana e estimativa de incerteza.

Tópicos relacionados incluem Inferência Bayesiana e Modelos Gráficos Probabilísticos.

Aprendizado: De Dados à Generalização

O aprendizado de máquina (machine learning) é uma subárea importante da IA focada em aprender padrões e regras de decisão a partir de dados (ver Aprendizado de Máquina).

O modelo de aprendizado supervisionado

Você observa exemplos rotulados ((x, y)) e aprende uma função (f_\theta(x)) que prediz (y).

Um modelo simples, mas fundamental, é a regressão linear (linear regression):

# Fit y ≈ w*x + b by minimizing mean squared error (MSE)
w, b = 0.0, 0.0
lr = 0.01

for step in range(1000):
    y_pred = w*x + b
    dw = (2/n) * sum((y_pred - y) * x)
    db = (2/n) * sum(y_pred - y)
    w -= lr * dw
    b -= lr * db

Mesmo que você nunca implante regressão linear, ela ensina ideias-chave:

  • objetivos (funções de perda),
  • otimização,
  • sobreajuste (overfitting) vs. generalização,
  • metodologia de avaliação.

Aprendizado não supervisionado e auto-supervisionado

Muitos avanços modernos vêm de aprender sem rótulos explícitos:

  • não supervisionado (unsupervised): descobrir estrutura (agrupamento, estimação de densidade).
  • auto-supervisionado (self-supervised): criar sinais de aprendizado a partir dos próprios dados (por exemplo, prever tokens mascarados em linguagem).

Isso é central para modelos fundacionais.

Aprendizado por reforço (reinforcement learning, RL)

Em aprendizado por reforço, um agente aprende por sinais de recompensa de tentativa e erro, em vez de saídas rotuladas. Ele sustenta sistemas de jogos e algumas aplicações de robótica/controle, e também influencia técnicas de alinhamento (por exemplo, RLHF).

Veja Aprendizado por Reforço e Processos de Decisão de Markov.

Redes Neurais e Aprendizado Profundo: Aproximação de Funções em Escala

Redes neurais são aproximadores flexíveis de funções treinados com otimização baseada em gradiente (ver Redes Neurais).

Retropropagação e descida do gradiente

O treinamento tipicamente minimiza uma perda (L(\theta)) calculando gradientes e atualizando parâmetros:

[ \theta \leftarrow \theta - \eta \nabla_\theta L(\theta) ]

Esse é o coração da Descida do Gradiente e da Retropropagação.

Por que a profundidade importa

Modelos mais profundos podem expressar características hierárquicas complexas:

  • bordas → formas → objetos em visão,
  • caracteres → palavras → semântica em linguagem (em um sentido amplo).

A prática moderna também depende fortemente de:

  • inicialização,
  • normalização,
  • regularização,
  • truques e agendas de otimização,
  • treinamento distribuído em larga escala.

Transformers e modelos fundacionais

Transformers permitem modelagem escalável de sequências usando mecanismos de atenção e são a espinha dorsal de muitos sistemas de linguagem e multimodais (ver Arquitetura Transformer).

Essa mudança tem consequências práticas:

  • pré-treinar uma vez, adaptar muitas vezes,
  • prompting como uma nova interface,
  • capacidades emergentes em escala (com ressalvas importantes sobre avaliação e confiabilidade).

Otimização: Transformando Objetivos em Sistemas Funcionais

Quase todos os sistemas de IA envolvem otimizar alguma coisa:

  • uma perda de predição,
  • uma recompensa esperada,
  • um objetivo com restrições (acurácia vs. latência vs. custo),
  • uma troca entre múltiplos objetivos (qualidade vs. segurança).

Ideias fundamentais-chave:

  • otimização convexa vs. não convexa (convex vs. non-convex optimization) (redes profundas são não convexas, mas ainda treináveis na prática),
  • otimização estocástica (stochastic optimization) (SGD em minibatches (mini-batch SGD)),
  • regularização (regularization) (decaimento de pesos, dropout (dropout)),
  • restrições (constraints) (equidade, limites de recursos, regras de segurança).

Um modelo mental prático:

  • O design do modelo escolhe o espaço de hipóteses (hypothesis space).
  • A otimização encontra parâmetros dentro desse espaço.
  • Os dados determinam como é o “bom”.

Generalização, Avaliação e Rigor Científico

Sobreajuste e viés–variância

Um modelo pode se ajustar aos dados de treino, mas falhar em novos dados. Gerenciar isso requer:

  • divisões treino/validação/teste,
  • validação cruzada (cross-validation),
  • regularização,
  • disciplina adequada de atributos e pré-processamento.

Métricas e o que elas escondem

Acurácia muitas vezes é insuficiente. Dependendo da tarefa, você pode precisar de:

  • precisão/recall e ROC-AUC,
  • métricas de calibração,
  • métricas de ranqueamento (NDCG),
  • robustez e medidas de desempenho no pior caso.

Mudança de distribuição

Um modo de falha importante é o descompasso entre treinamento e serviço (training-serving mismatch):

  • os dados mudam com o tempo,
  • populações diferem,
  • sensores derivam,
  • adversários se adaptam.

Competência fundamental inclui pensar em termos de:

  • detecção fora da distribuição (out-of-distribution detection),
  • monitoramento e retreinamento,
  • raciocínio causal vs. correlacional (ver Inferência Causal).

Fundamentos Práticos: Como a IA Vira Software Real

O sistema de IA é mais do que o modelo

IA em produção exige:

  • pipelines de dados e rotulagem,
  • infraestrutura de treinamento,
  • harnesses de avaliação,
  • monitoramento e resposta a incidentes,
  • controles de privacidade e segurança,
  • design de experiência do usuário e ciclos de feedback.

Essa visão mais ampla é frequentemente capturada por “operações de aprendizado de máquina (MLOps)” (ver MLOps).

Exemplo: filtragem de spam como um sistema de IA ponta a ponta

Um filtro de spam prático ilustra muitos fundamentos ao mesmo tempo:

  • Representação: texto → atributos ou representações vetoriais.
  • Aprendizado: classificação supervisionada.
  • Incerteza: limiares ajustados para trocas entre precisão/recall.
  • Avaliação: conjuntos de teste + monitoramento ao vivo para deriva.
  • Adversários: spammers se adaptam (segurança/robustez).

Filosofia da IA: Questões que Ainda Importam na Prática

A IA herda debates filosóficos profundos que moldam prioridades de pesquisa e o design de sistemas.

O que é inteligência?

Inteligência é:

  • manipulação simbólica,
  • reconhecimento estatístico de padrões,
  • interação corporificada com o mundo,
  • otimização orientada por objetivos,
  • ou algum híbrido?

Respostas diferentes motivam arquiteturas e benchmarks diferentes.

Máquinas podem “entender”?

Essa questão afeta como interpretamos modelos de linguagem:

  • O argumento da Sala Chinesa (Chinese Room) desafia a ideia de que manipulação de símbolos implica entendimento.
  • O problema do ancoramento de símbolos (symbol grounding problem) pergunta como símbolos ganham significado ligado ao mundo real.

Na prática, essas questões aparecem como:

  • alucinações (hallucinations) e confabulação (confabulation) em modelos generativos,
  • generalização frágil fora das distribuições de treino,
  • dificuldade com raciocínio causal e uso confiável de ferramentas.

Racionalidade, valores e alinhamento

Sistemas modernos de IA otimizam objetivos, mas objetivos podem estar mal especificados. Isso leva a:

  • hackeamento de recompensa (reward hacking) / jogo de especificação (specification gaming),
  • desalinhamento entre métricas substitutas e metas reais,
  • consequências não intencionais em escala.

Essas preocupações motivam pesquisa em robustez e alinhamento (ver Alinhamento de IA).

Ética e impacto social

Fundamentos também incluem pensar sobre:

  • viés e equidade,
  • privacidade,
  • transparência e responsabilização,
  • impactos trabalhistas e econômicos,
  • uso dual e riscos de segurança.

Esses temas não são “extras opcionais”; eles influenciam requisitos, avaliação e decisões de implantação.

Pré-requisitos: O que Você Precisa para Entender Bem IA

Uma base sólida vem de quatro pilares: matemática, programação, dados e pensamento de sistemas.

Matemática

Você não precisa de tudo isso para começar, mas isso se torna importante conforme você se aprofunda.

  • Álgebra linear: vetores, matrizes, autovalores; essencial para representações vetoriais e redes neurais.
  • Cálculo: derivadas, gradientes, regra da cadeia; essencial para otimização.
  • Probabilidade e estatística: distribuições, esperança, regra de Bayes, testes de hipótese.
  • Otimização: métodos de gradiente, noções básicas de convexidade, otimização com restrições.

Ciência da computação e programação

  • Estruturas de dados e algoritmos (busca, grafos, complexidade).
  • Computação numérica (ponto flutuante, estabilidade).
  • Fundamentos de engenharia de software (testes, modularidade, reprodutibilidade).

Python é comum, mas os fundamentos se transferem para qualquer linguagem.

Conhecimento de domínio e formulação do problema

O desempenho de IA depende fortemente de:

  • definir o alvo correto,
  • coletar os dados certos,
  • respeitar restrições do domínio (médico, jurídico, financeiro),
  • escolher métricas apropriadas e tolerâncias a falhas.

Sistemas e escalabilidade

A IA moderna frequentemente exige:

  • GPUs/aceleradores,
  • treinamento distribuído,
  • engenharia de latência/vazão,
  • implantação com consciência de custos.

Mesmo que você se especialize em teoria, entender essas restrições ajuda a projetar métodos viáveis.

Um Modelo Mental Unificador: A Pilha de IA

Pode ser útil pensar em IA em camadas:

  1. Definição do problema: objetivos, restrições, métricas, partes interessadas.
  2. Dados: coleta, rotulagem, pré-processamento, governança.
  3. Representação: atributos, representações vetoriais, arquiteturas.
  4. Aprendizado/Inferência: objetivos de treinamento, otimização, incerteza.
  5. Avaliação: métricas offline, robustez, viés, testes de mudança.
  6. Implantação: monitoramento, iteração, controles de segurança e proteção.

“Fundamentos” é sobre entender cada camada bem o suficiente para raciocinar sobre trade-offs.

Armadilhas Comuns (Mesmo para Profissionais Experientes)

  • Tratar benchmarks como realidade (super-otimizar para conjuntos de teste).
  • Confundir correlação com causalidade em decisões de alto impacto.
  • Ignorar mudança de distribuição e ciclos de feedback.
  • Assumir que “mais dados” sempre resolve vieses ou problemas de qualidade.
  • Confiar demais na confiança do modelo sem calibração.
  • Negligenciar fatores humanos: usuários se adaptam ao sistema, e o sistema muda o ambiente.

Para Onde Ir Depois

“Fundamentos” dá suporte a muitos ramos. Próximos tópicos naturais incluem:

“Fundamentos” trata, em última análise, de construir um entendimento transferível: princípios que permanecem úteis conforme modelos e ferramentas específicas evoluem.