Finanças

Finanças: Risco, Fraude, Conformidade e Padrões de Séries Temporais

Finanças é um dos domínios mais ricos em dados — e mais carregados de restrições — para IA (AI). Modelos são implantados para quantificar risco, detectar fraude, cumprir obrigações regulatórias e prever séries temporais (time series) como preços, volumes, inadimplências e necessidades de liquidez. Diferentemente de muitas aplicações de consumo, finanças normalmente exigem:

Alta precisão sob incerteza (pequenas taxas de erro podem ser custosas)
Governança forte e explicabilidade (explainability) (auditorias, notificações de ação adversa, gerenciamento de risco de modelo)
Robustez a mudança de distribuição (distribution shift) (regimes mudam; o comportamento se adapta)
Consciência adversarial (adversarial awareness) (fraudadores e participantes de mercado reagem aos controles)

Este artigo explica teoria e prática essenciais em risco, fraude, conformidade e modelagem de séries temporais — além dos padrões de validação e governança que determinam o sucesso ou o fracasso de sistemas em produção.

Características do domínio que moldam o design do aprendizado de máquina (machine learning)

Não estacionariedade e mudanças de regime

Processos financeiros mudam com frequência ao longo do tempo por causa de ciclos macroeconômicos, alterações de política, mudanças na estrutura de mercado e atualizações de produtos. Isso viola a suposição de “treinar e esquecer” comum no aprendizado de máquina.

Sintomas comuns:

As distribuições dos atributos derivam (por exemplo, a inflação altera razões de renda sobre dívida)
As relações derivam (por exemplo, um modelo de risco calibrado em ambientes de juros baixos falha em regimes de juros altos)
Os rótulos mudam por política (por exemplo, regras de concessão de crédito mudam a composição de aprovações)

Isso está intimamente ligado à Deriva de Conceito (Concept Drift) e deve orientar como você valida e monitora modelos.

Caudas pesadas, eventos raros e custos assimétricos

Inadimplências, fraudes e crashes de mercado costumam ser raros, porém severos. Distribuições de perdas têm caudas pesadas, e o valor esperado pode ser dominado por eventos de cauda. Isso leva a:

Classificação desbalanceada (imbalanced classification) (a taxa de fraude pode ser <0,1%)
Alta sensibilidade a limiarização e calibração
Necessidade de teste de estresse (stress testing) e análise de cenários

Atraso de rótulo e ciclos de retroalimentação

Alguns rótulos chegam tarde (estornos (chargebacks), fraude confirmada, inadimplência após 90+ dias de atraso). Enquanto isso, as decisões do modelo influenciam quais dados você observa (viés de seleção (selection bias)), por exemplo:

Se você recusa solicitantes arriscados, nunca observa se eles teriam entrado em inadimplência.
Um bloqueio forte de fraude reduz a fraude observada, mudando a distribuição de treino.

Questões causais aparecem com frequência; veja Inferência Causal (Causal Inference).

Regulação e auditabilidade

Muitos modelos financeiros exigem:

Linhagem documentada de dados de treinamento e pressupostos
Análise de estabilidade e modelos desafiadores (challenger models)
Explicabilidade em níveis global e individual
Verificações de crédito justo / discriminação

Isso se conecta naturalmente a IA Explicável (Explainable AI) e Equidade no Aprendizado de Máquina (Fairness in Machine Learning).

Áreas centrais de aplicação

Modelagem de risco

A modelagem de risco busca estimar a probabilidade e a severidade de desfechos negativos. As categorias mais comuns são risco de crédito, risco de mercado, risco de contraparte, risco de liquidez e risco operacional.

Risco de crédito (PD/LGD/EAD)

Uma estrutura clássica decompõe a perda de crédito esperada em:

PD: Probabilidade de Inadimplência (Probability of Default)
LGD: Perda Dada a Inadimplência (Loss Given Default) (fração perdida se ocorrer inadimplência)
EAD: Exposição na Inadimplência (Exposure at Default) (quanto é devido no momento da inadimplência)

Uma aproximação simples de perda esperada:

Perda Esperada ≈ PD × LGD × EAD

Tarefas típicas de aprendizado de máquina

Pontuação de proposta: aprovar/recusar + precificação
Pontuação comportamental: risco contínuo em contas existentes
Otimização de cobrança: quais intervenções reduzem a perda
Alerta antecipado: detectar deterioração antes do atraso

Famílias de modelos comuns

Regressão logística / cartões de pontuação (scorecards): ainda amplamente usados devido à interpretabilidade e estabilidade
Árvores com boosting de gradiente (gradient-boosted trees) (por exemplo, XGBoost/LightGBM): alta acurácia em dados tabulares
Análise de sobrevivência (survival analysis): modelagem de tempo até a inadimplência (taxas de risco (hazards)) em vez de um binário “inadimplência em T”
Redes neurais (neural networks): usadas quando interações entre atributos são complexas, mas a governança é mais difícil

Nota prática: Muitos credores preferem restrições monotônicas (monotonic constraints) (por exemplo, maior dívida/renda não deveria reduzir o risco previsto). Boosters de árvores modernos oferecem suporte a isso, aumentando confiança e conformidade.

Calibração importa

Em crédito, muitas vezes você precisa de probabilidades, não apenas de rankings. Um modelo com bom AUC, mas com calibração de probabilidade ruim, pode precificar crédito de forma incorreta. Considere métodos de Calibração (Calibration) como escalonamento de Platt (Platt scaling) ou regressão isotônica (isotonic regression).

Risco de mercado (VaR/ES, volatilidade, estresse)

Risco de mercado frequentemente se concentra na perda de portfólio sob movimentos adversos.

VaR (Value at Risk): limiar de perda não excedido com uma confiança escolhida (por exemplo, 99%)
ES (Expected Shortfall): perda esperada condicionada a exceder o VaR (mais sensível à cauda)

O aprendizado de máquina contribui via:

Previsão de volatilidade (atributos como volatilidade realizada (realized vol), fluxo de ordens (order flow), indicadores macroeconômicos)
Geração de cenários (por exemplo, simulações condicionais (conditional simulations))
Modelagem por fatores e redução de dimensionalidade (dimensionality reduction)

No entanto, prever retornos de forma pura é notoriamente difícil; muitos sistemas bem-sucedidos focam em previsão de risco (volatilidade, drawdown (drawdown), liquidez) em vez de alfa (alpha).

Risco de contraparte e risco de liquidez

Risco de contraparte: probabilidade de uma contraparte de negociação falhar em cumprir (por exemplo, em derivativos)
Risco de liquidez: capacidade de financiar obrigações ou sair de posições sem grande impacto no preço

O aprendizado de máquina pode prever:

Fluxos de caixa e rotatividade de depósitos (deposit churn)
Comportamento de saque em linhas de crédito (drawdown behavior)
Indicadores de estresse de liquidez e sinais de alerta antecipado

Risco operacional

Risco operacional inclui perdas por falhas de processo, erro humano e eventos externos. Aplicações de IA frequentemente usam:

Processamento de linguagem natural sobre relatórios de incidentes
Detecção de anomalias em controles internos
Manutenção preditiva para infraestrutura crítica em operações financeiras

Detecção de fraude e prevenção à lavagem de dinheiro (anti-money laundering, AML)

Fraude e AML são adversariais: ofensores se adaptam aos controles. Isso torna robustez e monitoramento centrais.

Detecção de fraude (pagamentos, tomada de conta, identidade)

Tipos comuns de fraude:

Fraude com cartão não presente
Tomada de conta
Fraude de identidade sintética
Fraude de primeira parte (estornos “amigáveis”)

Padrões de modelagem

Classificação supervisionada quando rótulos estão disponíveis (estornos, fraude confirmada)
Detecção de anomalias para padrões emergentes de fraude: Detecção de Anomalias (Anomaly Detection)
Análise de grafos para detectar quadrilhas e comportamento conluiado: Redes Neurais em Grafos (Graph Neural Networks)

Restrições de tempo real

A detecção de fraude muitas vezes precisa rodar em dezenas de milissegundos. Isso empurra o design para:

Atributos pré-computados em um repositório de atributos (feature store)
Modelos leves ou serving otimizado
Agregação em streaming (contagens móveis, atributos de velocidade)

Humano no loop

Muitos sistemas não recusam automaticamente eventos limítrofes; eles encaminham para revisão com códigos de motivo (reason codes) e evidências. Os resultados da revisão viram dados de treinamento, mas atenção a vieses de revisores.

AML e monitoramento de atividade suspeita

AML busca detectar padrões como fracionamento (structuring), ocultação em camadas (layering) e redes de “mulas”. Os desafios incluem:

Taxas-base (base rates) extremamente baixas
Alto custo de investigação por alerta
Fortes expectativas regulatórias de explicabilidade e trilhas de auditoria

Abordagens eficazes tendem a ser híbridas:

Regras + tipologias + ranqueamento por aprendizado de máquina
Resolução de entidades baseada em grafos e pontuação de redes
Desduplicação e priorização de alertas

Processamento de linguagem natural também pode ajudar a interpretar narrativas não estruturadas em anotações de caso e instruções de transferência, mas sistemas generativos precisam ser restritos e auditáveis.

Aplicações de conformidade e regulação

“Conformidade” é amplo; fluxos de trabalho comuns habilitados por IA incluem onboarding de KYC, triagem de sanções, vigilância de comunicações e relatórios regulatórios.

KYC (Conheça Seu Cliente (Know Your Customer, KYC)) e onboarding

As tarefas incluem:

Classificação e extração de documentos (IDs, comprovantes de endereço)
Resolução de entidades (correspondência de identidades entre sistemas)
Pontuação de risco (tier de risco do cliente, atividade esperada)

Processamento de linguagem natural e visão computacional podem extrair campos estruturados de documentos, enquanto a vinculação de registros (record linkage) usa correspondência probabilística. Para componentes com muito texto, técnicas de Processamento de Linguagem Natural (Natural Language Processing, NLP) como reconhecimento de entidades nomeadas (named entity recognition) e classificação de documentos (document classification) são comuns.

Triagem de sanções e listas de observação

A triagem de sanções é principalmente um problema de correspondência:

Nomes, aliases, transliterações
Endereços, datas de nascimento, identificadores
Relações entre entidades (propriedade e controle)

O aprendizado de máquina pode melhorar ranqueamento e reduzir falsos positivos, mas é exigida alta revocação (recall); muitas instituições preferem limiares conservadores e revisão humana forte.

Vigilância de comunicações e de negociações

Empresas monitoram:

Comunicações em busca de indicadores de abuso de mercado
Padrões de negociação para manipulação por falsas ordens (spoofing), sobreposição de ordens (layering), uso de informação privilegiada (insider trading)

Esses costumam ser problemas de sinal fraco, combinando:

Atributos de séries temporais (taxas de colocação/cancelamento de ordens)
Baselines comportamentais (comparações por grupo de pares)
Processamento de linguagem natural sobre chat/e-mail (com controles de privacidade cuidadosos)

Padrões de séries temporais em finanças

Séries temporais estão em toda parte: preços, volumes, utilização, atrasos, sinistros, depósitos e indicadores macroeconômicos. Séries temporais financeiras têm propriedades distintivas:

Fatos estilizados (o que esperar)

Agrupamento de volatilidade: períodos calmos seguidos por períodos turbulentos
Caudas gordas: extremos ocorrem com mais frequência do que suposições gaussianas preveem
Não estacionariedade: média/variância e correlações mudam
Sazonalidade e efeitos de calendário: dia da semana, fim do mês, feriados
Ruído de microestrutura em alta frequência (oscilação bid-ask, latência)

Alvos de previsão que costumam ser mais tratáveis do que retornos

Prever diretamente retornos de curto horizonte é difícil e instável. Muitos sistemas práticos preveem:

Volatilidade (risco)
Volume e liquidez (execução)
Taxas de inadimplência e taxas de migração de atraso
Fluxos de caixa e churn
Taxas de fraude e carga operacional

As escolhas de modelo vão do clássico (ARIMA, state-space, GARCH) ao aprendizado de máquina (boosting de gradiente sobre atributos defasados) ao aprendizado profundo (modelos de sequência (sequence models)). Modelos de sequência do tipo “foundation” (foundation-like) e variantes de transformer (transformer) são explorados cada vez mais, mas precisam ser validados contra baselines fortes.

Para metodologia e padrões de avaliação, veja Previsão de Séries Temporais (Time Series Forecasting).

Padrões práticos de modelagem

Engenharia de atributos (feature engineering) para dados financeiros

Mesmo com modelos modernos, atributos bem pensados costumam ser decisivos:

Atributos defasados (lag features): último valor, últimos k valores
Estatísticas móveis (rolling statistics): média/desvio padrão em 7/30/90 dias
Atributos de velocidade (velocity features): transações por hora, gasto nos últimos 10 minutos
Razões: utilização, dívida/renda, saldo/limite
Normalização por grupo de pares (peer group normalization): desvio em relação ao comportamento esperado
Atributos de rede (network features) (fraude/AML): dispositivos compartilhados, contas bancárias compartilhadas, grafos de co-transações

Isso se conecta a boas práticas gerais de Engenharia de Atributos, com ênfase adicional em controle de vazamento de informação (leakage) (não use informação do futuro).

Lidando com desbalanceamento de classes (class imbalance) e custos

Fraude/AML comumente usam:

Curvas precisão-revocação (precision-recall curves) (mais informativas do que ROC quando a taxa-base é minúscula)
Aprendizado sensível a custo (cost-sensitive learning) (pesos ou função de perda personalizada (custom loss))
Otimização de limiar (threshold optimization) para maximizar utilidade esperada (lucro/perda)

Consulte Métricas de Avaliação (Evaluation Metrics) para orientação na seleção de métricas.

Métodos de grafos para quadrilhas de fraude e redes de AML

Muitos esquemas são relacionais: IPs, dispositivos, endereços, beneficiários compartilhados. Abordagens de grafos incluem:

Componentes conectados (connected components) / detecção de comunidades (community detection) para descoberta de quadrilhas (ring discovery)
Embeddings de nós (node embeddings) para classificação downstream
Redes Neurais em Grafos para propagação de mensagens (message passing) aprendida (com validação cuidadosa)

Sistemas de grafos exigem resolução de entidades forte; caso contrário, você constrói grafos sobre identidades ruidosas.

Processamento de linguagem natural e modelos de linguagem grandes (large language models) em finanças (onde se encaixam)

Modelos de linguagem grandes podem acelerar:

Ingestão e sumarização de documentos (políticas, filings, anotações de caso)
Rascunhos de respostas para suporte ao cliente (com salvaguardas (guardrails) rigorosas)
Pesquisa de conformidade e Q&A interno via recuperação

Em fluxos regulados, saídas de modelos de linguagem grandes devem ser tratadas como assistência, não como verdade absoluta. Use padrões como geração aumentada por recuperação (retrieval-augmented generation) e verificação, conforme discutido em Modelos de Linguagem Grandes. A alucinação (hallucination) do modelo é especialmente arriscada quando saídas afetam aprovações, negociação ou decisões de conformidade.

Validação: como é o “bom” em finanças

Teste retrospectivo (backtesting) e avaliação sensível ao tempo

Divisões aleatórias de treino/teste muitas vezes são inválidas para séries temporais e fraude em evolução. Use:

Avaliação walk-forward / rolling-origin (walk-forward / rolling-origin evaluation)
Validação fora do tempo (out-of-time validation) (treinar no passado, testar no futuro)
Testes por segmento (por geografia, produto, canal)

Um exemplo mínimo de divisão sensível ao tempo:

import numpy as np
import pandas as pd
from sklearn.model_selection import TimeSeriesSplit
from sklearn.metrics import roc_auc_score
from sklearn.linear_model import LogisticRegression

# X: features sorted by event_time, y: label (e.g., default within 12 months)
X = df.sort_values("event_time")[feature_cols].to_numpy()
y = df.sort_values("event_time")["label"].to_numpy()

tscv = TimeSeriesSplit(n_splits=5)
aucs = []

for train_idx, test_idx in tscv.split(X):
    model = LogisticRegression(max_iter=2000, class_weight="balanced")
    model.fit(X[train_idx], y[train_idx])
    p = model.predict_proba(X[test_idx])[:, 1]
    aucs.append(roc_auc_score(y[test_idx], p))

print("Time-split AUCs:", np.round(aucs, 4), "mean:", np.mean(aucs))

Isso não é um teste retrospectivo completo (você pode precisar de períodos de embargo (embargo periods), tratamento de atraso de rótulo e avaliação sensível a políticas (policy-aware evaluation)), mas evita o erro de vazamento mais comum.

Calibração e limiares de decisão

AUC mede ranqueamento, não se as probabilidades estão corretas. Em precificação de crédito e limites de risco, calibração é essencial:

Calibrar probabilidades em dados fora do tempo
Monitorar deriva de calibração ao longo do tempo
Escolher limiares com base em perda esperada, não em cortes arbitrários

Teste de estresse, robustez e comportamento adversarial

Finanças frequentemente exige análise de “e se”:

Estresse macro (recessão, choques de juros)
Estresse operacional (indisponibilidade de dados, feeds atrasados)
Estresse adversarial (fraudadores testando limites)

Isso se cruza com Aprendizado de Máquina Adversarial (Adversarial Machine Learning), embora em finanças o adversário normalmente seja comportamento estratégico, e não perturbações baseadas em gradiente.

Governança, conformidade e IA responsável

Gestão de risco de modelo (MRM)

Muitas instituições seguem controles formais do ciclo de vida do modelo:

Propósito e limitações do modelo claramente definidos
Linhagem de dados e documentação de atributos
Validação independente (modelos desafiadores, testes de referência (benchmark tests))
Revisão periódica e monitoramento de desempenho

Operacionalmente, isso se assemelha a operações de aprendizado de máquina maduras, além de artefatos de auditoria específicos do domínio.

Explicabilidade e códigos de motivo

Decisões de crédito frequentemente exigem explicações. Abordagens práticas incluem:

Modelos interpretáveis (cartões de pontuação, GBMs monotônicos)
Explicações pós-hoc (post-hoc explanations) (por exemplo, SHAP) com controles de governança
Mapeamentos estáveis de “códigos de motivo” para evitar confundir clientes e reguladores

Veja IA Explicável para métodos e armadilhas.

Equidade e classes protegidas (protected classes)

Mesmo que atributos protegidos sejam excluídos, variáveis substitutas (proxies) podem permanecer (CEP (ZIP code), empregador, histórico educacional). Instituições financeiras frequentemente testam:

Impacto desproporcional (disparate impact) / diferenças de resultado
Paridade de taxa de erro (error rate parity) entre grupos
Estabilidade sob mudanças de política

Isso se encaixa em Equidade no Aprendizado de Máquina, com a nuance adicional de que metas de equidade devem estar alinhadas a arcabouços legais que variam por jurisdição.

Privacidade e segurança

Dados financeiros são sensíveis. Abordagens de preservação de privacidade incluem:

Privacidade Diferencial (Differential Privacy) para insights agregados
Aprendizado Federado (Federated Learning) para treinamento entre silos quando os dados não podem ser centralizados
Controles de acesso seguros, criptografia e registro (logging) cuidadoso

Padrões de implementação em produção

Arquiteturas em fluxo (streaming) + em lote (batch)

Fraude e vigilância frequentemente exigem inferência em fluxo (streaming inference), enquanto risco e conformidade podem ser em lote (diário/semanal). Muitos sistemas combinam:

Computação de atributos em streaming (velocidade, sinais de dispositivo)
Recomposição em lote para consistência e auditorias
Um repositório de atributos para padronizar definições

Monitoramento e alertas

Monitore não apenas acurácia, mas:

Deriva de entrada (mudanças na distribuição de atributos)
Deriva de pontuação (score drift) e deriva da taxa de decisão (decision rate drift) (taxas de aprovar/recusar)
Latência e modos de falha
Calibração ao longo do tempo

Isso se encaixa naturalmente com Monitoramento de Modelos (Model Monitoring).

Fluxos de trabalho de revisão humana

Uma grande fração da IA em finanças é suporte à decisão:

Saídas do modelo viram classificações (rankings) para analistas
Ciclos de feedback exigem rotulagem e controle de qualidade cuidadosos
Interfaces precisam fornecer evidências, não apenas pontuações

Exemplo prático: detecção de anomalias simples para triagem de fraude

Quando rótulos são atrasados ou você quer capturar novos padrões, detecção de anomalias pode fornecer um sinal de triagem:

import numpy as np
from sklearn.ensemble import IsolationForest

# Example features: recent spend velocity, device risk score, geo distance, etc.
X = df[["txn_amount", "txn_count_1h", "txn_count_24h", "geo_distance_km"]].to_numpy()

iso = IsolationForest(
    n_estimators=300,
    contamination=0.002,   # expected anomaly rate (tune carefully)
    random_state=0
)
iso.fit(X)

# Higher means "more normal" in sklearn; we invert for an anomaly score.
anomaly_score = -iso.decision_function(X)

df["anomaly_score"] = anomaly_score
alerts = df.sort_values("anomaly_score", ascending=False).head(200)

Em produção, você:

Calibraria o volume de alertas à capacidade dos investigadores
Adicionaria regras para bloqueios rígidos (por exemplo, indicadores de cartão roubado)
Mediria resultados a jusante (fraude confirmada, perda evitada), não apenas taxas de anomalia

Resumo: o que torna a IA em finanças diferente

Aplicações financeiras recompensam equipes que combinam fundamentos sólidos de aprendizado de máquina com validação e governança orientadas ao domínio:

A modelagem de risco precisa de calibração, estabilidade e robustez a cenários.
Sistemas de fraude/AML precisam lidar com adversários, desbalanceamento, restrições de tempo real e relações em grafos.
Conformidade exige pipelines auditáveis e integração cuidadosa de processamento de linguagem natural/modelos de linguagem grandes.
Modelagem de séries temporais precisa respeitar a não estacionariedade e a disciplina de teste retrospectivo.

Se você construir aprendizado de máquina para finanças como um projeto genérico de classificação — ignorando tempo, custos e regulação — pode colocar em produção um modelo que parece bom offline, mas falha no único lugar que importa: o mundo real.