Finanças
Finanças: Risco, Fraude, Conformidade e Padrões de Séries Temporais
Finanças é um dos domínios mais ricos em dados — e mais carregados de restrições — para IA (AI). Modelos são implantados para quantificar risco, detectar fraude, cumprir obrigações regulatórias e prever séries temporais (time series) como preços, volumes, inadimplências e necessidades de liquidez. Diferentemente de muitas aplicações de consumo, finanças normalmente exigem:
- Alta precisão sob incerteza (pequenas taxas de erro podem ser custosas)
- Governança forte e explicabilidade (explainability) (auditorias, notificações de ação adversa, gerenciamento de risco de modelo)
- Robustez a mudança de distribuição (distribution shift) (regimes mudam; o comportamento se adapta)
- Consciência adversarial (adversarial awareness) (fraudadores e participantes de mercado reagem aos controles)
Este artigo explica teoria e prática essenciais em risco, fraude, conformidade e modelagem de séries temporais — além dos padrões de validação e governança que determinam o sucesso ou o fracasso de sistemas em produção.
Características do domínio que moldam o design do aprendizado de máquina (machine learning)
Não estacionariedade e mudanças de regime
Processos financeiros mudam com frequência ao longo do tempo por causa de ciclos macroeconômicos, alterações de política, mudanças na estrutura de mercado e atualizações de produtos. Isso viola a suposição de “treinar e esquecer” comum no aprendizado de máquina.
Sintomas comuns:
- As distribuições dos atributos derivam (por exemplo, a inflação altera razões de renda sobre dívida)
- As relações derivam (por exemplo, um modelo de risco calibrado em ambientes de juros baixos falha em regimes de juros altos)
- Os rótulos mudam por política (por exemplo, regras de concessão de crédito mudam a composição de aprovações)
Isso está intimamente ligado à Deriva de Conceito (Concept Drift) e deve orientar como você valida e monitora modelos.
Caudas pesadas, eventos raros e custos assimétricos
Inadimplências, fraudes e crashes de mercado costumam ser raros, porém severos. Distribuições de perdas têm caudas pesadas, e o valor esperado pode ser dominado por eventos de cauda. Isso leva a:
- Classificação desbalanceada (imbalanced classification) (a taxa de fraude pode ser <0,1%)
- Alta sensibilidade a limiarização e calibração
- Necessidade de teste de estresse (stress testing) e análise de cenários
Atraso de rótulo e ciclos de retroalimentação
Alguns rótulos chegam tarde (estornos (chargebacks), fraude confirmada, inadimplência após 90+ dias de atraso). Enquanto isso, as decisões do modelo influenciam quais dados você observa (viés de seleção (selection bias)), por exemplo:
- Se você recusa solicitantes arriscados, nunca observa se eles teriam entrado em inadimplência.
- Um bloqueio forte de fraude reduz a fraude observada, mudando a distribuição de treino.
Questões causais aparecem com frequência; veja Inferência Causal (Causal Inference).
Regulação e auditabilidade
Muitos modelos financeiros exigem:
- Linhagem documentada de dados de treinamento e pressupostos
- Análise de estabilidade e modelos desafiadores (challenger models)
- Explicabilidade em níveis global e individual
- Verificações de crédito justo / discriminação
Isso se conecta naturalmente a IA Explicável (Explainable AI) e Equidade no Aprendizado de Máquina (Fairness in Machine Learning).
Áreas centrais de aplicação
Modelagem de risco
A modelagem de risco busca estimar a probabilidade e a severidade de desfechos negativos. As categorias mais comuns são risco de crédito, risco de mercado, risco de contraparte, risco de liquidez e risco operacional.
Risco de crédito (PD/LGD/EAD)
Uma estrutura clássica decompõe a perda de crédito esperada em:
- PD: Probabilidade de Inadimplência (Probability of Default)
- LGD: Perda Dada a Inadimplência (Loss Given Default) (fração perdida se ocorrer inadimplência)
- EAD: Exposição na Inadimplência (Exposure at Default) (quanto é devido no momento da inadimplência)
Uma aproximação simples de perda esperada:
Perda Esperada ≈ PD × LGD × EAD
Tarefas típicas de aprendizado de máquina
- Pontuação de proposta: aprovar/recusar + precificação
- Pontuação comportamental: risco contínuo em contas existentes
- Otimização de cobrança: quais intervenções reduzem a perda
- Alerta antecipado: detectar deterioração antes do atraso
Famílias de modelos comuns
- Regressão logística / cartões de pontuação (scorecards): ainda amplamente usados devido à interpretabilidade e estabilidade
- Árvores com boosting de gradiente (gradient-boosted trees) (por exemplo, XGBoost/LightGBM): alta acurácia em dados tabulares
- Análise de sobrevivência (survival analysis): modelagem de tempo até a inadimplência (taxas de risco (hazards)) em vez de um binário “inadimplência em T”
- Redes neurais (neural networks): usadas quando interações entre atributos são complexas, mas a governança é mais difícil
Nota prática: Muitos credores preferem restrições monotônicas (monotonic constraints) (por exemplo, maior dívida/renda não deveria reduzir o risco previsto). Boosters de árvores modernos oferecem suporte a isso, aumentando confiança e conformidade.
Calibração importa
Em crédito, muitas vezes você precisa de probabilidades, não apenas de rankings. Um modelo com bom AUC, mas com calibração de probabilidade ruim, pode precificar crédito de forma incorreta. Considere métodos de Calibração (Calibration) como escalonamento de Platt (Platt scaling) ou regressão isotônica (isotonic regression).
Risco de mercado (VaR/ES, volatilidade, estresse)
Risco de mercado frequentemente se concentra na perda de portfólio sob movimentos adversos.
- VaR (Value at Risk): limiar de perda não excedido com uma confiança escolhida (por exemplo, 99%)
- ES (Expected Shortfall): perda esperada condicionada a exceder o VaR (mais sensível à cauda)
O aprendizado de máquina contribui via:
- Previsão de volatilidade (atributos como volatilidade realizada (realized vol), fluxo de ordens (order flow), indicadores macroeconômicos)
- Geração de cenários (por exemplo, simulações condicionais (conditional simulations))
- Modelagem por fatores e redução de dimensionalidade (dimensionality reduction)
No entanto, prever retornos de forma pura é notoriamente difícil; muitos sistemas bem-sucedidos focam em previsão de risco (volatilidade, drawdown (drawdown), liquidez) em vez de alfa (alpha).
Risco de contraparte e risco de liquidez
- Risco de contraparte: probabilidade de uma contraparte de negociação falhar em cumprir (por exemplo, em derivativos)
- Risco de liquidez: capacidade de financiar obrigações ou sair de posições sem grande impacto no preço
O aprendizado de máquina pode prever:
- Fluxos de caixa e rotatividade de depósitos (deposit churn)
- Comportamento de saque em linhas de crédito (drawdown behavior)
- Indicadores de estresse de liquidez e sinais de alerta antecipado
Risco operacional
Risco operacional inclui perdas por falhas de processo, erro humano e eventos externos. Aplicações de IA frequentemente usam:
- Processamento de linguagem natural sobre relatórios de incidentes
- Detecção de anomalias em controles internos
- Manutenção preditiva para infraestrutura crítica em operações financeiras
Detecção de fraude e prevenção à lavagem de dinheiro (anti-money laundering, AML)
Fraude e AML são adversariais: ofensores se adaptam aos controles. Isso torna robustez e monitoramento centrais.
Detecção de fraude (pagamentos, tomada de conta, identidade)
Tipos comuns de fraude:
- Fraude com cartão não presente
- Tomada de conta
- Fraude de identidade sintética
- Fraude de primeira parte (estornos “amigáveis”)
Padrões de modelagem
- Classificação supervisionada quando rótulos estão disponíveis (estornos, fraude confirmada)
- Detecção de anomalias para padrões emergentes de fraude: Detecção de Anomalias (Anomaly Detection)
- Análise de grafos para detectar quadrilhas e comportamento conluiado: Redes Neurais em Grafos (Graph Neural Networks)
Restrições de tempo real
A detecção de fraude muitas vezes precisa rodar em dezenas de milissegundos. Isso empurra o design para:
- Atributos pré-computados em um repositório de atributos (feature store)
- Modelos leves ou serving otimizado
- Agregação em streaming (contagens móveis, atributos de velocidade)
Humano no loop
Muitos sistemas não recusam automaticamente eventos limítrofes; eles encaminham para revisão com códigos de motivo (reason codes) e evidências. Os resultados da revisão viram dados de treinamento, mas atenção a vieses de revisores.
AML e monitoramento de atividade suspeita
AML busca detectar padrões como fracionamento (structuring), ocultação em camadas (layering) e redes de “mulas”. Os desafios incluem:
- Taxas-base (base rates) extremamente baixas
- Alto custo de investigação por alerta
- Fortes expectativas regulatórias de explicabilidade e trilhas de auditoria
Abordagens eficazes tendem a ser híbridas:
- Regras + tipologias + ranqueamento por aprendizado de máquina
- Resolução de entidades baseada em grafos e pontuação de redes
- Desduplicação e priorização de alertas
Processamento de linguagem natural também pode ajudar a interpretar narrativas não estruturadas em anotações de caso e instruções de transferência, mas sistemas generativos precisam ser restritos e auditáveis.
Aplicações de conformidade e regulação
“Conformidade” é amplo; fluxos de trabalho comuns habilitados por IA incluem onboarding de KYC, triagem de sanções, vigilância de comunicações e relatórios regulatórios.
KYC (Conheça Seu Cliente (Know Your Customer, KYC)) e onboarding
As tarefas incluem:
- Classificação e extração de documentos (IDs, comprovantes de endereço)
- Resolução de entidades (correspondência de identidades entre sistemas)
- Pontuação de risco (tier de risco do cliente, atividade esperada)
Processamento de linguagem natural e visão computacional podem extrair campos estruturados de documentos, enquanto a vinculação de registros (record linkage) usa correspondência probabilística. Para componentes com muito texto, técnicas de Processamento de Linguagem Natural (Natural Language Processing, NLP) como reconhecimento de entidades nomeadas (named entity recognition) e classificação de documentos (document classification) são comuns.
Triagem de sanções e listas de observação
A triagem de sanções é principalmente um problema de correspondência:
- Nomes, aliases, transliterações
- Endereços, datas de nascimento, identificadores
- Relações entre entidades (propriedade e controle)
O aprendizado de máquina pode melhorar ranqueamento e reduzir falsos positivos, mas é exigida alta revocação (recall); muitas instituições preferem limiares conservadores e revisão humana forte.
Vigilância de comunicações e de negociações
Empresas monitoram:
- Comunicações em busca de indicadores de abuso de mercado
- Padrões de negociação para manipulação por falsas ordens (spoofing), sobreposição de ordens (layering), uso de informação privilegiada (insider trading)
Esses costumam ser problemas de sinal fraco, combinando:
- Atributos de séries temporais (taxas de colocação/cancelamento de ordens)
- Baselines comportamentais (comparações por grupo de pares)
- Processamento de linguagem natural sobre chat/e-mail (com controles de privacidade cuidadosos)
Padrões de séries temporais em finanças
Séries temporais estão em toda parte: preços, volumes, utilização, atrasos, sinistros, depósitos e indicadores macroeconômicos. Séries temporais financeiras têm propriedades distintivas:
Fatos estilizados (o que esperar)
- Agrupamento de volatilidade: períodos calmos seguidos por períodos turbulentos
- Caudas gordas: extremos ocorrem com mais frequência do que suposições gaussianas preveem
- Não estacionariedade: média/variância e correlações mudam
- Sazonalidade e efeitos de calendário: dia da semana, fim do mês, feriados
- Ruído de microestrutura em alta frequência (oscilação bid-ask, latência)
Alvos de previsão que costumam ser mais tratáveis do que retornos
Prever diretamente retornos de curto horizonte é difícil e instável. Muitos sistemas práticos preveem:
- Volatilidade (risco)
- Volume e liquidez (execução)
- Taxas de inadimplência e taxas de migração de atraso
- Fluxos de caixa e churn
- Taxas de fraude e carga operacional
As escolhas de modelo vão do clássico (ARIMA, state-space, GARCH) ao aprendizado de máquina (boosting de gradiente sobre atributos defasados) ao aprendizado profundo (modelos de sequência (sequence models)). Modelos de sequência do tipo “foundation” (foundation-like) e variantes de transformer (transformer) são explorados cada vez mais, mas precisam ser validados contra baselines fortes.
Para metodologia e padrões de avaliação, veja Previsão de Séries Temporais (Time Series Forecasting).
Padrões práticos de modelagem
Engenharia de atributos (feature engineering) para dados financeiros
Mesmo com modelos modernos, atributos bem pensados costumam ser decisivos:
- Atributos defasados (lag features): último valor, últimos k valores
- Estatísticas móveis (rolling statistics): média/desvio padrão em 7/30/90 dias
- Atributos de velocidade (velocity features): transações por hora, gasto nos últimos 10 minutos
- Razões: utilização, dívida/renda, saldo/limite
- Normalização por grupo de pares (peer group normalization): desvio em relação ao comportamento esperado
- Atributos de rede (network features) (fraude/AML): dispositivos compartilhados, contas bancárias compartilhadas, grafos de co-transações
Isso se conecta a boas práticas gerais de Engenharia de Atributos, com ênfase adicional em controle de vazamento de informação (leakage) (não use informação do futuro).
Lidando com desbalanceamento de classes (class imbalance) e custos
Fraude/AML comumente usam:
- Curvas precisão-revocação (precision-recall curves) (mais informativas do que ROC quando a taxa-base é minúscula)
- Aprendizado sensível a custo (cost-sensitive learning) (pesos ou função de perda personalizada (custom loss))
- Otimização de limiar (threshold optimization) para maximizar utilidade esperada (lucro/perda)
Consulte Métricas de Avaliação (Evaluation Metrics) para orientação na seleção de métricas.
Métodos de grafos para quadrilhas de fraude e redes de AML
Muitos esquemas são relacionais: IPs, dispositivos, endereços, beneficiários compartilhados. Abordagens de grafos incluem:
- Componentes conectados (connected components) / detecção de comunidades (community detection) para descoberta de quadrilhas (ring discovery)
- Embeddings de nós (node embeddings) para classificação downstream
- Redes Neurais em Grafos para propagação de mensagens (message passing) aprendida (com validação cuidadosa)
Sistemas de grafos exigem resolução de entidades forte; caso contrário, você constrói grafos sobre identidades ruidosas.
Processamento de linguagem natural e modelos de linguagem grandes (large language models) em finanças (onde se encaixam)
Modelos de linguagem grandes podem acelerar:
- Ingestão e sumarização de documentos (políticas, filings, anotações de caso)
- Rascunhos de respostas para suporte ao cliente (com salvaguardas (guardrails) rigorosas)
- Pesquisa de conformidade e Q&A interno via recuperação
Em fluxos regulados, saídas de modelos de linguagem grandes devem ser tratadas como assistência, não como verdade absoluta. Use padrões como geração aumentada por recuperação (retrieval-augmented generation) e verificação, conforme discutido em Modelos de Linguagem Grandes. A alucinação (hallucination) do modelo é especialmente arriscada quando saídas afetam aprovações, negociação ou decisões de conformidade.
Validação: como é o “bom” em finanças
Teste retrospectivo (backtesting) e avaliação sensível ao tempo
Divisões aleatórias de treino/teste muitas vezes são inválidas para séries temporais e fraude em evolução. Use:
- Avaliação walk-forward / rolling-origin (walk-forward / rolling-origin evaluation)
- Validação fora do tempo (out-of-time validation) (treinar no passado, testar no futuro)
- Testes por segmento (por geografia, produto, canal)
Um exemplo mínimo de divisão sensível ao tempo:
import numpy as np
import pandas as pd
from sklearn.model_selection import TimeSeriesSplit
from sklearn.metrics import roc_auc_score
from sklearn.linear_model import LogisticRegression
# X: features sorted by event_time, y: label (e.g., default within 12 months)
X = df.sort_values("event_time")[feature_cols].to_numpy()
y = df.sort_values("event_time")["label"].to_numpy()
tscv = TimeSeriesSplit(n_splits=5)
aucs = []
for train_idx, test_idx in tscv.split(X):
model = LogisticRegression(max_iter=2000, class_weight="balanced")
model.fit(X[train_idx], y[train_idx])
p = model.predict_proba(X[test_idx])[:, 1]
aucs.append(roc_auc_score(y[test_idx], p))
print("Time-split AUCs:", np.round(aucs, 4), "mean:", np.mean(aucs))
Isso não é um teste retrospectivo completo (você pode precisar de períodos de embargo (embargo periods), tratamento de atraso de rótulo e avaliação sensível a políticas (policy-aware evaluation)), mas evita o erro de vazamento mais comum.
Calibração e limiares de decisão
AUC mede ranqueamento, não se as probabilidades estão corretas. Em precificação de crédito e limites de risco, calibração é essencial:
- Calibrar probabilidades em dados fora do tempo
- Monitorar deriva de calibração ao longo do tempo
- Escolher limiares com base em perda esperada, não em cortes arbitrários
Teste de estresse, robustez e comportamento adversarial
Finanças frequentemente exige análise de “e se”:
- Estresse macro (recessão, choques de juros)
- Estresse operacional (indisponibilidade de dados, feeds atrasados)
- Estresse adversarial (fraudadores testando limites)
Isso se cruza com Aprendizado de Máquina Adversarial (Adversarial Machine Learning), embora em finanças o adversário normalmente seja comportamento estratégico, e não perturbações baseadas em gradiente.
Governança, conformidade e IA responsável
Gestão de risco de modelo (MRM)
Muitas instituições seguem controles formais do ciclo de vida do modelo:
- Propósito e limitações do modelo claramente definidos
- Linhagem de dados e documentação de atributos
- Validação independente (modelos desafiadores, testes de referência (benchmark tests))
- Revisão periódica e monitoramento de desempenho
Operacionalmente, isso se assemelha a operações de aprendizado de máquina maduras, além de artefatos de auditoria específicos do domínio.
Explicabilidade e códigos de motivo
Decisões de crédito frequentemente exigem explicações. Abordagens práticas incluem:
- Modelos interpretáveis (cartões de pontuação, GBMs monotônicos)
- Explicações pós-hoc (post-hoc explanations) (por exemplo, SHAP) com controles de governança
- Mapeamentos estáveis de “códigos de motivo” para evitar confundir clientes e reguladores
Veja IA Explicável para métodos e armadilhas.
Equidade e classes protegidas (protected classes)
Mesmo que atributos protegidos sejam excluídos, variáveis substitutas (proxies) podem permanecer (CEP (ZIP code), empregador, histórico educacional). Instituições financeiras frequentemente testam:
- Impacto desproporcional (disparate impact) / diferenças de resultado
- Paridade de taxa de erro (error rate parity) entre grupos
- Estabilidade sob mudanças de política
Isso se encaixa em Equidade no Aprendizado de Máquina, com a nuance adicional de que metas de equidade devem estar alinhadas a arcabouços legais que variam por jurisdição.
Privacidade e segurança
Dados financeiros são sensíveis. Abordagens de preservação de privacidade incluem:
- Privacidade Diferencial (Differential Privacy) para insights agregados
- Aprendizado Federado (Federated Learning) para treinamento entre silos quando os dados não podem ser centralizados
- Controles de acesso seguros, criptografia e registro (logging) cuidadoso
Padrões de implementação em produção
Arquiteturas em fluxo (streaming) + em lote (batch)
Fraude e vigilância frequentemente exigem inferência em fluxo (streaming inference), enquanto risco e conformidade podem ser em lote (diário/semanal). Muitos sistemas combinam:
- Computação de atributos em streaming (velocidade, sinais de dispositivo)
- Recomposição em lote para consistência e auditorias
- Um repositório de atributos para padronizar definições
Monitoramento e alertas
Monitore não apenas acurácia, mas:
- Deriva de entrada (mudanças na distribuição de atributos)
- Deriva de pontuação (score drift) e deriva da taxa de decisão (decision rate drift) (taxas de aprovar/recusar)
- Latência e modos de falha
- Calibração ao longo do tempo
Isso se encaixa naturalmente com Monitoramento de Modelos (Model Monitoring).
Fluxos de trabalho de revisão humana
Uma grande fração da IA em finanças é suporte à decisão:
- Saídas do modelo viram classificações (rankings) para analistas
- Ciclos de feedback exigem rotulagem e controle de qualidade cuidadosos
- Interfaces precisam fornecer evidências, não apenas pontuações
Exemplo prático: detecção de anomalias simples para triagem de fraude
Quando rótulos são atrasados ou você quer capturar novos padrões, detecção de anomalias pode fornecer um sinal de triagem:
import numpy as np
from sklearn.ensemble import IsolationForest
# Example features: recent spend velocity, device risk score, geo distance, etc.
X = df[["txn_amount", "txn_count_1h", "txn_count_24h", "geo_distance_km"]].to_numpy()
iso = IsolationForest(
n_estimators=300,
contamination=0.002, # expected anomaly rate (tune carefully)
random_state=0
)
iso.fit(X)
# Higher means "more normal" in sklearn; we invert for an anomaly score.
anomaly_score = -iso.decision_function(X)
df["anomaly_score"] = anomaly_score
alerts = df.sort_values("anomaly_score", ascending=False).head(200)
Em produção, você:
- Calibraria o volume de alertas à capacidade dos investigadores
- Adicionaria regras para bloqueios rígidos (por exemplo, indicadores de cartão roubado)
- Mediria resultados a jusante (fraude confirmada, perda evitada), não apenas taxas de anomalia
Resumo: o que torna a IA em finanças diferente
Aplicações financeiras recompensam equipes que combinam fundamentos sólidos de aprendizado de máquina com validação e governança orientadas ao domínio:
- A modelagem de risco precisa de calibração, estabilidade e robustez a cenários.
- Sistemas de fraude/AML precisam lidar com adversários, desbalanceamento, restrições de tempo real e relações em grafos.
- Conformidade exige pipelines auditáveis e integração cuidadosa de processamento de linguagem natural/modelos de linguagem grandes.
- Modelagem de séries temporais precisa respeitar a não estacionariedade e a disciplina de teste retrospectivo.
Se você construir aprendizado de máquina para finanças como um projeto genérico de classificação — ignorando tempo, custos e regulação — pode colocar em produção um modelo que parece bom offline, mas falha no único lugar que importa: o mundo real.