Privacidade Diferencial

O Que é Privacidade Diferencial (e Por Que as Pessoas se Importam)

Privacidade Diferencial (DP, Differential Privacy) é um arcabouço matemático para limitar o que pode ser aprendido sobre qualquer indivíduo a partir da saída de uma análise — seja essa saída uma estatística, uma visualização ou um modelo de aprendizado de máquina (machine learning) treinado.

A promessa central é intencionalmente modesta, mas poderosa:

Você pode aprender informações agregadas úteis sobre um conjunto de dados.
Um atacante que vê a saída deve aprender quase nada a mais sobre se o registro de uma pessoa específica foi incluído.

Isso importa porque muitas falhas de privacidade em IA não envolvem roubar o conjunto de dados inteiro. Elas envolvem inferir algo sensível sobre um indivíduo usando acesso a saídas do modelo, gradientes ou estatísticas publicadas. A DP foi projetada para resistir a esses ataques de “inferência a partir de agregados”, mesmo quando o atacante tem conhecimento prévio forte.

Uma ameaça motivadora comum é a inferência de participação (membership inference): dado acesso a um modelo treinado, um atacante tenta adivinhar se uma pessoa específica estava no conjunto de treinamento. A DP busca fazer com que a inferência de participação seja essencialmente não melhor do que adivinhar com base em conhecimento prévio.

A Garantia de DP, Intuitivamente

Imagine dois conjuntos de dados:

D: contém o registro da Alice
D′: idêntico a D, exceto que o registro da Alice foi removido (ou substituído)

Um algoritmo aleatorizado (M) (mecanismo) é diferencialmente privado se as saídas (M(D)) e (M(D′)) forem estatisticamente muito próximas. Se um observador não consegue distinguir de forma confiável qual conjunto de dados foi usado, então o observador não consegue aprender muito sobre a Alice a partir da saída.

Esse enquadramento é por que a DP é considerada robusta: ela não pressupõe que o atacante é fraco e não depende de “remover identificadores” (o que frequentemente falha devido a ataques de vinculação).

Definição Formal: Privacidade Diferencial \((\epsilon, \delta)\)

Um mecanismo aleatorizado (M) satisfaz privacidade diferencial ((\epsilon, \delta)) se, para todos os conjuntos de dados vizinhos (D, D′) que diferem em um indivíduo, e para todos os conjuntos mensuráveis de saídas (S):

[ \Pr[M(D) \in S] \le e^{\epsilon}\Pr[M(D′) \in S] + \delta ]

Parâmetros-chave:

(\epsilon) (“épsilon”): o parâmetro de perda de privacidade. Menor é melhor (privacidade mais forte), mas tipicamente reduz utilidade.
(\delta): uma pequena probabilidade de falha que permite raros “eventos ruins”. Muitas vezes definido como algo como ( \delta \le 1/N^{1.1} ), onde (N) é o tamanho do conjunto de dados, ou (< 10^{-6}) em muitos cenários de aprendizado de máquina.

Duas interpretações importantes:

Quando (\delta = 0), isso é chamado de DP pura (pure DP).
Quando (\delta > 0), é DP aproximada (approximate DP), frequentemente necessária para treinamento prático de aprendizado de máquina com ruído Gaussiano.

Conjuntos de dados vizinhos normalmente são definidos sob o modelo de adicionar/remover (o registro de uma pessoa está presente vs ausente). Alguns contextos usam uma definição de substituir-um; isso muda constantes e interpretações (e pode importar na contabilidade).

Um Exemplo Prático: Publicar uma Contagem com DP

Suponha que você queira publicar:

“Quantos usuários no conjunto de dados têm a condição X?”

Se você publicar a contagem exata, qualquer pessoa individual pode alterar a resposta em no máximo 1. Esse “no máximo 1” é a sensibilidade global (global sensitivity).

Um mecanismo clássico de DP é o mecanismo de Laplace (Laplace mechanism):

Calcule a contagem verdadeira (c)
Adicione ruído de Laplace proporcional a sensibilidade / (\epsilon)

Pseudo-código:

import numpy as np

def dp_count(true_count, epsilon, sensitivity=1):
    scale = sensitivity / epsilon
    noise = np.random.laplace(loc=0.0, scale=scale)
    return true_count + noise

Se (\epsilon) for pequeno, a escala do ruído é grande → privacidade mais forte, pior acurácia.

Este exemplo parece simples, mas ele aponta para duas realidades que se tornam severas em aprendizado de máquina:

Você deve limitar corretamente a sensibilidade.
Se você responde muitas perguntas, a perda de privacidade se acumula (composição).

Mecanismos Sobre os Quais Você Vai Ouvir Falar

Mecanismo de Laplace (frequentemente DP “pura”)

Funciona bem para consultas numéricas com sensibilidade limitada (contagens, somas, médias com truncamento).

Mecanismo Gaussiano (geralmente \((\epsilon, \delta)\)-DP)

Adiciona ruído Gaussiano. É amplamente usado em aprendizado de máquina porque compõe bem sob arcabouços avançados de contabilidade.

Mecanismo Exponencial (Exponential Mechanism)

Usado quando as saídas não são numéricas (por exemplo, selecionar uma característica, escolher um modelo a partir de um conjunto) ao aleatorizar de acordo com uma pontuação de utilidade.

DP Local vs DP Central

DP central (Central DP): um curador confiável mantém os dados brutos e libera saídas com DP.
DP local (Local DP): cada usuário aleatoriza seus dados antes de compartilhá-los; não é necessário um curador confiável, mas a acurácia frequentemente sofre de forma significativa.

DP local é comum em telemetria; DP central é comum para treinamento de modelos com DP e liberações curadas.

Composição: Por Que “Uma Consulta DP” Não é o Mundo Real

A DP vem com uma regra embutida sobre o que acontece quando você libera múltiplos resultados com DP: a perda de privacidade se soma.

Se você executa (k) mecanismos, cada um com ((\epsilon_i, \delta_i))-DP sobre os mesmos dados, então (sob composição básica) a liberação combinada é aproximadamente:

(\epsilon \approx \sum_i \epsilon_i)
(\delta \approx \sum_i \delta_i)

Por isso, implantações de DP giram em torno de um orçamento de privacidade (privacy budget):

Decidir o ((\epsilon, \delta)) total
Gastá-lo ao longo de todas as liberações (consultas, execuções de treinamento, painéis, análises A/B)

Na prática, sistemas modernos usam contabilidade mais apertada do que soma ingênua, como:

DP de Rényi (RDP, Rényi Differential Privacy) e conversão de volta para ((\epsilon, \delta))
zCDP
abordagens do estilo “contador de momentos” (moments accountant) (popularizadas pelo DP-SGD)

A mensagem principal: você não obtém DP “de graça” adicionando ruído uma vez. Acesso repetido — especialmente treinamento iterativo — consome o orçamento de privacidade rapidamente, a menos que seja cuidadosamente projetado.

Privacidade Diferencial para Aprendizado de Máquina: DP-SGD

Para treinar modelos profundos, a abordagem mais comum é DP-SGD (Descida do Gradiente Estocástica com Privacidade Diferencial, Differentially Private Stochastic Gradient Descent):

Calcule gradientes por exemplo (per-example gradients) (ou contribuições por exemplo).
Trunque (clip) cada gradiente por exemplo a uma norma máxima (C).
Isso limita a sensibilidade — sem truncamento, um único exemplo atípico poderia dominar uma atualização.
Faça a média dos gradientes truncados em um minibatch.
Adicione ruído Gaussiano ao gradiente médio.
Aplique a atualização.

Esboço em pseudo-código:

for batch in data_loader:
    grads = [grad(loss(model, x_i), model.params) for x_i in batch]  # per-example
    grads = [g * min(1.0, C / (norm(g) + 1e-12)) for g in grads]     # clip to norm C
    g_bar = mean(grads)
    noise = Normal(0, sigma*C).sample_like(g_bar) / batch_size
    private_grad = g_bar + noise
    model.params -= lr * private_grad

O DP-SGD também tipicamente se apoia em amplificação de privacidade por subamostragem (privacy amplification by subsampling): se cada passo usa um minibatch aleatório, cada indivíduo participa com alguma probabilidade, o que melhora a contabilidade de privacidade em comparação com atualizações em lote completo.

O DP-SGD é uma das principais pontes entre a teoria de DP e sistemas práticos de IA — mas também é onde muitas dificuldades práticas aparecem.

Por Que Garantias de DP São Difíceis na Prática

A DP é matematicamente precisa, mas implantá-la em sistemas reais de aprendizado de máquina/dados é difícil por várias razões.

1) Escolher \(\epsilon\) Não é Como Escolher um Tamanho de Bits de Segurança

Equipes frequentemente perguntam: “Qual epsilon é seguro?”

Não existe uma resposta universal. Interpretar (\epsilon) é sutil:

A definição limita razões de verossimilhança, não “porcentagem de chance de reidentificação”.
Diferentes modelos de ameaça e informações auxiliares mudam como os resultados parecem na prática, mesmo que a DP ainda valha.
Valores de epsilon vistos na prática variam muito (de um dígito até centenas), e comparar entre artigos ou sistemas pode ser enganoso porque:
- tamanhos de conjuntos de dados diferem,
- a composição difere,
- a relação de vizinhança difere,
- o método de contabilidade difere.

Isso torna a DP difícil de operacionalizar em termos de política, especialmente para organizações acostumadas a checklists de conformidade mais claros.

2) A DP Protege Apenas a Saída do Mecanismo — Não o Pipeline Inteiro

As garantias de DP se aplicam ao mecanismo aleatorizado especificado (M). Pipelines reais de aprendizado de máquina incluem muitas etapas não privadas:

limpeza e filtragem de dados
engenharia de atributos
remoção de outliers
ajuste de hiperparâmetros
seleção de modelo
depuração e logging
inspeção manual de exemplos

Se qualquer uma dessas etapas vazar informação sensível (por exemplo, “removemos o usuário #123 porque…”), o sistema como um todo pode falhar nas expectativas de privacidade mesmo que a etapa final de treinamento tenha sido DP.

Uma armadilha comum: ajustar com base em métricas privadas de validação sem contabilizar a perda de privacidade (ou ajustar interativamente até as métricas parecerem boas). Cada consulta à avaliação privada pode gastar orçamento.

3) Limitar Sensibilidade Força Você a Fazer Trade-offs de Modelagem

Mecanismos de DP exigem influência limitada de cada pessoa.

No DP-SGD, isso é a norma de truncamento (C). Se (C) for pequeno demais:

os gradientes são truncados em excesso → underfitting, baixa acurácia, dinâmicas de aprendizado enviesadas

Se (C) for grande demais:

a sensibilidade aumenta → mais ruído é necessário para a mesma privacidade → pior utilidade

Escolher (C) não é apenas um detalhe técnico; isso molda o que o modelo consegue aprender, e diferentes subpopulações podem ser afetadas de formas distintas (por exemplo, grupos raros podem ter gradientes que são truncados com mais frequência).

4) O Custo de Utilidade Pode Ser Severo em Alta Dimensionalidade e Poucos Dados

O ruído de DP cresce com:

privacidade mais forte (menor (\epsilon)),
mais passos de treinamento / mais consultas,
maior sensibilidade (maior (C)),
conjuntos de dados menores.

O aprendizado de máquina moderno frequentemente tem:

contagens massivas de parâmetros,
agendas longas de treinamento,
objetivos complexos.

DP ainda pode funcionar, mas o “preço” é real:

queda de acurácia,
treinamento mais frágil,
convergência pode exigir cronogramas de taxa de aprendizado e escolhas de arquitetura mais cuidadosos.

DP tende a ser mais fácil quando você tem muitos dados e pode tolerar algum ruído.

5) Contabilidade de Privacidade É Fácil de Errar

Para reivindicar um ((\epsilon,\delta)) final, você deve contabilizar corretamente:

taxa de amostragem,
número de passos,
multiplicador de ruído (\sigma),
se a amostragem é com/sem reposição,
o tipo de contador (RDP, zCDP etc.),
a definição de conjunto de dados vizinho.

Pequenos erros aqui podem invalidar a garantia declarada. Em produção, usar bibliotecas bem testadas e documentar suposições é essencial.

6) Dados Correlacionados Enfraquecem a Intuição “Por Pessoa” (Embora a DP Ainda Valha)

A DP é definida por registro individual, mas dados reais frequentemente contêm correlações:

domicílios compartilham atributos,
existem medições repetidas (séries temporais),
grafos sociais conectam usuários,
uma pessoa pode contribuir com múltiplos registros.

A DP ainda fornece uma garantia formal sob a definição de vizinhança escolhida, mas a história de privacidade prática muda. Por exemplo:

Se uma pessoa contribui com 100 eventos, DP de “um registro” pode não protegê-la bem.
Se você mudar para vizinhança de “um usuário”, a sensibilidade aumenta, e a utilidade pode cair a menos que você redesenhe o mecanismo.

Esse é um dos maiores hiatos entre a teoria de DP e conjuntos de dados reais e desorganizados.

7) A Garantia É Sobre Influência de Participação, Não “Sem Memorização”

Um modelo com DP ainda pode produzir texto com aparência sensível ou sequências raras se:

os parâmetros de privacidade forem fracos,
o modelo for enorme e o treinamento for longo,
a distribuição de treino incluir strings únicas e o sistema não estiver cuidadosamente ajustado.

A DP limita a contribuição de qualquer indivíduo; ela não significa “o modelo nunca pode emitir algo sensível”. Isso é especialmente relevante para modelos generativos.

8) Questões de Implementação e de Sistemas Importam

A DP é sensível a detalhes de engenharia:

aleatoriedade segura (qualidade do gerador de números aleatórios)
armadilhas de ponto flutuante e discretização (especialmente para DP local ou cenários criptográficos)
correção do cálculo de gradientes por exemplo
sincronização em treinamento distribuído
garantir que as únicas saídas sejam as saídas de DP pretendidas (por exemplo, sem logs como canal lateral)

Essas não são objeções teóricas — são fontes frequentes de falhas no mundo real.

Aplicações Práticas de Privacidade Diferencial

Publicação de Estatísticas e Painéis

Organizações usam DP para liberar:

contagens (usuários ativos, uso de funcionalidades),
histogramas (faixas etárias, faixas de latência),
itens mais frequentes (principais consultas, principais itens) via algoritmos especializados de DP.

A DP é atraente aqui porque suporta liberações repetidas com gestão de orçamento.

Treinamento de Modelos com DP (Aprendizado com Preservação de Privacidade)

Casos de uso incluem:

modelos treinados com dados sensíveis de usuários (saúde, finanças, metadados de mensagens),
modelos internos em que o modelo de saída pode ser amplamente compartilhado,
contextos com alto risco de inferência de participação.

O DP-SGD é o carro-chefe. Em algumas organizações, DP é usada para viabilizar compartilhamento mais seguro de modelos entre equipes porque o próprio modelo se torna uma liberação controlada.

Aprendizado Federado com Privacidade Diferencial

Aprendizado Federado move o treinamento para os dispositivos, reduzindo a centralização de dados brutos. Mas o aprendizado federado por si só não garante privacidade: gradientes/atualizações podem vazar informação.

Na prática, sistemas federados frequentemente combinam:

agregação segura (secure aggregation) (para ocultar atualizações individuais do servidor),
ruído de DP central adicionado às atualizações agregadas (ou ruído de DP local no dispositivo).

Essa combinação é popular porque a agregação segura reduz requisitos de confiança, e a DP fornece um limite formal para vazamento de informação a partir do modelo/atualizações finais.

Dados Sintéticos com DP (Com Ressalvas)

A DP pode ser usada para treinar modelos generativos para produzir conjuntos de dados sintéticos com vazamento de privacidade limitado. Isso é atraente para compartilhamento de dados, mas a qualidade pode ser desafiadora, e usuários downstream devem entender que:

dados sintéticos com DP podem não preservar bem subpopulações raras,
a utilidade depende fortemente do orçamento e das escolhas de modelagem,
dados sintéticos ainda podem codificar vieses sociais presentes na fonte.

Como Comunicar uma Alegação de DP com Responsabilidade

Uma alegação de DP crível deve especificar:

A garantia final de privacidade: ((\epsilon, \delta))
O modelo de ameaça: central vs local, “um usuário” vs “um registro”
O mecanismo: Laplace/Gaussiano/DP-SGD etc.
Método de composição/contabilidade: RDP, contador de momentos etc.
Hiperparâmetros-chave para DP-SGD:
- norma de truncamento (C)
- multiplicador de ruído (\sigma)
- taxa de amostragem
- número de passos/épocas

Também comunique limitações:

A DP não previne vazamento por componentes não privados do pipeline.
A DP reduz o risco de inferência de participação, mas não resolve automaticamente questões mais amplas de governança como consentimento, minimização de dados ou controle de acesso.
A interpretabilidade de (\epsilon) não é trivial; comparações entre sistemas podem ser enganosas.

Equívocos Comuns

“DP significa que os dados são anônimos.”
DP não é “anonimização”. É uma garantia sobre distribuições de saída sob conjuntos de dados vizinhos.
“Se usarmos aprendizado federado, não precisamos de DP.”
Aprendizado federado reduz centralização, mas não impede, por si só, vazamento de informação. DP frequentemente é complementar. Veja Aprendizado Federado.
“Adicionar ruído uma vez torna isso DP.”
O ruído deve ser calibrado à sensibilidade, e a composição ao longo de liberações/passos de treinamento deve ser contabilizada.
“DP destrói a acurácia.”
Às vezes sim, às vezes não — a utilidade depende fortemente do tamanho do conjunto de dados, do modelo e do orçamento de privacidade. Mas em muitos cenários realistas, a troca é significativa e precisa ser planejada.

Resumo: O Valor de Alto Nível e a Dificuldade Prática

Privacidade Diferencial é uma das poucas abordagens de privacidade em IA com uma garantia formal e componível que é resiliente a atacantes fortes e a informação auxiliar. Isso a torna particularmente atraente para liberar estatísticas e treinar modelos com dados sensíveis.

Mas DP é difícil na prática porque sistemas reais de aprendizado de máquina são iterativos, de alta dimensionalidade e desorganizados:

orçamentos de privacidade devem ser gerenciados ao longo do tempo,
pipelines incluem muitos pontos potenciais de vazamento além do mecanismo de DP,
a utilidade pode degradar acentuadamente sob privacidade forte,
contabilidade e implementação são fáceis de errar,
e o significado de “bom epsilon” não é universalmente consensual.

Usada com cuidado, DP pode reduzir substancialmente o risco de privacidade e viabilizar uso mais seguro de dados. Usada de forma casual, pode virar “teatro de privacidade” — um rótulo aplicado sem contabilidade correta, escopo correto ou disciplina operacional.