Governança de Dados para IA — Qualidade, Viés e Linhagem

Os 4 problemas de dados que derrubam projetos de IA

1. Qualidade desconhecida do dataset de treinamento

O modelo é treinado com dados históricos cujos problemas de qualidade ninguém documentou. Valores ausentes, inconsistências, duplicatas e outliers maliciosos entram no treinamento sem que a equipe saiba. O modelo aprende os padrões errados.

Consequência: modelo com acurácia alta em validação, resultados ruins em produção com dados reais.

2. Ausência de linhagem de dados

Quando o modelo produz um resultado errado, a equipe não consegue rastrear de onde vieram os dados que alimentaram aquela predição, quais transformações sofreram e em qual versão do pipeline estavam. Depuração impossível.

Consequência: bugs de dados em produção que levam dias ou semanas para diagnosticar.

3. Viés não identificado no dataset

O dataset histórico reflete decisões humanas passadas — que podem ter sido influenciadas por viés. Um modelo de crédito treinado com aprovações históricas aprende os padrões de quem aprovava o crédito, incluindo discriminações inconscientes. O viés é automatizado e amplificado.

Consequência: risco regulatório (LGPD art. 20, PL 2338) + reputacional + operacional.

4. Dataset drift não monitorado

Os dados de produção mudam ao longo do tempo (comportamento de clientes, sazonalidade, mudanças no produto). O modelo treinado com dados de 2023 começa a performar pior em 2025 — mas ninguém monitora métricas de drift porque não há governança do pipeline.

Consequência: degradação silenciosa de performance que só é descoberta quando o impacto no negócio já é significativo.

Controles de governança para pipelines de IA

Qualidade de dados — antes do treinamento

→ Data profiling: distribuição, completude, acurácia por coluna
→ Documentação de missing values e estratégia de imputação
→ Identificação e tratamento de outliers com justificativa

→ Testes de qualidade automatizados no pipeline (ex: Great Expectations)
→ Relatório de qualidade do dataset versionado junto ao modelo

Linhagem de dados — durante o pipeline

→ Rastreabilidade da origem dos dados até a predição
→ Versionamento de datasets (DVC, Delta Lake, ou manual)
→ Log de transformações: quais features foram geradas como

→ Reprodutibilidade: dado o mesmo dataset + código, o resultado deve ser idêntico
→ Metadata do modelo: data de treinamento, dataset versão, hiperparâmetros

Análise de viés — compliance LGPD/PL 2338

→ Identificar atributos protegidos no dataset (gênero, raça, idade)
→ Métricas de equidade: disparate impact, equal opportunity
→ Teste de performance por subgrupo demográfico

→ Documentação de análise de viés antes do deploy
→ Processo de revisão humana para decisões de alto impacto (art. 20 LGPD)

Monitoramento em produção

→ Data drift: distribuição dos dados de entrada mudou vs. treinamento
→ Model drift: performance real degradou
→ Alertas automáticos com thresholds definidos

→ Log de todas as predições para auditoria posterior
→ Processo de retreinamento com critérios definidos

O que o PL 2338 e a LGPD exigem para IA

Para sistemas de IA que tomam ou influenciam decisões sobre titulares de dados (crédito, seguro, saúde, emprego), há obrigações específicas:

→
LGPD art. 20: o titular tem direito de solicitar revisão humana de decisões tomadas por IA. A empresa precisa ter o processo e os dados para fazê-lo.
→
PL 2338: sistemas de IA de alto risco precisam de documentação técnica, avaliação de impacto e supervisão humana. Os dados de treinamento entram nessa documentação.
→
Explicabilidade: para sistemas que afetam direitos, a empresa deve ser capaz de explicar a decisão — o que requer linhagem do dado que gerou a predição.

Seu pipeline de IA tem governança de dados?

Diagnóstico gratuito de 60 min — Anderson Chipak revisa o pipeline de dados e identifica os 3 maiores riscos de governança.

Agendar diagnóstico →

Governança de dados para IA — por que 70% dos projetos falham em produção

Os 4 problemas de dados que derrubam projetos de IA

Controles de governança para pipelines de IA

O que o PL 2338 e a LGPD exigem para IA

Seu pipeline de IA tem governança de dados?