Template gratuito →
IA

Governança de dados para IA — por que 70% dos projetos falham em produção

A maioria dos projetos de IA falha por problema de dados, não de algoritmo. Qualidade desconhecida, linhagem inexistente e viés não identificado fazem o modelo funcionar em laboratório e falhar em produção.

Por Anderson Chipak · ALC · Atualizado abr/2026

Os 4 problemas de dados que derrubam projetos de IA

1. Qualidade desconhecida do dataset de treinamento

O modelo é treinado com dados históricos cujos problemas de qualidade ninguém documentou. Valores ausentes, inconsistências, duplicatas e outliers maliciosos entram no treinamento sem que a equipe saiba. O modelo aprende os padrões errados.

Consequência: modelo com acurácia alta em validação, resultados ruins em produção com dados reais.

2. Ausência de linhagem de dados

Quando o modelo produz um resultado errado, a equipe não consegue rastrear de onde vieram os dados que alimentaram aquela predição, quais transformações sofreram e em qual versão do pipeline estavam. Depuração impossível.

Consequência: bugs de dados em produção que levam dias ou semanas para diagnosticar.

3. Viés não identificado no dataset

O dataset histórico reflete decisões humanas passadas — que podem ter sido influenciadas por viés. Um modelo de crédito treinado com aprovações históricas aprende os padrões de quem aprovava o crédito, incluindo discriminações inconscientes. O viés é automatizado e amplificado.

Consequência: risco regulatório (LGPD art. 20, PL 2338) + reputacional + operacional.

4. Dataset drift não monitorado

Os dados de produção mudam ao longo do tempo (comportamento de clientes, sazonalidade, mudanças no produto). O modelo treinado com dados de 2023 começa a performar pior em 2025 — mas ninguém monitora métricas de drift porque não há governança do pipeline.

Consequência: degradação silenciosa de performance que só é descoberta quando o impacto no negócio já é significativo.

Controles de governança para pipelines de IA

Qualidade de dados — antes do treinamento

  • → Data profiling: distribuição, completude, acurácia por coluna
  • → Documentação de missing values e estratégia de imputação
  • → Identificação e tratamento de outliers com justificativa
  • → Testes de qualidade automatizados no pipeline (ex: Great Expectations)
  • → Relatório de qualidade do dataset versionado junto ao modelo

Linhagem de dados — durante o pipeline

  • → Rastreabilidade da origem dos dados até a predição
  • → Versionamento de datasets (DVC, Delta Lake, ou manual)
  • → Log de transformações: quais features foram geradas como
  • → Reprodutibilidade: dado o mesmo dataset + código, o resultado deve ser idêntico
  • → Metadata do modelo: data de treinamento, dataset versão, hiperparâmetros

Análise de viés — compliance LGPD/PL 2338

  • → Identificar atributos protegidos no dataset (gênero, raça, idade)
  • → Métricas de equidade: disparate impact, equal opportunity
  • → Teste de performance por subgrupo demográfico
  • → Documentação de análise de viés antes do deploy
  • → Processo de revisão humana para decisões de alto impacto (art. 20 LGPD)

Monitoramento em produção

  • → Data drift: distribuição dos dados de entrada mudou vs. treinamento
  • → Model drift: performance real degradou
  • → Alertas automáticos com thresholds definidos
  • → Log de todas as predições para auditoria posterior
  • → Processo de retreinamento com critérios definidos

O que o PL 2338 e a LGPD exigem para IA

Para sistemas de IA que tomam ou influenciam decisões sobre titulares de dados (crédito, seguro, saúde, emprego), há obrigações específicas:

  • LGPD art. 20: o titular tem direito de solicitar revisão humana de decisões tomadas por IA. A empresa precisa ter o processo e os dados para fazê-lo.

  • PL 2338: sistemas de IA de alto risco precisam de documentação técnica, avaliação de impacto e supervisão humana. Os dados de treinamento entram nessa documentação.

  • Explicabilidade: para sistemas que afetam direitos, a empresa deve ser capaz de explicar a decisão — o que requer linhagem do dado que gerou a predição.

Seu pipeline de IA tem governança de dados?

Diagnóstico gratuito de 60 min — Anderson Chipak revisa o pipeline de dados e identifica os 3 maiores riscos de governança.

Agendar diagnóstico →

Por Anderson Chipak — auditor de sistemas críticos · ALC