A maioria dos projetos de IA falha por problema de dados, não de algoritmo. Qualidade desconhecida, linhagem inexistente e viés não identificado fazem o modelo funcionar em laboratório e falhar em produção.
Por Anderson Chipak · ALC · Atualizado abr/2026
1. Qualidade desconhecida do dataset de treinamento
O modelo é treinado com dados históricos cujos problemas de qualidade ninguém documentou. Valores ausentes, inconsistências, duplicatas e outliers maliciosos entram no treinamento sem que a equipe saiba. O modelo aprende os padrões errados.
Consequência: modelo com acurácia alta em validação, resultados ruins em produção com dados reais.
2. Ausência de linhagem de dados
Quando o modelo produz um resultado errado, a equipe não consegue rastrear de onde vieram os dados que alimentaram aquela predição, quais transformações sofreram e em qual versão do pipeline estavam. Depuração impossível.
Consequência: bugs de dados em produção que levam dias ou semanas para diagnosticar.
3. Viés não identificado no dataset
O dataset histórico reflete decisões humanas passadas — que podem ter sido influenciadas por viés. Um modelo de crédito treinado com aprovações históricas aprende os padrões de quem aprovava o crédito, incluindo discriminações inconscientes. O viés é automatizado e amplificado.
Consequência: risco regulatório (LGPD art. 20, PL 2338) + reputacional + operacional.
4. Dataset drift não monitorado
Os dados de produção mudam ao longo do tempo (comportamento de clientes, sazonalidade, mudanças no produto). O modelo treinado com dados de 2023 começa a performar pior em 2025 — mas ninguém monitora métricas de drift porque não há governança do pipeline.
Consequência: degradação silenciosa de performance que só é descoberta quando o impacto no negócio já é significativo.
Qualidade de dados — antes do treinamento
Linhagem de dados — durante o pipeline
Análise de viés — compliance LGPD/PL 2338
Monitoramento em produção
Para sistemas de IA que tomam ou influenciam decisões sobre titulares de dados (crédito, seguro, saúde, emprego), há obrigações específicas:
LGPD art. 20: o titular tem direito de solicitar revisão humana de decisões tomadas por IA. A empresa precisa ter o processo e os dados para fazê-lo.
PL 2338: sistemas de IA de alto risco precisam de documentação técnica, avaliação de impacto e supervisão humana. Os dados de treinamento entram nessa documentação.
Explicabilidade: para sistemas que afetam direitos, a empresa deve ser capaz de explicar a decisão — o que requer linhagem do dado que gerou a predição.
Diagnóstico gratuito de 60 min — Anderson Chipak revisa o pipeline de dados e identifica os 3 maiores riscos de governança.
Agendar diagnóstico →Sites relacionados
Por Anderson Chipak — auditor de sistemas críticos · ALC