🧭 Etapas de um Projeto de Ciência de Dados
Etapas Principais para Implementação de um Projeto
ETAPAS:
- Definição do Problema,
- Coleta e Armazenamento de Dados,
- Preparação e Limpeza de Dados,
- Análise Exploratória dos Dados,
- Modelagem Preditiva/Estatística,
- Avaliação e Teste,
- Entrega do Resultado.
1. Definição do Problema
Para melhor definirmos o problema de negócio a ser tratado, podemos seguir esses passos:
- Entendimento do Objetivo do Negócio,
- Definição dos Objetivos do Projeto,
- Identificação das Perguntas de Pesquisa,
- Análise dos Dados Disponíveis,
- Definição das Métricas de Sucesso,
- Planejamento do Projeto.
2. Coleta e Armazenamento de Dados
Dados precisos e relevantes são a base para análise e insights valiosos. Vamos envolver as partes interessadas para definir os requisitos de dados é vital para o projeto.
Existem diversos métodos de coleta de dados, a escolha do método dependedo tipo do dado necessário e do contexto do projeto.
Garantir a qualidade dos dados é fundamental. Dados incompletos, incorretos ou desatualizados podem levar a conclusões errôneas. Técnicas de limpeza e validação de dados ajudam a manter a integridade da precisão dos dados coletados.
O armazenamento dos dados deve ser eficiente e seguro. Podemos utilizar BD relacionais, BD NoSQL, DL's, DW's ou Data Lakehouse, são algumas das opções disponíveis
Proteger dados coletados é fundamental para manter a confiança e cumprir regulamentações. Implementar medidas de segurança ajuda a proteger os dados contra acessos não autorizados e violações.
A Coleta e Armazenamento dos Dados normalmente costuma ser responsabilidade do Engenheiro de Dados.
3. Preparação e Limpeza de Dados
A preparação de dados em Ciência de Dados é o processo de transformar dados brutos em um formato adequado para análise e modelagem.
Envolvendo as etapas de:
- Limpeza,
- Transformação,
- Integração/Combinação,
- Codificação,
- Redução
É uma etapa essencial na preparação. Envolve a remoção de valores nulos, duplicados e inconsistentes. A normalização e padronização dos dados também se fazem necessárias para garantirmos a consistência.
A transformação inclui a conversão dos dados em formatos apropriados para análise. Isso pode envolver a agregação, codificação e criação de novas variáveis. Ajudando a tornar os dados úteis e compreensíveis.
A integração dos dados combina dados de diferentes fontes para fornecermos uma visão unificada. Podemos aplicar técnicas ETL (Extração, Transformação e Carga) para consolidarmos dados de sistemas diversos em um repositório central.
4. Análise e Exploratória dos Dados
A exploração e visualização dos dados é uma etapa crítica no fluxo de trabalho em Ciência de Dados. Também é conhecida como EDA.
Ela envolve a análise inicial dos dados para entender suas principais características, padrões e anomalias. Utilizando técnicas estatísticas descritivas e ferramentas de visualização para resumir as distribuições dos dados, identificar relações entre variáveis e detectar valores discrepantes (outliers).
A mesma é usada para auxiliar a formular hipóteses, escolher métodos de processamento apropriados e previnir erros que possam surgir devido a problemas nos dados. Também é usada na análise preliminar e criação de insights.
As representações visuais gráficas, visuais claras e informativas facilitam a interpretação de resultados por stakeholders não técnicos, como gerentes executivos.
Podemos aplicar a EDA antes ou depois da preparação dos dados. O objetivo principal é explorar os dados para compreender os padrões e detectar eventuais problemas. Podemos também aplicar a engenharia de atributos antes ou depois da EDA.
5. Modelagem Preditiva / Estatística
Modelagem Preditiva e Modelagem estatística são duas abordagens amplamente usadas em Ciência de Dados, mas possuem objetivos e metodologias diferentes.
Na Modelagem Estatística estamos interessados em analisar e explicar a relação entre variáveis. Exemplo: O número de quartos de uma casa, influencia no preço da casa?
Na Modelagem Preditiva estamos interessados em usar variáveis para fazer previsões. Exemplo: Posso usar o tamanho da casa ou número de quartos para prever o preço da casa.
Podemos usar a Modelagem Estatística como técnicas de seleção de variáveis em Modelagem Preditiva.
Principais diferenças: Modelagem Preditiva / Estatística
Objetivo
Modelagem Estatística
Propósito: Entender a relação entre as variáveis, identificar padrões e fazer inferências sobre populações baseadas em amostras.
Foco: Estabelecer relações causais ou associativas, testar hipóteses e construir modelos explicativos.
Modelagem Preditiva
Propósito: Prever valores futuros ou resultados baseados em dados históricos.
Foco: Otimizar a precisão das previsões, muitas vezes sem se preocupar com a interpretabilidade do modelo.
Abordagem
Modelagem Estatística
Métodos: Usa técnicas como Regressão linear, ANOVA, Testes de hipóteses, entre outros.
Suposições: Geralmente assume que os dados seguem certas distribuições (por exemplo, normalidade) e que ha relações lineares entre variáveis
Modelagem Preditiva
Métodos: Inclui uma ampla gama de técnicas como aprendizado de máquina supervisionada (Árvore de decisões, Redes neurais, SVM), não supervisionado (clusterização), entre outros.
Suposições: Cada algoritmo pode ter suas próprias suposições que devem ser validadas. Foca mais na performance preditiva.
Interpretação
Modelagem Estatística
Interpretação: Resultados são interpretáveis e podem ser usados para inferir relações causais.
Saída: Coeficientes com significados claros, intervalos de confiança, valores p.
Modelagem Preditiva
Interpretação: Pode ser mais difícil de interpretar, especialmente com modelos complexos como redes neurais.
Saída: Foco na precisão das previsões, medidas de performance como AUC, precisão, recall, etc.
Exemplos de uso
Modelagem Estatística
- Usada para testar hipóteses (por exemplo, efeito de um medicamento em uma doença).
- Análises de pesquisas de mercado para entender a relação entre variáveis demográficas e comportamento de compra
Modelagem Preditiva
- Usada em negócios para prever vendas futuras, compras de clientes ou detecção de fraude.
- Aplicações em engenharia para prever falhas de máquinas ou manutenção preditiva.
Ferramentas e Técnicas
Modelagem Estatística
- Ferramentas: Linguagem R, Stata, SAS, SPSS, Linguagem Python (Statsmodels).
- Técnicas: Regressão Linear, Regressão Logística, ANOVA, Análise de Sobrevivência, Análise Fatorial, Métodos Probabilísticos, etc.
Modelagem Preditiva
- Ferramentas: Linguagem Python (Scikit-learn, PyTorch, TensorFlow), Linguagem R (caret, randomForest), Julia, Rust, C++, Java, JavaScript.
- Técnicas: Árvores de Decisão, Floresta Aleatória, Redes Neurais, Deep Learning, SVM, Boosting, Bagging, Regressão Linear, Regressão Logística, etc.
6. Avaliação e Teste
Precisamos avaliar e testar as soluções que criamos durante o projeto de Ciência de Dados
Podemos utilizar algumas técnicas para realizar isso:
- Métricas de Avaliação,
- Validação Cruzada,
- Overfitting e Underfitting,
- Curvas de Aprendizado,
- Análise de Erros (Resíduos),
- BenchMarking.
7. Entrega do Resultado
A entrega de um projeto de Ciência de Dados pode variar amplamente dependendo dos objetivos, do público alvo e do contexto do negócio. Normalmente a definição do entregável ocorre na fase de planejamento do projeto.
Aqui estão algumas das principais opções de entregar um projeto de Ciência de Dados:
- Relatório Técnico ou Científico,
- Relatório Executivo,
- Dashboard Interativo ou Infográfico (com Storytelling),
- Jupyter Notebook,
- Código Fonte e Documentação,
- API (Application Programming Interface),
- Aplicação Web para Deploy do Modelo de ML,
- Previsões do Modelo de ML em Arquivo CSV,
- Previsões do Modelo de ML em um Banco de Dados,
- Simplesmente Entregamos o Arquivo do Modelo de ML.