Etapa 3
Fundamentos de Processamento
de Dados
// Fundamentos de Inteligência de Negócios
[1]
O que é ETL – Extract Transform
and Load?
// Integração com Python
[2]
Pipeline de dados
Fonte: SAS [3]
Pipeline de dados
ETL – Extract, Transform & Load
[4]
Pipeline de dados Extração
CRM Cloud
Filas SGBD
Legados Files
ETL – Extract, Transform & Load
[5]
Pipeline de dados Transformação
CRM Cloud
Filas SGBD
Legados Files
ETL – Extract, Transform & Load
[6]
Pipeline de dados Load
CRM Cloud
Filas SGBD
Legados Files
ETL – Extract, Transform & Load
[7]
Pipeline de dados Load
CRM Cloud
Filas SGBD
Legados Files
Clean Analyse
ETL – Extract, Transform & Load
[8]
O que é ELT – Extract Load and
Transform?
// Integração com Python
[9]
Pipeline de dados Load
CRM Cloud
Filas SGBD
Legados Files
ELT – Extract, Load & Transform
[10]
Processo de ELT
Mudou a ordem do
• Solucionam o mesmo problema Load e Transform. E
aí?
Diferença:
• Abordagem de transformação
• Perspectiva sobre os dados
Estrutura influencia na análise
[11]
Pipeline de dados
CRM Cloud Ágil
Filas SGBD
Legados Files
ETL – Extract, Transform & Load
[12]
Processo de ELT
Extração
CRM Cloud
• Coleta de dados brutos Filas SGBD
• Fontes heterogêneas
• Objetivo: integração posterior Legados Files
[13]
Processo de ELT
Load
• Transferência/carregamento
• Dados brutos
• Data Warehouse ou repo
[14]
Processo de ELT
Transform
• Transformação dos dados
dentro do repositório
• Aplicação das análises
[15]
Processo de ELT
Mudou a ordem do
Load e Transform. E
• Independencia de TI aí?
Responsável:
• Profissionais de analise de dados
Contato direto com regras de negócios
[16]
Vantagens do ELT
• Otimização de tempo
• Eficiência na implementação de projetos
• Menor dependência de TI
• Papel principal dos analistas
[17]
Diferenças entre ETL
e ELT?
// Integração com Python
[18]
Vantagens do ELT
• Tempo de carregamento
• Tempo de transformação
• Tempo de Manutenção
• Complexidade de implementação
[19]
Vantagens do ELT
Sistemas -> delay
• Tempo de carregamento
• Tempo de transformação
• Tempo de Manutenção
• Complexidade de implementação
[20]
Vantagens do ELT
• Tempo de carregamento
Gargalo na transformação
• Tempo de transformação
• Tempo de Manutenção
• Complexidade de implementação
[21]
Vantagens do ELT
• Tempo de carregamento
• Tempo de transformação
Custo com atualização
• Tempo de Manutenção
• Complexidade de implementação
[22]
Vantagens do ELT
• Tempo de carregamento
• Tempo de transformação
• Tempo de Manutenção Custo com atualização
• Complexidade de implementação
[23]
Vantagens do ELT
Quais dados estão disponíveis?
• Limitação de dados
• Suporte à Data Warehouses
• Usabilidade
[24]
Vantagens do ELT
Como lidar com os dados?
• Limitação de dados
• Suporte à Data Warehouses
• Usabilidade
[25]
Vantagens do ELT
• Limitação de dados
• Suporte à Data Warehouses
Abordagem do processo
• Usabilidade
[26]
Vantagens do ELT
• Limitação de dados
• Suporte à Data Warehouses
• Usabilidade
Qual dos processos escolher?
[27]
Qual escolher? ETL ou
ELT?
\\ Power BI Analyst
[28]
ETL – Extract, Transform, Load
Foco do ETL
[29]
ETL – Extract, Transform, Load
Foco do ETL
[30]
Hands On! ETL com Power BI
“Falar é fácil.
Mostre-me o código!”
Linus Torvalds
[31]
Dúvidas?
> Fórum/Artigos
> Comunidade Online (Discord)
[32]
Para saber mais
Referências principais:
• https://peps.python.org/pep-0008/
• https://peps.python.org/pep-0257/
https://github.com/julianazanelatto
• https://pypi.org/project/pylint/
• https://pypi.org/project/flake8/
[33]
Datasets no Kaggle
Dataset: Crimes em comunidades dos EUA
Dataset: Efeitos do alcool nos estudos
Dataset: Trending videos on Youtube
Dataset: Categorização de Salários de DS
Dataset: Conjunto de Livros de DS Amazon
[34]