Business Intelligence
Cláudio Lúcio
1
Business Intelligence Apresentação Cláudio Lúcio ●
Mestre em informática PUC MG, Especialista em estatística UFMG, Bacharel em ciência da computação;
●
15 anos de experiência em BI/BA atuando em projetos para clientes do cenário nacional: Arcelor Mittal Tubarão, Banco Mercantil do Brasil, BDMG, BMG, CEMIG, EDS, FIAT, GM do Brasil, Mendes Júnior, Localiza, SEBRAE-SC,SUDECAP, Telefônica, Oi, Vale, VIVO, VMM – Votorantim Mineração e Metais.
●
Treinamenos ministrados para várias empresas: Assurant, Athos Pharma, Banco do Brasil, Best Forecast, BM&F,Caixa Econômica, CEMIG, E-Lucid, GM do Brasil, HDI Seguros, Mapfre, Marítima Seguros, Telemar, Telemig Celular e Unibanco ;
Cláudio Lúcio
2
Pág.: 1
Business Intelligence Agenda ●
Introdução – conceitos e definições
●
Conceitos de DW e Modelagem
●
ETC e Integração de dados e Conceitos OLAP
●
●
Novas tendências: Big Data, Governança de dados, ciência de dados Inteligência computacional: Mineração de dados e Otimização
Cláudio Lúcio
3
Business Intelligence Avaliações e Frequência ●
Chamadas;
●
Trabalhos em sala – valendo 30%
●
–
Estudo de caso de uso BI na indústria;
–
Modelagem Dimensional de dados ;
–
Exemplo de processo de carga de BI;
Restante dos pontos será com um trabalho proposta, idealmente, pelo prof. Barbieri.
Cláudio Lúcio
4
Pág.: 2
Business Intelligence Avaliações e Frequência ●
Trabalho a ser desenvolvido “off-class”, valendo 70% , sobre assunto a ser distribuído em aula: Resumo de entendimento, por grupo sobre: BI em dados não-estruturados; – BI em Gerência de Projetos; – Big data e DW; – MDM; – BI-Ágil; – Requisitos em projetos de BI; – BI-Tempo real-BIRT; – Outro assunto relacionado, a ser aprovado com o Professor; –
Cláudio Lúcio
5
Business Intelligence Avaliações e Frequência • RE-Resumo de entendimento: ●
●
Trabalho em Word com no mínimo 12 páginas, incluindo texto e gráficos. Contém identificação do curso, Grupo, nome completo dos participantes do Grupo, índice e referências consultadas. Enviar em digital um dia antes da última aula (ver slide seguinte). Entregar um PPT, com o RE visando uma apresentação na última aula. Enviar em digital um dia antes e entregar em papel na última aula.
Cláudio Lúcio
6
Pág.: 3
Business Intelligence Recomendações de Bibliografia - Barbieri Ver artigos no CD-distribuído: –
Artigos de MDM
–
Artigos de Qualidade de Dados
–
Artigo de BI aplicado em GP
–
Ver outras referências
Cláudio Lúcio
7
Business Intelligence Recomendações de Bibliografia - Barbieri •
•
Livros de cabeceira: – Numerati-Stephen Baker-Ed.ARX • Fala sobre as diversas técnicas em desenvolvimento, visando mapear os perfis, atitudes, grupos, recursos humanos, clientes,etc através da análise do comportamento digital(internet) da sociedade – Final Jeopardy-Man versus Machine- Stephen Baker-Ed. HMH-inglês • Sistema desenvolvido pela IBM para retenção de informações gerais e que concorreu no programa de QUEST de maior audiência nos EUA (e venceu). – CLICK-Bill Tancer-Editora Globo • O que milhões de pessoas estão fazendo on-line e por que isso é importante. O comportamento do mundo na internet. Os dados e seus tratamentos Livros técnicos – Business Intelligence-Um enfoque gerencial para a inteligência de negóciosEfraim Turban,Ramesh Sharda,Jay Aronson e David King-Editora bookman – Data Quality-The Accuracy Dimension-Jack Olson (inglês) – Data Warehouse Design-Modern Principles and Methodologies-Matteo Golfarelli e Stefano Rizzi(inglês) – Brandwashed-Martin Lindstrom, editora Crown Publishing Group, 2011
Cláudio Lúcio
8
Pág.: 4
Business Intelligence Recomendações de Bibliografia - Barbieri Referências Prova ICCP-CDMP/DAMA/TDWI Institute for Certification of Computing Professionals Dama-Data Management Association TDWI-The Data Warehousing Institue •
Livros: – Improving Data Warehouse and Business Information Quality-Larry English-Editora Wiley Publishing,1999 – Management Information Systems for the Information Age-Stephen Haag e Maeve Cummings, Editora McGraw Hill, 2010 – A Manager´s Guide to Data Warehousing, Laura Reeves, Editora Wiley Publishing, 2009 – The New Era of Enterprise Business Intelligence, Mike Beere, Editora IBM Press, 2011 – The Dama Guide to Data Management Body of Knowledge(Dama – DMBOK Guide) – Modern Systems Analysis and Design, Jeffrey Hoffer,Joey George e Joe Valacich-Pearson Education Inc, 2011 Cláudio Lúcio
9
Business Intelligence Recomendações de Bibliografia - Barbieri Referências Novas tendências BI
•
Livros: – BI2-Business Intelligence-Modelagem e Qualidade-Carlos Barbieri-Editora Elsevier,2011 – Agile Data Warehouse Design-Lawrence Corr e Jim StagnittoEditora Decision Press-2011 – Agile DataWarehousing Project Management-BI systems using Scrum-Ralph Hughes-Morgan Kauffman-2013 – Agile DataWarehousing-Ralph Hughes-Editora iUniverse Inc, 2008 – Agile Analytics-Ken Collier-Editora Addison Wesley, 2012 – Star Schema- The complete reference-Christopher AdamsonEditora McGraw Hill, 2010 Cláudio Lúcio
10
Pág.: 5
Business Intelligence Recomendações de Bibliografia - Barbieri Referências Novas tendências BI
•
Livros: – BI2-Business Intelligence-Modelagem e Qualidade-Carlos Barbieri-Editora Elsevier,2011 – Agile Data Warehouse Design-Lawrence Corr e Jim StagnittoEditora Decision Press-2011 – Agile DataWarehousing Project Management-BI systems using Scrum-Ralph Hughes-Morgan Kauffman-2013 – Agile DataWarehousing-Ralph Hughes-Editora iUniverse Inc, 2008 – Agile Analytics-Ken Collier-Editora Addison Wesley, 2012 – Star Schema- The complete reference-Christopher AdamsonEditora McGraw Hill, 2010 Cláudio Lúcio
11
Business Intelligence Recomendações de Bibliografia - Barbieri
Carlos Barbieri: Blog do Barbi (Carlos Barbieri) http://blogdobarbi.blogspot.com/ Twitter: CarlosBarbieri FB:Carlos Barbieri
Cláudio Lúcio
12
Pág.: 6
Business Intelligence Recomendações de Bibliografia Modelagem de dados, ETL e OLAP Barbieri, Carlos. BI2-Business Intelligence, Modelagem e Qualidade. 2011.Ed.: Elsevier. Pag.:416. Kimball, Ralph; Ross, Margy. Data Warehouse Toolkit (The): Guia Completo para Modelagem Dimensional; 2002; Ed.: Campus; ISBN:85-352-1129-2. Metodologia para DW Kimball, Ralph. The Data Warehouse Lifecycle Toolkit. Ed.: John Wiley & Sons. ISBN: 9780470149775; Pág.: 636. Textos complemmentares do TDWI; BI e Competitividade das empresas Davenport, Thomas; Harris, Jeanne; Morison, Robert. Analytics at Work: Smarter Decisions, Better Results. 2010; Ed.: Harvard Business Press; ISBN: 978-1422177693; Pág.: 240; Data Mining /Estatística e Otimização Berthold, Michael; Borgelt, Christian; Höppner, Frank; Klawonn, Frank. Guide to Intelligent Data Analysis: How to Intelligently Make Sense of Real Data. 2010. Ed.: Springer;ISBN: 978-1-84882-259-7. Pág. 398. Pesquisa Operacional: 170 Aplicações em Estratégia, Finanças, Logística, Produção, Marketing e Vendas. 2007; Ed. LTC; ISBN: 139788521615590; Pág.:528. Stevenson, William. Estatística Aplicada a Administração. 1997. Ed.:HARBRA.Pág.:498. Cláudio Lúcio
13
Pág.: 7
Business Intelligence Introdução: conceitos e definições Cláudio Lúcio
1
Introdução: conceitos e definições Agenda ●
Contexto do BI
●
Aplicação do BI
●
Utilizações e Tecnologia
●
Componentes típicos de uma solução BI
Cláudio Lúcio
2
Pág.: 8
Introdução:conceitos e definições Contexto BI Cláudio Lúcio
3
Introdução – conceitos e definições Ambiente de informação empresarial - típico
Cláudio Lúcio
4
Pág.: 9
Introdução – conceitos e definições Ambiente de informação empresarial - típico Percentual do tempo consumido com: Análise dos dados
100% 80%
Transformação e preparação dos dados
60% 40%
Extração dos dados dos sistemas origem
20% 0%
Cláudio Lúcio
5
Introdução – conceitos e definições Sintomas que indicam quando o BI é uma boa solução: ●
●
●
●
● ●
●
●
Dificuldade na obtenção de informações estratégicas atualizadas; Dificuldade de apurar, acompanhar e comparar os indicadores de desempenho empresarial; Descrédito das informações - os números da empresa não batem entre as áreas; Não uniformidade de conceitos na organização (produto, margem, etc); Dificuldade ou demora para obtenção de informações históricas; Dificuldade de integração e cruzamento das informações internas e externas à organização; Manipulação excessiva de arquivos e planilhas para obtenção da informações gerenciais; Forte dependência da área de TI para a obtenção de informação para análises gerenciais previstas ou não previstas. Cláudio Lúcio
6
Pág.: 10
Introdução – conceitos e definições Ambiente de informação empresarial – típico Como acontece o processo de obtenção de informação gerencial na sua empresa ???
Cláudio Lúcio
7
Introdução – conceitos e definições “Business Intelligence é o processo de transformar dados em informações para, através de análises, transformar essas informações em conhecimento que contribui para uma efetiva tomada de decisão.” Grupo Gartner Mais pragmaticamente: “Informação na palma da sua mão, no formato que você deseja” “Informação correta, no tempo certo.” “Decisão subsidiada por fatos e dados.”
Cláudio Lúcio
8
Pág.: 11
Introdução – conceitos e definições Ambiente de informação empresarial – Mudança de paradigma Percentual do tempo consumido com: Análise dos dados
100% 80%
Transformação e preparação dos dados
60% 40%
Extração dos dados dos sistemas origem
20% 0%
Cláudio Lúcio
9
Introdução – conceitos e definições Ambiente de informação empresarial – Mudança de paradigma Aplicativos Operacionais
Business Intelligence
Visão do atual e do real
Visão histórica e de tendência
Solução para requisitos conhecidos
Permitir a identificação de fatos desconhecidos
Abrangência restrita
Abrangência ampla
Informação produzida por profissionais de informática
Informação produzida pelo próprio usuário
Alto custo e tempo para obtenção da informação
Informação obtida com baixo custo e em tempo real
Informação disponível a poucos usuários
Informação democratizada
Cláudio Lúcio
10
Pág.: 12
Introdução:conceitos e definições Aplicação do BI
Cláudio Lúcio
11
Aplicação do BI - O contexto do negócio determina a natureza da aplicação do BI. - O contexto do negócio orienta sobre as formas de alinhar resultados de um projeto de BI com os objetivos empresariais: ●
●
●
Diretrizes: Definições que são estrategicamente importantes no posicionamento do negócio para atingir objetivos de curto ou longo prazo; A definição de diretrizes claras é um dos fatores para o sucesso de um projeto de BI; Objetivos: Itens mensuráveis que devem ser alcançados para garantir a efetividade da diretriz estabelecida; Estratégias: São planos de ação, ou seja, descrevem como a empresa irá atingir os objetivos estabelecidos;
Cláudio Lúcio
12
Pág.: 13
Aplicação do BI
Cláudio Lúcio
13
Aplicação do BI Diretrizes Diretrizes
Objetivos
Estratégia
Resultados
Atuação de forças que demandam ações empresariais
Resultados desejados a partir de ações
Plano de ações para alcançar os objetivos
Resultados obtidos com as ações adotadas
Implementação da estratégia empresarial ROI - Retorno sobre o Investimento
Valor Agregado ao Negócio
Objetivo da Aplicação do BI
TCO - Custo total de propriedade Cultura analítica (decisões baseadas em dados)
Diretrizes Dados Atuação de forças Descritivo, que demandam qualitativo ou ações empresariais quantitativo.
Informação Fatos e medições
Conhecimento
Ação
Novas crenças, experiências e evidências
Decisão, Inovação, insight
Cláudio Lúcio
14
Pág.: 14
Aplicação do BI Métricas de negócios e indicadores Métricas: Refere-se uma medida numérica que representa um processo ou assunto do negócio. Normalmente é visto em várias óticas ou dimensões.
●
Indicadores: Pode ser considerado uma métrica com características particulares (obrigatórias para um indicador); Estas características são: meta e faixa de valores; Outras características: forma de visualização, tendência e alertas; Vários tipos, como: quanto maior melhor, quanto menor melhor, intervalos dentre outros;
●
Apresentação de métricas, indicadores e dashboards Cláudio Lúcio
15
Aplicação do BI Gerenciamento baseado em métricas - Aplicação direta de BI Alguns processos ou métodos de gerenciamentos são aplicações diretas do uso de indicadores e métricas. Este ambiente é propício para o BI: ● SCM (Supply Chain Management) = modelo de gestão que utiliza medidas internas e externas de processos envolvendo clientes e fornecedores. EX.: taxa de ocupação de máquina,qualidade do produto, qualidade do material, previsão de demanda, taxa de entrega, taxa de devolução.
BAM (Business Activity Monitoring/Management) = modelo de gestão que utiliza métricas de atividades em um negócio. EX.:
●
Número de visitas a clientes,número de respostas de campanhas de marketing, interrupções de serviços, paradas da linha de produção. Cláudio Lúcio
16
Pág.: 15
Aplicação do BI Gerenciamento baseado em métricas - Aplicação direta de BI CRM (Customer Relantionship Management) = modelo de gestão que utiliza métricas externas específicas para clientes EX.: ●
Satisfação de cliente, valor do cliente, taxa de retenção do cliente, itens de preferências do cliente, fidelidade do cliente, taxa de recompra, taxa de reconquista
BSC (Balanced Scorecard) = é uma metodologia de medição e gestão de desempenho. EX.: Decomposto em objetivos, indicadores, metas e iniciativas,nas ●
quatro dimensões de negócio: Financeira; ●Clientes; ●Processos internos; ●Aprendizado e crescimento. ●
Cláudio Lúcio
17
Introdução:conceitos e definições Utilizações e Tecnologia Cláudio Lúcio
18
Pág.: 16
Utilizações e Tecnologia Utilizações Utilização
Descrição
Inteligência aplicada em clientes
Maximizar o valor do cliente, conhecer melhor o perfil dos clientes, entender a satisfação e como reter os clientes.
Inteligência aplicada em Mercado
Entender o mercado de forma integrada: competidores, clientes, fornecedores, produtos e metas.
Inteligência aplicada em Vendas
Planejar e implementar estratégias de vendas, aplicando controle e garantindo melhoria contínua no processo de venda.
Inteligência aplicada na cadeia de suprimentos
Melhoria e monitoração de processos da cadeia, desde a entrada do pedido até a entrega do produto/serviço.
Inteligência aplicada em sistemas de e-commerce
Antecipar padrões de comportamento, fazer recomendações automáticas de produtos, indicar tendências de compras
Inteligência aplicada sistemas produtivos
Auxiliar na previsão de demanda e otimização do sistema produtivo, melhoria de estocagem, utilização de matéria-prima.
Cláudio Lúcio
19
Utilizações e Tecnologia Tecnologias Tecnologia -Termos
Descrição
DSS – Decision Support Systems
Sistema para tomada de decisão. Utilizado para decisões táticas.
EIS – Executive information Decisão gerencial, baseado em indicadores e dashboards. Systems Implementação da método baseado em métricas. OLAP – Online Analytical Processing
Ferramentas para suportar análises multidimensionais, ou múltiplas visões. Tipicamente utilizado por usuários chaves para explorar dados.
Query & Reporting
Prover acesso rápido e fácil aos dados do negócio. Funcionalidades de exploração de dados e compartilhamento.
ETC – Extração transformação e carga
Ferramentas para manipular dados quanto a sua extração, transformação, limpeza, qualidade e carga.
ODS – Operational Data Store
Prover serviços de dados com base nos processos de operação para sistemas e para geração de relatórios.
Mineração de dados
Descobrir padrões de ocultos em um grande volume de dados, fornecendo novas ideias e insights sobre o negócio.
Otimização
Utilização de modelos matemáticas para obtenção de soluções melhores ou ótimas. Cláudio Lúcio
20
Pág.: 17
Utilizações e Tecnologia
SAS e IBM Vídeos Cláudio Lúcio
21
Introdução:conceitos e definições Componentes típicos de uma solução BI Cláudio Lúcio
22
Pág.: 18
Componentes típicos de uma solução BI
Fonte: TDWI Cláudio Lúcio
23
Componentes típicos de uma solução BI
Fonte: TDWI Cláudio Lúcio
24
Pág.: 19
Componentes típicos de uma solução BI Componentes
Descrição
Processos ETL
Componente responsável por todo os serviços relacionados a manipulação de dados: movimentação, extração, carga, limpeza, qualidade dentre outros;
Data Warehouse
Repositório central de dados corporativos da organização. Contém também um estrutura que comporta metadados
Data mart
Repositório específico de dados, também integrado, mas que mantém as particularidades específicas de um determinado assunto.
Análises/OLAP/Dashboard /Indicadores
Camada da solução responsável por entregar/visualização das informações para os diversos públicos-alvo da solução.
Portal Corporativo
Local de fácil acesso de informações e dados. Congrega funcionalidade de dados estruturados e dados não estruturados. É a 'ponta da pirâmide' na apresentação de um solução BI.
Modelos Mining
Camada analíticas que provê novos insights a partir de um grande volume de dados.
Cláudio Lúcio
25
Pág.: 20
Qualidade de dados e BI - Barbieri • A pergunta que se faz: • Como ter uma boa estratégia de negócios num cenário onde a qualidade dos dados(insumos para a s informações) não é controlada e garantida? • Ter Bancos de Dados, DataWarehousing, DataMarts, Analytics, etc é suficiente? • Casamento BI+Qualidade é essencial!!
Cláudio Lúcio
28
Pág.: 21
Qualidade de dados e BI - Barbieri QUALIDADE DOS DADOS PESQUISA DA PWC-PRICE WATERHOUSECOOPERS, REALIZADA EM 600 CORPORAÇÕES EM TODO O MUNDO, REVELA QUE APENAS
41%
DELAS ESTÃO CONFIANTES NA QUALIDADE DE SEUS DADOS E
17%
CONFIA EM DADOS DE TERCEIROS
Cláudio Lúcio
29
Qualidade de dados e BI - Barbieri APLICAÇÕES BI VAREJO • •
• • • • • • • •
9800 LOJAS-29 paises, 400 lojas/ano, US 5bi de impostos, > 2 MILHÕES EMPREGADOS-100.000.000 DE CLIENTE FATURAMENTO:405 BI US$(2010), OU SEJA 2,4 %DO PIB DOS USA. SE FOSSE UM PAIS O SEU PIB SERIA > QUE 90% DOS PAISES. LUCRO DE US$ 8 BI(3 * PETROBRÁS) COMPRA 10% DE TUDO QUE A CHINA VENDE AOS USA POSSUI O SEGUNDO MAIOR COMPUTADOR DO PLANETA(MENOR QUE O PENTÁGONO) X PETABYTES DE DADOS-DW DESDE 1988-investe alto em Dados SAM WALTON: “TODAS AS COISAS MAIS SIGNIFICATIVAS DA MINHA VIDA EU COPIEI DE ALGUÉM” DEVIDO AO KMART(JÁ QUEBROU) Novo modelo de negócios: espreme os fornecedores- 15 a 20% mais barato que a concorrência(repassa direto a diferença do que ganha com FN, para os clientes). Reduz a inflação americana em 1%(deflação) Cláudio Lúcio
30
Pág.: 22
Qualidade de dados e BI - Barbieri
• GRANDE EXEMPLO DE USO DE BI • SEGREDO – – – –
GESTÃO COM TECNOLOGIA DE INFORMAÇÃO CONTROLE DE LUCRATIVIDADE DE CADA ITEM ACELERAÇÃO DA ROTAÇÃO DO ESTOQUE ELIMINAÇÃO DE MERCADORIAS SEM SAÍDAS
• EXEMPLO; – COMPRA DE UMA LATA DE MASSA DE TOMATE EM QUALQUER LOJA DO WAL-MART(INCLUSIVE AS 21 DO BR) – INFORMAÇÃO VIAJA 13.000 KM PARA O DB DE ARKANSAS(BENTONVILLE) – ENVIO DE INFORMAÇÃO PARA O CENTRO DE DISTRIBUIÇÃO EM SP-REPOSIÇÃO DAQUELE LATA
Cláudio Lúcio
31
Qualidade de dados e BI - Barbieri
• GRANDE EXEMPLO DE USO DE BI • SEGREDO – – – –
GESTÃO COM TECNOLOGIA DE INFORMAÇÃO CONTROLE DE LUCRATIVIDADE DE CADA ITEM ACELERAÇÃO DA ROTAÇÃO DO ESTOQUE ELIMINAÇÃO DE MERCADORIAS SEM SAÍDAS
• EXEMPLO; – COMPRA DE UMA LATA DE MASSA DE TOMATE EM QUALQUER LOJA DO WAL-MART(INCLUSIVE AS 21 DO BR) – INFORMAÇÃO VIAJA 13.000 KM PARA O DB DE ARKANSAS(BENTONVILLE) – ENVIO DE INFORMAÇÃO PARA O CENTRO DE DISTRIBUIÇÃO EM SP-REPOSIÇÃO DAQUELE LATA
Cláudio Lúcio
32
Pág.: 23
Qualidade de dados e BI - Barbieri • GRANDE INVESTIMENTO EM TECNOLOGIA DE INFORMAÇÃO • MAIOR DB DO PLANETA QUE GERA O MAIOR DW DO PLANETA • 30 X MAIOR QUE TODO O CONTEÚDO DA BIBLIOTECA DO CONGRESSO DOS EUA – N TRILHÕES DE DADOS( n TERABYTES) – DW DO WAL-MART=600 Tb-1 Petabyte-TERADATA
• INFORMAÇÕES GERENCIAIS – PERFIL DE CONSUMIDOR-SAMS CLUBE – DIAS MAIS PROPÍCIOS PARA COMPRA DE PRODUTO X POR CONSUMIDOR TIPO Y
• INVESTIMENTOS TOTAIS DE MAIS DE 2/3 BI DE DÓLARES DESDE 88 • SÓ EM 2002 APLICOU 400 MI DE DÓLARES Cláudio Lúcio
33
Qualidade de dados e BI - Barbieri Rea lizara m um movimento giga ntesco de logística , com desloca mento de frotas de caminhões giga ntes, contendo esses dois produtos , para as á reas ameaçadas. Ganhara m muito dinheiro!
Em setembro de 2004 , o furacão Frances se aproximava das costas da Flórida
Verificaram que havia tido um consumo extraordinário de E -m ails, cerveja (fase pré-Twitter, chamadas telefô n icas etc, DEFINEM tufão) e deSUAS tortaREDES de SOCIAIS OUTLOOK(DE QUEM , morango(strawberry PARA QUEM, CÓPIA tarts, naOCULTA?, fase pós NATUREZA DO VÍNCULO tufão. Essa tinha sido consumida 7 x mais que a média
A equipe de BI do Wal Ma rt CV, análises especialista em DOCUM ENT OS preditivas a típicas: Quais DE PROJET OS, seriam os produtosMOSTRAM de ma ior SEUS consumo e PERFÍS DE que mereceriam cuidado E da área HABILIDADES EXPERIÊNCIAS de logística da empresa , nas regiões atingidas?
Poder da Informação VIA CEL UL ARES E NOTE BOOKS
Verificaram que o CAPTURAM SEUS perfil de consumo MOVIMENTOS durante o furacão DE COMUNICAÇÃO anterior(Charley) EMPRESARIAL apontava para dados não óbvios. Não era lanterna, pregos,reforço de portas e janelas,etc
Cláudio Lúcio
AS AGENDAS ON-LINE M OSTRANDO AS Analisaram os SUAS ATIVIDADES dados de PROFISSIONAIS consumos, E COM QUEM SE REUNEM no DW, registrados
relativo à passagem do outro FuracãoCharley, em agosto de 2004
34
Pág.: 24
Atividade 1- Leitura do CASE FIAT ●
Discussões após a leitura
Reflexão Existe diferença entre sistemas operacionais e um sistema que apoia a tomada de decisões? ●É possível compreender o que é Business Intelligence? ●É possível compreender as vantagens de uma solução de Business Intelligence? ●É possível compreender e decidir quando aplicar uma solução de Business Intelligence? ●
Cláudio Lúcio
35
Pág.: 25
Business Intelligence Conceitos de DW Cláudio Lúcio
1
Conceitos de DW Agenda ●
Contexto do DW
●
Conceitos sobre DW
●
Componentes DW
●
Modelagem dimensional de dados
●
Comentários e recomendações sobre projetos de DW
Cláudio Lúcio
2
Pág.: 26
Introdução:conceitos e definições Contexto do DW Cláudio Lúcio
3
Contexto do DW Suporte a decisão – 'Solução comum adotada pelas empresas' Forte acoplamento entre sistemas do nível operacional e gerencial
Cláudio Lúcio
4
Pág.: 27
Contexto do DW Suporte a decisão – 'Solução comum adotada pelas empresas' Fatos comumente observados: • Dados não estão adequados para suporte à decisão; • Sistemas de suporte à decisão desenvolvidos ad-hoc; • Longo tempo de espera; • Não apresentam histórico necessário (para analisar sazonalidades, por exemplo, ou mesmo histórico de clientes);
Cláudio Lúcio
5
Contexto do DW Ambiente de Aplicações Operacionais: Dão suporte às funções associadas à execução do negócio da empresa, como por exemplo: - Sistemas ERP´s; - Sistemas supervisórios para aquisição de dados- SCADA; - Sistemas de execução de manufatura - MES “Fazem a roda dos negócios girar”
●
Suporte à Decisão: Dão suporte ao processo de tomada de decisão empresarial. “Auxiliam o entendimento sobre como a roda dos negócios esta girando, ou como poderia girar melhor.” ●
Cláudio Lúcio
6
Pág.: 28
Contexto do DW Ambiente Operacional (Transacional) Tipo de processamento: OLTP (On Line Transaction Processing) – Baseado em transações; – Voltado para velocidade e automação de funções “operativas”. Ex.: Emitir notas fiscais, Faturar cliente, Retirar material da expedição, dentre outros; – Não é prioridade mantes informações históricas; – Atualizações e consultas em grande número; – Trabalha com baixo nível de detalhe(granularidade);
●
Cláudio Lúcio
7
Contexto do DW Ambiente de Suporte à Decisão (Analítico) ●
Tipo de processamento: OLAP(On Line Analytical Processing) – Necessidade de ver o dado sob diferentes perspectivas: visualizações dinâmicas; – É comum haver operações de agregação e cruzamentos de diversos tipos de dados; – Atualização dos dados é feito em 'lotes'; – Dados históricos são relevantes; – Consistência e qualidade dos dados é fundamental;
Cláudio Lúcio
8
Pág.: 29
Contexto do DW Requisitos de ambientes operacionais e analítico OLTP - Tempo de Resposta; - ACID (Atomicidade, Consistência, Isolamento e Durabilidade); - Recuperação de Falhas; - Muitos usuários concorrentes; ●OLAP - Consultas complexas, não antecipadas; - Gerenciamento de 'enormes' volumes de dados; - Necessidade de examinar o dado em diferentes níveis de detalhe; - Necessidade de acesso a dados de fontes de dados diversas; - Flexibilidade, facilidade de navegação Cláudio Lúcio
9
Contexto do DW OLAP x OLTP
Cláudio Lúcio
10
Pág.: 30
Contexto do DW Porque um ambiente de Data Warehouse? Integrar dados de múltiplas fontes; ●Facilitar o processo de análise sem gerar impactos para o ambiente de dados operacionais; ●Melhor desempenho (tempo de resposta) para consultas e análises ●Obter dados com qualidade e estrutura propícia para o processo de análise; ●Atender diferentes tipos de necessidades dos usuários; ●Flexibilidade e agilidade para atender novas análises; ●Retenção de dados históricos permitindo análises temporais (exploração de sazonalidade); ●
Cláudio Lúcio
11
Introdução:conceitos e definições Conceitos sobre DW Cláudio Lúcio
12
Pág.: 31
Conceitos sobre DW Conceito: Data Warehouse O Data Warehouse é uma estrutura de dados que é otimizada para a distribuição. É uma coleção de dados integrados e históricos oriundas de múltiplas sistemas operacionais. Também provê acesso para os usuários finais para suportar uma visão corporativas de dados. TDWI
Cláudio Lúcio
13
Conceitos sobre DW Conceito: Data Warehouse Um data warehouse é uma coleção de dados orientada por assunto, integrada, variável no tempo, e não-volátil, usada no apoio aos processos de tomada de decisão gerenciais. W.H. Inmon
Cláudio Lúcio
14
Pág.: 32
Conceitos sobre DW Conceito: Data Warehouse – Orientada por assunto: organizada em torno dos principais assuntos (temas, entidades) do negócio, tais como financeiro, suprimentos, vendas, etc; – Integrada: construída a partir de múltiplas fontes, potencialmente Heterogêneas; – Variável no tempo:o tempo é sempre uma dimensão importante para o DW, que geralmente acumula dados de um período histórico mais longo; – Não volátil: os dados no DW não sofrem atualizações constantes. Via de regra, dados carregados no DW não são (“constantemente”) alterados. Cláudio Lúcio
15
Conceitos sobre DW Pragmaticamente: Data Warehouse – Banco de dados com informações gerenciais; – Carregado a partir de bancos de dados transacionais, fontes de dados externas e/ou não estruturadas; – Dividido por assunto; – Modelado de uma nova maneira, objetivando facilitar a elaboração de consultas; – Não consiste apenas em dados, mas também em um conjunto de ferramentas para consultar, analisar e apresentar informações; – Geralmente utiliza o período da noite como janela de carga; Cláudio Lúcio
16
Pág.: 33
Conceitos sobre DW Data Mart É um sub-conjunto de dados de um Data Warehouse, referentes a um assunto em especial ou diferentes níveis de sumarização que focalizam uma ou mais áreas específicas. “O Data Warehouse não é nada mais do que a união dos data marts que o constituem.” Ralph Kimball et al.
Cláudio Lúcio
17
Conceitos sobre DW Data Warehouse – Diferenças conceituais
Fonte: TDWI Cláudio Lúcio
18
Pág.: 34
Conceitos sobre DW Data Warehouse – Abordagens para construção - Top-down: criação de um DW contendo todos os dados corporativos e, posteriormente, é feita a segmentação do DW em áreas menores por assunto, gerando assim os Data Marts. - Botton-up: inicia-se a construção por uma área, ou Data Mart. A partir da visualização dos primeiros resultados, parte para outra área e assim sucessivamente, até resultar em um Data Warehouse. - Planejar corporativamente e construção incremental;
Cláudio Lúcio
19
Introdução:conceitos e definições Componentes DW Cláudio Lúcio
20
Pág.: 35
Conceitos sobre DW Staging Area - Conceito - Área onde os dados são colocados após a extração a partir dos sistemas de origem; - Mantém apenas uma “foto” parcial, temporária ou permanente dos dados dos sistemas fontes; - Dedicada para a integração de dados e não disponível para os usuários finais do DW; - Isolamento de dados brutos que são extraídos das fontes e são acessíveis para o processo de extração ou talvez para analistas de negócios;
Cláudio Lúcio
22
Pág.: 36
Conceitos sobre DW Staging Area - Motivações para uso - Reduzir a sobrecarga de acessos aos sistemas fontes. Acesso ao sistema fonte pode ser feito uma única vez, as leituras necessárias para o armazenamento dos dados do DW são realizadas a partir da Staging Area; - Recuperação de falhas sem reiniciar todo processo. Após a gravação dos dados na Staging Area não é necessário acessar o sistema fonte novamente no caso de falha. - Os dados da Staging Area são úteis para validar a integridade da informação do DW quando o sistema fonte sobrescreve o histórico. Cláudio Lúcio
23
Conceitos sobre DW Operational Data Store ODS - Conceito - Base de dados que integra dados de múltiplas fontes,para facilitar análises e relatórios. Ou mesmo para facilitar a integração entre sistemas legados; - ODS é semelhante ao DW: ambos são orientados por assunto e integrados; - Pode ser uma base separada do DW ou pode ser um componente do mesmo.
Cláudio Lúcio
24
Pág.: 37
Conceitos sobre DW Operational Data Store ODS - Diferenças DW Volatilidade Transações no sistema transacional são replicados no ODS. ODS é volátil – própria para o conceito “near real time”;
Frequência da informação O ODS possui dados correntes, que não ultrapassem as últimas 24 horas ou 1 mês, por exemplo;
Granularidade e detalhes de campos O ODS possui dados detalhados (telefone, endereço) com estruturação não dimensional e DW possui dados sumarizados; Relatórios Utilizado para gerar relatórios operacionais, como por exemplo, listagens detalhadas . Cláudio Lúcio
25
Conceitos sobre DW ODS - Motivações de uso - Necessidade de uma base para consultas em tempo quase real; - Necessidade de uma base acessível no ambiente organizacional que não é orientada para aplicações e possui aspecto relativo a integração; - Necessidade de relatórios para decisões táticas que envolvem diferentes bases de dados e que devem ser “near real time” ;
Cláudio Lúcio
26
Pág.: 38
Introdução:conceitos e definições Modelagem Multidimensional de dados Cláudio Lúcio
27
Modelagem Multidimensional de dados Contexto – Modelagem multidimensional para BI
Requisitos de informação definidos
Modelagem de dados Cláudio Lúcio
28
Pág.: 39
Modelagem Multidimensional de dados Modelagem Típica para dados – ER (Entidade Relacionamento) - Facilita a atualização de registros; - Alta desempenho para processamento transacional; - Torna as transações simples e determinísticas; - Foi responsável pelo sucesso dos sistemas transacionais com os SGBDR; - Modelos de dados corporativos tendem a possuir centenas e até milhares de tabelas.
Cláudio Lúcio
29
Modelagem Multidimensional de dados Porque não usar a modelagem ER para o DW? - Modelo de dados de difícil entendimento e memorização pelo usuário; - Dificuldade dos programas de consulta para suporte a decisão em Modelos ER genéricos (ferramentas OLAP ou Query/Reporting); - A modelagem ER vai contra uma das premissas do DW: Recuperação de dados intuitiva e com alto desempenho
Cláudio Lúcio
30
Pág.: 40
Modelagem Multidimensional de dados Modelagem Dimensional - É uma técnica que visa apresentar os dados de forma padronizada, intuitiva, permitindo a sua recuperação com alto desempenho; - Voltado para a flexibilidade e alta performance para extração de informações; - É de simples entendimento pelos usuários; - É mais sintonizado com o “negócio”; - É composto por uma tabela de “FATO” cercada por um conjunto de tabelas chamadas “DIMENSÕES”; Cláudio Lúcio
31
Modelagem Multidimensional de dados Modelagem Dimensional
Cláudio Lúcio
32
Pág.: 41
Modelagem Multidimensional de dados Modelagem Dimensional - Dimensões Dimensões são perspectivas ou entidades sobre as quais a organização deseja avaliar os dados; - Correspondem aproximadamente a diferentes aspectos do problema, ou a temas segundo os quais os dados podem ser sumarizados e apresentados; - Seus atributos são usados como restrições para as consultas; - Possui relacionamentos hierárquicos; - Exemplos: Tempo, Loja/filial, Produto, Cliente, Local Cláudio Lúcio
33
Modelagem Multidimensional de dados Modelagem Dimensional - Fatos Os fatos são medidas que indicam combinações de elementos das dimensões; - Objeto de curiosidade do usuário ou aquilo que é de foco da atenção do usuário; - Fatos são tipicamente numéricos e aditivos; - Fatos são recuperados em conjunto de centenas, milhares ou até milhões de registros através de funções estatística descritiva (soma, média, máx., min., etc.); - Exemplos: Vendas, preços, custo, Clientes atendidos, etc. Cláudio Lúcio
34
Pág.: 42
Modelagem Multidimensional de dados Modelagem Dimensional - Exemplo
Cláudio Lúcio
35
Modelagem Multidimensional de dados Modelagem Dimensional - Fatos - O modelo dimensional é organizado em torno de um tema central: métricas ou indicadores. No exemplo, venda (valor, quantidade, custo); - A granularidade da tabela de fatos é a decisão mais importante a tomar na construção do DW: Dimensão tempo: Dia? Mês? Trimestre? Dia da semana? ●Dimensão produto: Produtos individuais? Famílias de produtos? ●Dimensão local: Cidade? Estado? ●
- A granularidade das tabelas de fatos irão determinar o volume de dados no DW ; Cláudio Lúcio
36
Pág.: 43
Modelagem Multidimensional de dados Modelagem Dimensional - Exemplo
- Dimensões: Local, Item, Tempo - Fato: valor das vendas, em milhares de R$ - Granularidade: tempo-> trimestre; local-> cidade; item-> tipo
Cláudio Lúcio
37
Modelagem Multidimensional de dados Modelagem Dimensional - Hierarquias - Uma hierarquia de conceitos define uma sequência de mapeamentos entre um conjunto de conceitos mais específicos para conceitos mais gerais - Permite obter fatos em múltiplos níveis de granularidade:
- Podem existir múltiplas hierarquias para cada dimensão Cláudio Lúcio
38
Pág.: 44
Modelagem Multidimensional de dados Modelagem Dimensional - Hierarquias
-
Cláudio Lúcio
39
Modelagem Multidimensional de dados Modelagem Dimensional - visão multidimensional - O cubo é apenas uma metáfora visual;
Cláudio Lúcio
40
Pág.: 45
Modelagem Multidimensional de dados Modelagem Dimensional - visão multidimensional - É uma representação intuitiva. Todas as dimensões coexistem para todo ponto no cubo e são independentes umas das outras;
Cláudio Lúcio
41
Modelagem Multidimensional de dados Modelagem Dimensional - Agregações - Os cubos pressupões dados pré-calculados , ou seja, não há necessidade de nenhuma computação no momento de consumo dos dados;
Cláudio Lúcio
42
Pág.: 46
Modelagem Multidimensional de dados Modelagem Dimensional - Exemplo 1 - Identificar o Processo de Negócio; Para o Processo de Negócio você deve ser capaz de: 2 - Identificar as Dimensões; 3 - Identificar a granularidade; 4 - Identificar os fatos;
Caso do Supermercado - Cadeia de mais de 300 lojas espalhadas por 5 estados; - Os produtos estão agrupados por Departamento; - Número médio de Itens expostos nas prateleiras por loja: 60.000; - Os produtos estão identificados por Código de Barra e os Caixas possuem leitores para eles; - Promoções de Produtos podem ser feitas através de cupons, anúncio nas gôndolas, etc. Cláudio Lúcio
43
Modelagem Multidimensional de dados Modelagem Dimensional - Exemplo Necessidade - Conhecer as vendas diárias de cada loja, para avaliar a movimentação dos produtos, bem como avaliar o impacto das promoções ou ajustes de preços nas vendas.
2 - Identificar as Dimensões; .
Dimensão DATA
Dimensão Loja
Dimensão Promoção
Dimensão Produto Cláudio Lúcio
44
Pág.: 47
Modelagem Multidimensional de dados Modelagem Dimensional - Exemplo 3 - Identificar a granularidade .
Cláudio Lúcio
45
Modelagem Multidimensional de dados Modelagem Dimensional - Exemplo 4 - Identificação dos fatos “Quais foram as vendas semanais para a categoria Cerveja durante a Promoção das Finais do Campeonato Brasileiro, no estado de M.G., no mês de Dezembro ?”
.
Cláudio Lúcio
46
Pág.: 48
Business Intelligence Comentários e recomendações sobre projetos de DW Cláudio Lúcio
47
Comentários e recom. sobre projetos de DW Projeto - Estruturação - A construção de um Data Warehouse deve ser visto como um Projeto, ou seja, é preciso avaliar custo, tempo, prazo, riscos, escopo: - É necessário um conjunto de atividades bem definidas; - Pápeis e responsabilidades devem ser claramente comunicados e definidos? - É importante definir e acompanhar um plano de comunicação. Todo projeto dever ser alinhado com a estratégia do negócio ; - Existem algumas empresas que definem um estrutura o BICC(Business Intelligence Competence Center); Cláudio Lúcio
48
Pág.: 49
Comentários e recom. sobre projetos de DW Projeto – Resumo de fases simplificado - 1. Planejamento: Definir o escopo, planejamento, recursos necessários, tarefas e entregas, prazos; - 2. Levantamento e definição dos requisitos de dados: Entendimento do negócio do cliente e de duas necessidades, definição de quais informações serão fornecidas no DW; -3 Modelagem dimensional e criação do banco de dados físico: Gera um modelo final formado por tabelas fato e tabelas dimensão;
Cláudio Lúcio
49
Comentários e recom. sobre projetos de DW Projeto – Resumo de fases simplificado - 4. Mapeamento de dados e suas transformações: Identificar os sistemas fonte, mapear a fonte para o destino, especificar as transformações necessárias, definir a estratégia e periodicidade de atualização das informações; - 5. Extração e carga de dados: Construção e teste dos procedimentos de extração, transformação e carga de dados; -6. Automatizar os processos do DW: Automatizar processos de carga, rotinas de backup, etc;
Cláudio Lúcio
50
Pág.: 50
Comentários e recom. sobre projetos de DW Projeto – Resumo de fases simplificado - 7. Criar o conjunto inicial de relatórios: Definir, construir e testar os relatórios; - 8. Teste e validação de dados: envolvimento intensivo dos usuários - 9. Treinamento: vários tipos de treinamentos, usuários avançados e básico - 10. Implantação e suporte ao usuário final: apoio a novas questões no negócio (suporte e centro de informação) - 11. Manutenção e crescimento: definição de equipe de sustentação e acoplamento com as mudanças no negócio Cláudio Lúcio
51
Comentários e recom. sobre projetos de DW Projeto – Fatores de sucesso O sucesso do DW pode ser facilitado por: - Patrocinadores - Metodologia - Boa seleção de dados ou política de qualidade de dados - Abordagem e ambiente adequados - Plataforma de hardware e software - Treinamento da Equipe de TI
- É interessante que os primeiros resultados estejam disponíveis a curto prazo. É importante traduzir rapidamente as necessidades do negócio em uma especificação que possa ser construída em etapas; - Construir um DW que possa ser expandido, mantendo níveis aceitáveis de desempenho para grandes volumes de dados; - Video : Droga Raia e Volks Cláudio Lúcio
52
Pág.: 51
Gerência de projetos - Barbieri FCS de Projetos de BI Requisitos poucos claros
Falha em GPR Recursos Financeiros
Falha em GRE Reqtos de BI: KPI,Indicadores, aspectos analíticos,etc
Dados Incorretos incompletos
Orçamento inadequado
Falha GD/DQ
Falha em GRE Baixa participação do FN de Reqtos Falha em GPR Recursos de HDW
Falha em GPR Documentação
Baixo envolvimento dos Usuários finais
Projeto de Hardware inadequado
Resultados tardios
Falha na documentação
Projetos monolíticos Resultados somente no final
Falha de abordagem de ciclos do Projetos-GPR
Falha em GRE
54
Requisitos NFC Não funcionais
Aderência e privacidade negligenciados
Gerência de Mudanças falha
FCS= Fatores críticos de sucesso Cláudio Lúcio
Falha em GPR Gerência de Riscos (GRI) Adaptado de Dez razões mais frequentes para o fracasso do BI Manuel de Pino-IB Ibéria CIO-28/06/11-cio.uol.com.br/gestão
54
Pág.: 52
Pág.: 53
Pág.: 54
Atividade 1- Entrega de trabalho ●
Discussões após a leitura
Reflexão Os componentes de um DW são uma forma para estruturar os dados de um projeto de BI? É possível compreender os componentes de um DW? A modelagem dimensional é uma representação mais simples para o processo de extração de informação por parte do usuário?
Cláudio Lúcio
60
Pág.: 55
Business Intelligence Processos ETL e OLAP Cláudio Lúcio
1
Processos ETL e OLAP Agenda ●
●
ETL –
Introdução
–
Projeto ETL
–
Documentação ETL
–
Ferramentas de ETL e suas características
OLAP –
Introdução
–
Funcionalidades e facilidades OLAP
–
Ferramentas OLAP e suas características
Cláudio Lúcio
2
Pág.: 56
Processos ETL Introdução Cláudio Lúcio
3
Introdução - Um dos desafios da implantação de um DW é a integração dos dados de fontes heterogêneas e complexas, padronizando informações, mantendo sua consistência; - A maioria dos projetos gasta a maior parte do tempo e dos esforços nessa fase (cerca de 70% do tempo); - O sucesso do DW depende, em grande parte, da eficiência e eficácia do processo de ETL; - Tipicamente os processos ETL mantém e possuem regras de negócio -> implicam na confiabilidade e assertividade dos dados no DW ou BI;
Cláudio Lúcio
4
Pág.: 57
Introdução ETL ou ETC – Extrair, transformar e carregar - Processo em Data Warehouse que involve: - Extrair dados de fontes externas; - Transformá-los para adequar às necessidades do negócio ou implementar as regras do negócio; - Carregá-los para dentro do Data Warehouse;
Cláudio Lúcio
5
Introdução ETC - Extração - A primeira parte do processo ETL é extrair os dados dos sistemas origem; - É muito comum que o processo de extração leia os dados do sistema fonte e grave na Staging Area; - Na grande maioria existem diferentes fontes de informação. Exemplo: SAP-ECC, ORACLE, DB2, SQL SERVER, XML, dentre outros; - Fontes comuns são bases de dados relacionais, flat-files (arquivos textos contendo os dados das tabelas) ou até mesmo planilhas eletrônicas; Cláudio Lúcio
6
Pág.: 58
Introdução ETC - Transformação - A fase de transformação consiste em aplicar uma série de regras ou funções sobre os dados extraídos. - Pode acontecer de não ser necessário a realização de transformações a partir de uma fonte de dados. - Exemplo de transformações: - Traduzir valores codificados (ex: M para Masculino e F para Feminino e no DW será 1 para Masculino e 2 para Feminino); - Criar um novo valor calculado (ex. Valor_venda = qtd * preço_unitário); - Realizar joins cruzando dados de múltiplas origens (lookup, merge, etc); - Sumarizando múltiplas linhas de dados (ex. total de vendas para cada região); - Pivot: transformar múltiplas colunas em múltiplas linhas ou vice versa; Cláudio Lúcio
7
Introdução ETC - Carga - Nesta fase os dados são gravados no Data Warehouse. - Pode-se carregar os dados no DW, utilizando a forma de atualização mais adequada: ●Inicial – carga de histórico até chegar no período atual; ●Incremental – acontece de acordo com a periodicidade de atualização (granularidade) – diariamente, semanalmente, hora em hora; ●Completa – acontece somente uma vez;
Cláudio Lúcio
8
Pág.: 59
Processos ETL Projeto ETL Cláudio Lúcio
9
Projeto ETL Processamento de dimensões - Ocorre antes da carga das tabelas de fatos, uma vez que estas são dependentes ; - Algumas dimensões são carregadas simplesmente sobrescrevendo os dados antigos com dados atuais; - Dimensões mais complexas podem necessitar da gestão de históricos, bem como ter um rastreamento de todas das alterações que os dados sofreram; - Somente alguns tipos especiais de dimensões necessitam de tratamento para grandes volumes de dados;
Cláudio Lúcio
10
Pág.: 60
Projeto ETL Processamento de fatos - São mais demoradas devido ao volume de dados; - Exigem programas de carga mais eficientes: projeto orientado para estrutura de arquivos correta; - Recuperam os dados das dimensões para consistência de chaves primárias; - Ocorre depois da carga das tabelas de dimensões das quais depende; - Na maioria das vezes sofrem inserção. Operações de update são usadas para acertos e devem ser evitadas na medida do possível; Cláudio Lúcio
11
Projeto ETL Dicas Projeto ETL - Analisar os dados fontes; - Identificar os mapeamentos de dados; - Especificar as rotinas de ETL determinando a lógica de conversão dos dados; - Determinar o melhor caminho para o transporte dos dados fontes para o DW antes de iniciar a construção das rotinas de ETL .Possibilitar maior produtividade, evitando atrasos e retrabalho;
Cláudio Lúcio
12
Pág.: 61
Processos ETL Documentação ETL Cláudio Lúcio
13
Documentação ETL ETL – Disponibilização dos dados - Para a aumentar a chance de sucesso do processo ETL, documentação é extremamente recomendável; - O mapa de carga é o documento que congrega as transformações que serão implementadas e as regras de negócio utilizadas nas cargas dos dados; - Outra documentação importante é a estratégia de carga que além de descrever especificidades de cada processo, também auxilia na encadeamento lógico dos vários processos de carga;
Cláudio Lúcio
14
Pág.: 62
Documentação ETL Mapa de carga
Cláudio Lúcio
15
Documentação ETL Mapa de carga
Cláudio Lúcio
16
Pág.: 63
Processos ETL Ferramentas de ETL e suas características Cláudio Lúcio
17
Ferramentas de ETL e suas características Ferramentas ETL - Características - Existem ferramentas que proporcionam mais produtividade e qualidade ao processo de integração. ; - O processo ETL é trabalhoso, complexo e detalhado, mesmo com o auxílio das melhores ferramentas de ETL; - Para que a integração de dados seja bem sucedida, é preciso escolher uma ferramenta que ofereça funcionalidades capazes de atender os requisitos do processo de ETL; - Para escolher a ferramenta adequada, é necessário fazer um comparativo entre as opções para identificar aquela que melhor atende o projeto(melhor custo/benefício); Cláudio Lúcio
18
Pág.: 64
Ferramentas de ETL e suas características Ferramentas ETL - Características - Há soluções com custo zero de aquisição, pois vêm embutidas em um SGBD, como por exemplo o SSIS no SQL Server ou Data Integrator no ORACLE; Para estes casos ETL ou ELT ? - Pode também ser utilzados os recursos dos próprios banco de dados, como PL/SQL (Oracle) ou T-SQL(SQL SERVER). No entanto, estes podem ser limitados, exigindo uma maior codificação dos processos; - Além disso, podem ser restritas, já que geralmente é fornecido suporte apenas ao SGBD que as acompanham, enquanto as ferramentas ETL completas podem fornecer suporte a diversos tipos de arquivos e SGBDR; Cláudio Lúcio
19
Ferramentas de ETL e suas características Ferramentas ETL - Mercado
Informatica Power Center
IBM Data Stage
ORACLE Data Integrator MS SSIS Cláudio Lúcio
20
Pág.: 65
Ferramentas de ETL e suas características Pontos a considerar em uma ferramenta ETL - Arquitetura Geral: Plataforma de execução do produto: pode restringir a capacidade de expansão sem adicionar mais servidores quando houver crescimento do volume de dados; - Extração e Carga de Dados: Suporte nativo aos principais SGBDs, bem como suporte a conexão via drivers não nativos(OLE/DB; ODBC; JDBC) para um vasto conjunto de bancos de dados; - Integração de Dados: Suporte a diversos formatos de dados, incluindo COBOL, ASCII, Excel e XML. Nível de integração com aplicações de terceiros, incluindo sistemas de ERP; Cláudio Lúcio
21
Ferramentas de ETL e suas características Pontos a considerar em uma ferramenta ETL -Administração: Apresentar administração centralizada, ou seja, é preciso ter um único lugar para visualizar o processo ETL, mesmo se as tarefas estiverem executando em diferentes plataformas de origem e destino e diferentes sistemas operacionais; - Ambientes gráficos de interface com o usuário; - Concorrência e Segurança: Número de possíveis usuários e desenvolvedores concorrentes; -Tratamento de Erros: Recuperação de falhas: se ocorrer algum erro a ferramenta ETL é capaz de voltar o sistema a um estado consistente conhecido; Cláudio Lúcio
22
Pág.: 66
Ferramentas de ETL e suas características Pontos a considerar em uma ferramenta ETL -Gerenciamento de Metadados: Repositório de metadados centralizado contendo no mínimo informações relativas a fontes de dados, destinos e transformações; - Performance: Características que permitem processamento distribuído e particionado para obter uma performance melhor; - Programação de Execução de Tarefas: Habilidade de programar a execução de sessões ETL em um determinado tempo ou evento;
Cláudio Lúcio
23
Ferramentas de ETL e suas características Pontos a considerar em uma ferramenta ETL - Continuidade -Capacidade de suportar o nível de processamento em caso de crescimento de origens, destinos e volumes de dados; -Facilidade de desenvolver e modificar tarefas e rotinas; -Frequência e complexidade das atualizações do produto; -Capacidade de suporte para o crescimento da plataforma.; - Performance: Características que permitem processamento distribuído e particionado para obter uma performance melhor; Cláudio Lúcio
24
Pág.: 67
Atividade 1- Entrega de trabalho ●
Discussões após a leitura e atividade
Reflexão Quais pontos são importantes para considerar na escolha de uma ferramenta ETL? Qual a importância da documentação em um projeto ETL? Performance em um projeto ETL, pode ser um fator preponderante para o sucesso? Imagine um projeto de carga com atualizações de 15 em 15 minutos; Qualidade de dados é importante?
Cláudio Lúcio
25
Business Intelligence OLAP – Acesso a dados Cláudio Lúcio
26
Pág.: 68
OLAP – Acesso a dados Agenda ●
Introdução
●
Funcionalidades e facilidades OLAP
●
Ferramentas OLAP e suas características
Cláudio Lúcio
27
OLAP – Acesso a dados Introdução Cláudio Lúcio
28
Pág.: 69
Introdução Definição - OLAP (OnLine Analytical Processing) é uma categoria de tecnologia de software que possibilita a visualização dos dados armazenados, segundo um grande número de pontos de vista, através de acessos rápidos, consistentes e interativos; - Processa os dados de um DW ou DM fornecendo respostas rápidas para consultas analíticas complexas; - A ferramenta OLAP, ou de acesso a dados, é o que realmente dá vida ao DW. Outras ferramentas: Business Discovery,Query e Reporting;
Cláudio Lúcio
29
Introdução OLAP - O DW é a base para os serviços OLAP; - OLAP transforma os dados de um DW em estruturas multidimensionais
- Permite a análise de dados fazendo operações como um “cubo mágico” Cláudio Lúcio
30
Pág.: 70
Introdução Cubos - Cubos são estruturas multidimensionais que armazenam dados para componente OLAP; - Uma variedade de cruzamentos dimensionais, cálculos e agregações são possíveis com os cubos, e as dimensões são utilizadas para o 'pivot' dos relatórios;
Cláudio Lúcio
31
Introdução Cubos - Uma das vantagens do modelo OLAP é o uso 'abusivo' de agregações; - Denomina-se agregação ao processo de pré-calcular os dados através dos níveis das hierarquias para diminuir os tempos de resposta nos processos de busca de informação; - Em resumo: As agregações são resumos de dados précalculados que melhoram o tempo de resposta pelo simples motivo de ter as respostas prontas antes de receber as perguntas.
Cláudio Lúcio
32
Pág.: 71
Introdução Cubos - A porcentagem de agregação determina a proporção ou profundidade até onde são realizados os pré-cálculos;
Cláudio Lúcio
33
Introdução Cubos - Características das agregações: - As agregações permitem melhorar os tempos de resposta - Requerem armazenamento adicional - Caso não forem controladas podem provocar uma explosão nos requisitos de armazenamento
Cláudio Lúcio
34
Pág.: 72
OLAP – Acesso a dados Funcionalidades e facilidades OLAP Cláudio Lúcio
35
Funcionalidades e facilidades OLAP Consultas e o acesso - Após montar o cubo, os usuários podem realizar diferentes operações para poder visualizar e analisar seus dados; - As ferramentas apresentam as seguintes funcionalidades: ●Drill - Down ●Drill - Up ●Slice e Dice (Filtro) ●Rotação ●Consolidação
Cláudio Lúcio
36
Pág.: 73
Funcionalidades e facilidades OLAP Funcionalidades - Drill - Down e Up - É uma técnica pela qual o usuário pode navegar entre as hierarquias de uma dimensão agrupando (Drill-up) ou desagrupando (Drill-down) os dados. - O drill down e o dril up servem para navegar pelas dimensões do cubo; - Drill up vai do detalhe para o geral e Drill down do geral para o detalhe.
Cláudio Lúcio
37
Funcionalidades e facilidades OLAP Funcionalidades - Slice and Dice - O Slice acontece ao selecionar um membro em particular de uma dimensão. Cria-se uma espécie de "fatia" (slice) do cubo original;
- O Dice acontece ao selecionar vários membros de várias dimensões forma-se um sub-cubo, cubo menor (dice).
- Tanto o Slice quanto o Dice são formas particulares de Filtro. ; Cláudio Lúcio
38
Pág.: 74
Funcionalidades e facilidades OLAP Funcionalidades - Pivot and Unpivot - Rotação: Seleciona a ordem de visualização das dimensões, gira o cubo de acordo com as suas dimensões;
- Na ferramentas de visualização transforma: linhas → colunas ou colunas → linhas; Cláudio Lúcio
39
Funcionalidades e facilidades OLAP Funcionalidades - Roll-up - Consolidação (Roll-Up): Calcula as medidas em função de agrupamentos, realiza o recálculo da medida de acordo com os níveis das hierarquias;
Cláudio Lúcio
40
Pág.: 75
Funcionalidades e facilidades OLAP Funcionalidades - Exemplo de funcionalidades – tabela dinâmica - MS-EXCEL
Cláudio Lúcio
41
OLAP – Acesso a dados Ferramentas OLAP e suas características Cláudio Lúcio
42
Pág.: 76
Ferramentas OLAP e suas características Formas de armazenamento - As ferramentas podem ser classificadas pela forma como armazenam os cubos. Os conceitos de armazenamento existentes são MOLAP, ROLAP e HOLAP: - MOLAP - OLAP Multidimensional; - ROLAP - OLAP Relacional; - HOLAP - OLAP híbrido;
Cláudio Lúcio
43
Ferramentas OLAP e suas características Formas de armazenamento MOLAP - No modo de armazenamento MOLAP (OLAP Multidimensional) uma cópia dos dados de origem do cubo, junto com as suas agregações armazenam-se em uma estrutura multidimensional; - Oferece excelente rendimento e compressão de dados. - Apresenta melhor tempo de resposta, dependendo apenas da porcentagem das agregações do cubo; -Apresenta estrutura otimizada para maximizar o rendimento das consultas; - Geralmente este método é muito apropriado para cubos com uso frequente devido à sua rápida resposta. Cláudio Lúcio
44
Pág.: 77
Ferramentas OLAP e suas características Formas de armazenamento ROLAP - No modelo ROLAP toda a informação do cubo, dados, e agregações são armazenadas em um banco de dados relacional; - É utilizado para economizar espaço de armazenamento quando se trabalha com grandes conjuntos de dados consultados com pouca frequência; - É considerado quando existe a necessidade de captar mudanças imediatamente; - Também é considerado quando há grandes conjuntos de dados que não são consultados frequentemente.
Cláudio Lúcio
45
Ferramentas OLAP e suas características Formas de armazenamento HOLAP - HOLAP (OLAP híbrido) combina atributos do MOLAP e do ROLAP; - Da mesma forma que o MOLAP, o HOLAP armazena as agregações em uma estrutura multidimensional e os dados detalhados em um banco de dados relacional, da mesma forma que no armazenamento ROLAP; Usos comuns de HOLAP: - Cubos que requerem resposta rápida; - Quando existem sumarizações baseadas em uma grande quantidade de dados de origem; - Solução com o compromisso de reduzir o espaço ocupado sem prejudicar totalmente o rendimento das consultas. Cláudio Lúcio
46
Pág.: 78
Ferramentas OLAP e suas características Formas de armazenamento Comparações
Cláudio Lúcio
47
Ferramentas OLAP e suas características Formas de armazenamento Comparações
Cláudio Lúcio
48
Pág.: 79
Ferramentas OLAP e suas características Ferramentas OLAP - Mercado
SAS – Web Report Studio e Portal
SAP-BO
IBM - Cognos MS Reporting Services e Analysis Services
Cláudio Lúcio
49
OLAP – Acesso a dados Reflexão Quais são as funcionalidades que uma ferramenta OLAP proporciona para o usuário ? Porque as ferramentas OLAP apresentam , via de regra, um excelente desempenho para consulta? Quais as formas de armazenamento dos dados nas ferramentas OLAP? E quais são suas diferenças? As agregações são importantes para as ferramentas OLAP?
Cláudio Lúcio
50
Pág.: 80
Business Intelligence Business Analytics Mineração de dados e Otimização Cláudio Lúcio
1
Data Mining Agenda ●
Definições
●
Tarefas de Data Mining
●
Técnicas para Data Mining e Análise Estatística
●
Aplicações Genéricas e Ferramentas
●
Otimização
Cláudio Lúcio
2
Pág.: 81
Business Analytics Mineração de dados Definições Cláudio Lúcio
3
Definições Processo de KDD (Knowledge Discovery in Databases)
Cláudio Lúcio
4
Pág.: 82
Definições Data Mining - Exploração de dados de quaisquer naturezas por meio de técnicas quantitativas em busca de padrões e/ou regras significativas.
Cláudio Lúcio
5
Definições Data Mining - Encontrar regras (modelos) para prever o comportamento futuro ; - Baseado no comportamento passado (histórico, fatores/ variáveis que influenciam); - As regras são aplicadas sobre novos dados (scoring).
Cláudio Lúcio
6
Pág.: 83
Definições Etapas do processo de Data Mining
Cláudio Lúcio
7
Business Analytics Mineração de dados Tarefas de Data Mining Cláudio Lúcio
8
Pág.: 84
Tarefas de Data Mining Data Mining - Associação - Classificação - Segmentação (clustering) - Estimação - Predição (forecast) - Sumarização e visualização Cláudio Lúcio
9
Tarefas de Data Mining Data Mining - Associação - Classificação - Segmentação (clustering) - Estimação - Predição (forecast) - Sumarização e visualização Cláudio Lúcio
10
Pág.: 85
Tarefas de Data Mining Data Mining - Associação - Classificação - Segmentação (clustering) - Estimação - Predição (forecast) - Sumarização e visualização Cláudio Lúcio
11
Tarefas de Data Mining Data Mining - Associação - Classificação - Segmentação (clustering) - Estimação - Predição (forecast) - Sumarização e visualização Cláudio Lúcio
12
Pág.: 86
Tarefas de Data Mining Data Mining - Associação - Classificação - Segmentação (clustering) - Estimação - Predição (forecast) - Sumarização e visualização Cláudio Lúcio
13
Tarefas de Data Mining Data Mining - Associação - Classificação - Segmentação (clustering) - Estimação - Predição (forecast) - Sumarização e visualização Cláudio Lúcio
14
Pág.: 87
Business Analytics Mineração de dados Técnicas para Data Mining e Análise Estatística Cláudio Lúcio
15
Técnicas para Data Mining e Análise Estatística Data Mining -Análise de Cluster - Análise de Séries Temporais - Árvores de Decisão - Redes Neurais Artificiais - Outras
Cláudio Lúcio
16
Pág.: 88
Técnicas para Data Mining e Análise Estatística Análise de Cluster - A Análise de Cluster consiste em identificar partições “naturais” do conjunto de dados a partir de medidas de associação ou distância entre os elementos da população. Tarefas: Segmentação Associação Classificação Sumarização e visualização
Cláudio Lúcio
17
Técnicas para Data Mining e Análise Estatística Análise de Cluster
Cláudio Lúcio
18
Pág.: 89
Técnicas para Data Mining e Análise Estatística Análise de Cluster: K-Médias
Cláudio Lúcio
19
Técnicas para Data Mining e Análise Estatística Análise de Cluster: K-Médias
RapidMiner Cláudio Lúcio
20
Pág.: 90
Técnicas para Data Mining e Análise Estatística Modelos de previsão - Modelos matemáticos capazes de prover estimativas pontuais e intervalares para demandas futuras com base no histórico de demandas, levando em conta tendências e sazonalidades. Tarefas: Previsão
número de itens vendidos
40
30
20
10
0 10
20
30
40
meses
Cláudio Lúcio
21
Técnicas para Data Mining e Análise Estatística Modelos de previsão - Exemplo - Histórico de vendas dos últimos 50 meses do item X.
Cláudio Lúcio
22
Pág.: 91
Técnicas para Data Mining e Análise Estatística Modelos de previsão - Exemplo - Histórico de vendas dos últimos 50 meses do item X.
Cláudio Lúcio
23
Técnicas para Data Mining e Análise Estatística Modelos de previsão - Exemplo - Serie temporal com previsão e intervalo de confiança
Cláudio Lúcio
24
Pág.: 92
Técnicas para Data Mining e Análise Estatística Árvores de decisão - As árvores de decisão são usadas para prever a associação / classificação de entidades em classes com base em variáveis explicativas categóricas. Tarefas: Classificação Associação Segmentação
Cláudio Lúcio
25
Técnicas para Data Mining e Análise Estatística Árvores de decisão - Exemplo - Y = 1 – Responderam a campanha 0 – Não Responderam a campanha
RapidMiner Cláudio Lúcio
26
Pág.: 93
Técnicas para Data Mining e Análise Estatística Técnicas – Considerações - Existem vários outras técnicas como: - SVM - Detecção de anomalias - Regressão Linear e Logística - Análise de associação - Text Mining
- Cada técnica específica os algoritmos que são utilizados para conduzir operações de Data Mining e adapta-se melhor a alguns problemas que a outros - É impossível a existência de um método de Data Mining universalmente melhor. - Um mesmo problema pode ser resolvido com a utilização de duas técnicas diferentes, e uma mesma técnica pode ser aplicada a tarefas ou problemas distintos; Cláudio Lúcio
27
Business Analytics Mineração de dados Aplicações genéricas e Ferramentas Cláudio Lúcio
28
Pág.: 94
Aplicações genéricas e Ferramentas Alguns exemplos de uso: - Controle de risco de crédito e inadimplência; - Previsão de demandas / estoques; - Segmentação de mercado; - Detecção de fraudes; - Sistemas de recomendação; - Análise de “sentimentos” na Web; - Mineração de textos (análise de satisfação dos clientes); Alguns outros exemplos da Inteligência Artificial e Aprendizagem de máquina - Watson - IBM; - Decisão automatizada com redes neuronais artificiais;
Cláudio Lúcio
29
Aplicações genéricas e Ferramentas Ferramentas para Mineração de dados e Aprendizado de máquina:
Fonte: http://www.kdnuggets.c om/polls/2011/toolsanalytics-datamining.html Cláudio Lúcio
30
Pág.: 95
Business Analytics Otimização Visão Geral Cláudio Lúcio
31
Melhoria de decisão com otimização Agenda ●
O que é a Pesquisa Operacional?
●
História da PO
●
Exemplos da utilização
●
Classes de problemas
●
Mas o que é um modelo de otimização??
Cláudio Lúcio
32
Pág.: 96
Melhoria de decisão com otimização O que é a Pesquisa Operacional? ●
Segundo o INFORMS –
●
“A disciplina de aplicação de métodos analíticos avançados que ajudam na tomada de melhores decisões.”– A Ciência do Melhor
Em outras palavras… –
Através da aplicação de métodos científicos, tais como análise de dados, criação de modelos matemáticos e propostas inovadoras, profissionais de Pesquisa Operacional desenvolvem informações com base científica que fornecem insight e ajudam na tomada de decisões.
Cláudio Lúcio
33
Melhoria de decisão com otimização História da PO ●
Nasceu na Segunda Guerra Mundial ●
●
Líderes militares britânicos convidaram matemáticos, estatísticos, físicos e engenheiros a resolverem problemas militares; Estes, através da aplicação da matemática e do método científico, forneceram respostas inovadoras que auxiliaram os militares britânicos em vários aspectos;
Cláudio Lúcio
34
Pág.: 97
Melhoria de decisão com otimização História da PO Principais contribuições durante a guerra ●
●
Na Inglaterra: ●
Tamanho de comboios marítimos
●
Reforço na proteção das aeronaves
●
Estratégias para ataques noturnos
Nos EUA: ●
Logística do exército
●
Escalonagem de treinamentos
Cláudio Lúcio
35
Melhoria de decisão com otimização História da PO Após Segunda Guerra Mundial ●
“Boom” econômico
●
Similaridade entre problemas militares e de negócio
●
Aplicação bem-sucedida na indústria e no governo
●
Expansões técnicas e metodológicas
●
Surgimento do computador
Cláudio Lúcio
36
Pág.: 98
Melhoria de decisão com otimização Exemplos da utilização Sears, Roebuck & Co. (EUA) ●
●
Serviço de entrega ●
1.000 veículos de entrega
●
4 milhões de entregas por ano
●
21.000 produtos (móveis, eletrodomésticos)
Serviço de manutenção ●
12.000 veículos de manutenção
●
15 milhões de chamadas por ano
Cláudio Lúcio
37
Melhoria de decisão com otimização Exemplos da utilização ●
Requisitos da solução: ●
Respeitar horário dos clientes
●
Minimizar custos
●
●
Maximizar diversas métricas, incluindo satisfação do cliente
Numa receita anual de $3 bilhões, economia inicial de $9 milhões, economias anuais de $42 milhões
Cláudio Lúcio
38
Pág.: 99
Melhoria de decisão com otimização Classes de problemas Problemas de roteamento, ou seja, qual a melhor rota para: ●
Entrega de mercadorias?
●
Entrega de carros?
●
Entrega de containers?
Problemas de rede, ou seja, qual a melhor rede (desenho) para : ●
Rede de dados?
●
Transporte público?
●
Cadeia de suprimentos?
Cláudio Lúcio
39
Melhoria de decisão com otimização Classes de problemas Problema de localização, ou seja, onde localizar: ●
Um ponto de venda ?
●
Agências de carros ?
●
Centros de distribuição ?
Problema de agendamento e sequência, ou seja, qual o melhor agendamento em : ●
Para atendentes em um call center ?
●
Operários em uma indústria?
●
Tarefas uma industria ?
Cláudio Lúcio
40
Pág.: 100
Melhoria de decisão com otimização Classes de problemas Outros tipos de métodos utilizados: ●
Teoria da decisão
●
Modelos de competição;
●
Modelos de substituição (reposição);
●
Modelos de estoque (teoria dos estoques);
●
Modelos de filas;
●
Técnicas de simulação;
●
Métodos – heurísticos.
Cláudio Lúcio
41
Melhoria de decisão com otimização Classes de problemas A busca de uma solução envolve ●
Formular o problema
●
Observar o sistema
●
Formular o modelo matemático do problema
●
Verificar o modelo e usá-lo para predição
●
Selecionar uma alternativa conveniente
●
Apresentar resultados e conclusões à organização
●
Implementar e avaliar recomendações
Cláudio Lúcio
42
Pág.: 101
Melhoria de decisão com otimização Mas o que é um modelo de otimização?? ●
Variáveis de decisão
●
Objetivo
●
Restrições
Problema da Fábrica de Automóveis Seucarro Inc. deve produzir 1000 automóveis Beta. A empresa tem quatro fábricas. Devido a diferenças na mão de obra e avanços tecnológicos, as plantas diferem no custo de produção unitário de cada carro. Elas também utilizam diferentes quantidades de matéria-prima e mão de obra O custo de operação, o tempo necessário de mão de obra e o custo de matériaprima para produzir uma unidade de cada carro em cada uma das fábricas estão evidenciados na tabela a seguir. Cláudio Lúcio
43
Melhoria de decisão com otimização Mas o que é um modelo de otimização?? Problema da Fábrica de Automóveis
No entanto existem a seguintes restrições: ●
Existem 3200 horas de mão de obra no total;
●
Existem 4000 unidades de material que podem ser alocados às quatro fábricas;
●
Um acordo trabalhista assinado requer que pelo menos 250 carros sejam produzidas na fábrica 3
Decisão: Como produzir os 1000 carros com o menor custo??
Cláudio Lúcio
44
Pág.: 102
Melhoria de decisão com otimização Mas o que é um modelo de otimização?? Problema da Fábrica de Automóveis
Alguns detalhes da solução: ●
Cada xi representa a quantidade de carros em cada fábrica;
●
Existem 3200 horas de mão de obra no total;
●
Existem 4000 unidades de material que podem ser alocados às quatro fábricas;
●
●
Um acordo trabalhista assinado requer que pelo menos 250 carros sejam produzidas na fábrica 3; Este modelo pode ser resolvido no Excel - SOLVER Solver Excel Cláudio Lúcio
45
Pág.: 103
Business Intelligence Novas Tendências Cláudio Lúcio
1
Novas Tendências Agenda ●
Big Data
●
Ciência de dados
●
No SQL/New SQL
●
BIRT (Barbieri)
●
MDM (Barbieri)
Cláudio Lúcio
2
Pág.: 104
Novas Tendências Big Data Cláudio Lúcio
3
Big Data BigData:
Cláudio Lúcio
4
Pág.: 105
Big Data BigData:
Cláudio Lúcio
5
Big Data BigData:
–
Pesquisa da IDC/EMC apontam um volume de dados na web em 2020 de 35 Zettabytes;
–
3 ou 4 V´s: Variedade, Velocidade, Volume + Valor para os negócios
Cláudio Lúcio
6
Pág.: 106
Big Data Big Data, valor agregado para os negócios: ●
●
●
●
Uma rede de supermercados manterá todo o histórico de compras de clientes por produtos, assim como sua rota (RFID) de compra nas lojas; Uma rede de locadoras de carro irá reter dados do GPS existente em seus carros. A ideia é entender como os clientes utilizam os carros e oferecer pacotes de descontos de acordo com o uso; O Tribunal de Justiça do estado deseja estruturar todos os seus processos, permitindo buscas por advogado, juízes, relatores, redatores, palavras chaves, tipo de causa e outros; Um atacadista deseja cruzar o histórico de 5 anos de compras de cada um de seus clientes por produto(novas oportunidades de vendas): 5.000 produtos * 100.000 clientes * 1825 dias = 912.500.000.000
Cláudio Lúcio
7
Big Data Big Data, valor agregado para os negócios:
McKinsey, Maio de 2011. Artigo: Big Data: The next frontier for innovation, competition, and productivity. Fonte: http://www.mckinsey.com/insights/mgi/research/technology_and_innovation/big_data_the_next_frontier_for_innovation Cláudio Lúcio
8
Pág.: 107
Big Data Big Data – Desafios - Negócios: ✔
Mudança de cultura ✔
✔
✔
Pesquisa da Capgemini indica que 60% do CEO´s usam análise de dados para auxiliar a tomada de decisão Governança por 'instinto' → Governança baseada em dados;
Valor para os dados ✔
Reter e armazenar dados massivos não traz retorno para os negócios;
✔
Não basta ferramentas bonitas...
✔
É necessário achar o valor dos dados → produtos de dados;
Cláudio Lúcio
9
Big Data Big Data – Desafios - Técnico: ✔
✔
✔
✔
Processamento de volume de dados em milissegundos; Armazenar e acessar grandes quantidades de dados. Adicionalmente: tolerância a falhas e política de backups aceitáveis; Manipulação eficiente de grandes volumes de dados envolve processamento paralelo e recuperação de falhas em curto espaço de tempo; Gerenciamento e manutenção de metadados para dados semi-estruturados e não estruturados gerados de forma contínua por diversos tipos de fontes;
Cláudio Lúcio
10
Pág.: 108
Big Data ✔
Big Data – Definição São dados em uma escala, distribuição, diversidade e velocidade que necessitam novas arquiteturas tecnológicas e novas formas de análises para então propiciar insights que são fontes de valor para o negócio;
✔
McKinsey, Maio de 2011. Artigo: Big Data: The next frontier for innovation, competition, and productivity. Fonte: http://www.mckinsey.com/insights/mgi/research/technology_and_innovation/big_data_the_next_frontier_for_innovation
Cláudio Lúcio
11
Big Data - Hadoop Histórico: ●
●
Processamento intensivo era feito em hardware especializado (processadores, cache, discos e memória); A Web e o Big Data exigem processamento intensivo, mas em outra estrutura de hardware: –
Centenas ou milhares de computadores em rede (nós);
–
Operação destes computadores de forma mais ou menos independente;
–
Cada um dos nós é um 'commodity hardware' – custo reduzido;
–
A estrutura em geral é tolerante a falhas;
–
Utilizam sistemas de arquivos especializados; Cláudio Lúcio
12
Pág.: 109
Big Data - Hadoop Organização física da estrutura: ●
A organização física destas máquinas pode seguir este exemplo: –
Nós são armazenados em racks (8-64 em um rack);
–
Os nós em um rack são conectados via rede (gigabit Ethernet);
–
Conjuntos de racks são disponíveis na estrutura formando uma espécie de cluster;
–
A conexão entre os racks também pode ser otimizada;
–
Quanto maior o número de racks ou nós, maior a probabilidade falha (de um dos nós);
Cláudio Lúcio
13
Big Data - Hadoop Organização física da estrutura: ●
A organização física destas máquinas pode seguir este exemplo:
Cláudio Lúcio
14
Pág.: 110
Big Data - Hadoop Computação nesta estrutura: ●
●
●
Cálculos computacionais nesta estrutura podem levar minutos ou mesmo horas; Os cálculos não podem ser reiniciados toda vez que um componente (rack ou nó de execução) falha; Proposta de solução: –
Arquivos armazenados de forma redundante (Distributed File System - DFS);
–
Cálculos devem ser divididos entre os nós, de forma que se algum nó falhar, somente o trabalho atribuído ao nó deve ser
Cláudio Lúcio
15
Big Data - Hadoop ✔
Sistemas de arquivos distribuídos - DFS:
✔
Características DFS: ●
●
●
As informações dos blocos e replicas é controlado utilizando metadados e com um figura central no cluster: 'name node' ou 'master node'; Name node: –
Gerencia o sistema de arquivos(réplicas, blocos, nós e racks): abrir, fechar, renomear arquivos;
–
Gerencia o acesso dos clientes ao arquivos;
Os outros nós do cluster são chamados de 'data node' ou 'slave node': –
Executam as operações enviados pelo 'Name node': criação, exclusão e replicação de blocos; Cláudio Lúcio
16
Pág.: 111
Big Data - Hadoop ✔
Sistemas de arquivos distribuídos - DFS:
✔
Características DFS:
Cláudio Lúcio
17
Big Data - Hadoop ✔
Sistemas de arquivos distribuídos - DFS:
✔
Características DFS: ●
●
●
●
Possuem regras de sistemas de arquivos: rack, 'data node',namespaces, diretórios e arquivos; Além disto o DFS gerencia os blocos e sua distribuição/replicação nos 'data nodes'; Padrão de réplicas 1/3(fora do rack) e 2/3(no rack); O 'name node' periodicamente recebe um relatório de blocos do 'data node';
Cláudio Lúcio
18
Pág.: 112
Big Data - Hadoop ✔
Sistemas de arquivos distribuídos - DFS:
✔
Características DFS:
Cláudio Lúcio
19
Big Data - Hadoop ✔
O Algoritmo Map Reduce
✔
Origens:
✔
✔
Patente original é do Google, mas é utilizado em várias outros sistemas de computação paralela; A ideia é derivada da programação funcional: ✔
Map e reduce são dois tipos de funções comuns;
✔
Map: –
Aplica um função ou operação para cada elemento em uma lista; Ex.: multiplicação por 2; [1,2,3,4] Map function → [2,4,6,8,]
–
Não altera o dado original. Evita o principio 'Shared Data';
–
Pode ser executado de forma paralela; Cláudio Lúcio
20
Pág.: 113
Big Data - Hadoop ✔
O Algoritmo Map Reduce
✔
Origens:
●
A ideia é derivada da programação funcional: ●
Reduce: –
É uma função de agrupamento ou compressão;
–
Aplica uma função em conjunto de dados reduzindo para um simples valor;
–
Pode ser executado de forma paralela;
–
Ex.: [2,4,6,8,] → Reduce function → [20]
Cláudio Lúcio
21
Big Data - Hadoop ✔
O Algoritmo Map Reduce
✔
Origens: De forma geral: ●
O algoritmo pode ser usado sempre que houver uma lista;
●
Para cada elemento da lista uma função que a transforme;
●
Outra função que possa ser aplicada ao conjunto de dados transformados de forma a agregá-los;
Cláudio Lúcio
22
Pág.: 114
Big Data - Hadoop ✔
O Algoritmo Map Reduce
●
Detalhes de funcionamento: ●
A implementação do algoritmo é utilizada para realizar computação no DFS para arquivos 'grandes' e com execução tolerante a falha;
●
É necessário escrever as duas funções: Map e reduce;
●
O sistema lida com os demais detalhes: –
Execução paralela;
–
Coordenação de tarefas (Map e reduce);
–
Lidar com a tolerância a falhas;
Cláudio Lúcio
23
Big Data - Hadoop ✔
O Algoritmo Map Reduce
●
Detalhes de funcionamento:
Cláudio Lúcio
24
Pág.: 115
Novas Tendências NoSQL/ NewSQL Cláudio Lúcio
25
NoSQL/NewSQL ✔
Bancos de dados NoSQL ●
●
É mais adequada para BigData: –
Alto desempenho;
–
Escalabilidade para web;
–
Análise de grande volume de dados;
Aderente a computação nas nuvens: –
Escalabilidade ao custo acessível a medida que o volume de dados aumenta;
–
Soluções NoSQL são oferecidas como serviços web ;
Cláudio Lúcio
26
Pág.: 116
NoSQL/NewSQL Bancos de dados NoSQL
✔
NoSQL - Definição:
●
–
Not Only SQL (not only RDBMS);
–
Um conjunto de produtos e tecnologias para lidar com o paradigma de dados da Web;
Cláudio Lúcio
27
NoSQL/NewSQL ✔
Bancos de dados NoSQL ●
NoSQL – Mudança de paradigma: SQL
NoSQL
Dados organizados em tabelas
Dados não são organizados apenas em tabelas: árvores, grafos, pares chave-valor. Melhor estrutura para resolver o problema.
Foco no servidor: I/O, memória, cache e CPU. Abordagem principal: Escalabilidade vertical.
Problema é distribuído. Número de CPU´s de acordo com problema. Abordagem principal: Escalabilidade horizontal.
Utiliza código procedural e gerenciamento de estado para gerenciamento de transações.
Utiliza programação funcional e algoritmos Map Reduce para particionar o problema em tarefas independentes.
Analistas de dados fazem modelos lógicos e físicos para construir esquemas de dados precisos de acordo com os padrões da corporação.
Analistas estão preparados para carregar dados a medida que eles surgem e adaptam esquemas de acordo com a necessidade.
Todas as transações seguem o preceito ACID. Todos os relatórios são consistentes
Utiliza o preceito ACID quando necessário mas o foco é não bloquear escritas. O sistema é eventualmente consistente (dados em processamento).
Cláudio Lúcio
28
Pág.: 117
Novas Tendências Ciência de dados Cláudio Lúcio
29
Ciência de dados ✔
Definição ✔
✔
Também é conhecida com “Business Analytics” ou “Competitive Intelligence”; È uma área que busca extrair valor agregado (significado) a partir de dados e apresentá-los de maneira clara e simples para tomada de decisões;
✔
Ciência de dados → Estatística ???
✔
Envolve outras áreas de conhecimento
Cláudio Lúcio
30
Pág.: 118
Ciência de dados
Fonte: http://en.wikipedia.org/wiki/Data_science Acesso em: 27/02/2013
Cláudio Lúcio
31
Ciência de dados
Cláudio Lúcio
32
Pág.: 119
Ciência de dados ✔
Definição ✔
✔
✔
É muito difícil encontrar uma pessoa com todas as habilidade necessárias; A ciência de dados deve então ser praticada como um time multidisciplinar; Alguns acreditam que o cientista de dados é uma evolução para os analistas de informação;
Cláudio Lúcio
33
Ciência de dados
Fonte: http://emcbigdataschool.nce.ufrj.br/index.php/speakers-and-schedule/slides.html Acesso em: 27/02/2013
Cláudio Lúcio
34
Pág.: 120
Ciência de dados A certificação da EMC2 ●
E20-007 Data Science and Big Data Analytics
●
Tópicos:
Cláudio Lúcio
35
Ciência de dados A certificação da EMC2 ●
Tópicos
Cláudio Lúcio
36
Pág.: 121
Ciência de dados Resumo: ●
É uma evolução do analista de informações: rumo a uma cultura de tomada de decisão baseada em fatos e dados;
●
Deve ser feita por um time;
●
O termo ainda esta se materializando....
Cláudio Lúcio
37
Novas Tendências BIRT (Barbieri) Cláudio Lúcio
38
Pág.: 122
BIRT (Barbieri)
BIRT • Nova tendência de análise de “streams” de dados • Produção de big data e necessidade de análise em tempo real • Pedágios, Controle de trânsito, controles de movimentação de mercadorias por RFID • Aplicado também na indústria de telecom, mercado financeiro(bolsas), Saúde,etc Cláudio Lúcio
39
Pág.: 123
Novas Tendências MDM (Barbieri) Cláudio Lúcio
42
Pág.: 124
MDM (Barbieri)
MDM
Planeja r
Agir correti vament e
GD
Execut ar
Verific ar
• Conceito relacionado aos Dados Mestres, encontrados em todas as empresas • Clientes , Produtos, Locais, Contas,etc • Visão de AD sobre esses dados(rebate dos anos 80) • Visão de ABD sobre os dados(rebate dos anos 70) • Integração e Qualidade dos dados fundamentais da empresa • Parte da GD Cláudio Lúcio
43
MDM (Barbieri)
MDM-Conceito Aplicativo 1
Aplicativo 2
D1
D1
Cenário 1: Redundância: a)Vários aplicativos lêem e atualizam o Dado Mestre 1 redundado nos seus domínios b)Ambiente sem controle e gerência de DM e sem política de GD c)Sabor de redundância de antigamente Cláudio Lúcio
44
Pág.: 125
MDM (Barbieri)
Planeja r
MDM-Arquiteturas Consolidação
Da do nã o m estre
Aplicativo 1
Aplicativo 2
Aplicativo 3
DM1
DM1
DM1
Agir correti vament e
GD
Execut ar
Verific ar
Consolidação
Arquitetura: a)Faz importação batch para um ambiente integrador b)Realiza a consolid ação e integração c)Exporta batch para ambientes d esejados(targets) d)Não envolve replicação(subscrição) e)Normalmente usado para BI(sabor ETC,ETL) Importação
Ambiente Integrador
Consolid ação e Integração
DM1
Exporta para sistemas targets
Visão consolidad a
Cláudio Lúcio
45
MDM (Barbieri)
MDM-Arquiteturas Diretório/Registry
Visão virtual montada dinamicamente(RO)
Aplicativo 1
Aplicativo Mantenedor do diretório
Aplicativo 2
Diretório
Arquitetura: Diretório/Registry: a)Um diretório contém informações das Entidades e atributos do DM nas diversas fontes b)No diretório existem apontadores globais para cada DM, com serviços de pesquisa e busca c)Permite a criação de uma visão virtual dinamicamente montada e normalmente read-only, realizada via consulta federada(sabor EII-Enterprise Information Integration)
Cláudio Lúcio
46
Pág.: 126
MDM (Barbieri) MDM-Arquiteturas Coexistência Aplicativo 1
DM1
Aplicativo 2
Aplicativo 3
DM2
DM3 Arquitetura :Coexistência a) Cada Sistema mantém os seus dados b) Permite referência cruzadas entre eles e possibilita a pesquisa e busca de outros dados mestres em outras fontes, através de SOA-serviços c)No caso o aplicativo 1, lê e atualiza os seus DM e pode buscar outro DM em outro aplicativo(x) d)Vulnerável se houver redundância não controlada entre os DM e)Funciona se tiver sabor de BD particionados
Aplicativo x
DMx Cláudio Lúcio
47
MDM (Barbieri) MDM-Arquiteturas Centralização/Transação
Aplicativo 1
Aplicativo 2
Aplicativo 3
Arquitetura: Aplicativo x mantened or
Centralização/Transação: DM1
Cláudio Lúcio
a)Vários aplicativos lêem o Dado Mestre 1 via serviços b)Um aplicativo Mantenedor lê e atualiza c)Garante uma política centralizada d e MD, com autorização concedid a via GD d )Permite o conceito d e transação, com integrid ad e transacional entre diversos processos e)Sabor: BD centralizado OBS: Impacto na alteração de tod as as interfaces d os aplicativos, para lerem o DM ao invés de lerem seus arquivos
48
Pág.: 127
MDM (Barbieri)
MDM
Termos,classificação de domínio, relacionamentos entre Termos,owners-gestores de info(DG), Busca de metadados por palavras,pedaços,etc Rastreabilidade(Data Lineage)
FONTES-MDM-DADOS OPERACIONAIS
ERP
Servidor MDM
EXTRAÇÃO Transformação: Profiling: Limpeza, Combinação, Classificação, Acerto Banco de Regras, Padronização, Regras probabilísticas, analisadores fonéticos
Clericals,Zona cinzenta
Catálogo
Governança
Metadados Glossário
CARGA
Distribuição Relatórios ETL d o BI(Dim)
MDM
DATA Golden Records MART Cláudio Lúcio
49
MDM (Barbieri) DADOS OPERACIONAIS
EXTRAÇÃO
ÁREA DE STAGING
MDM
ODS Modelo relacional
Transformação: Limpeza Combinação Classificação Acerto
CARGA
Mining
DW-Corporativo Assunto1
Assunto3
Assunto2
Modelo relacional-granular, R3N
ESTOQUE
FINANCEIRO
DATA Data Mart MART
DATA Data Mart MART
VENDAS
Data Mart Modelo dim ensiona l
Modelo dimensiona l
Modelo dimensiona l
QUERY/REPORT OLAP; MINING
FERRAMENTAS TRABALHAM NOS DMARTS
DataWarehouse Corporativo
R3N=relacional na 3ª forma normal Cláudio Lúcio
50
Pág.: 128