A definição de Etapas do Processo de ETL (importar do Google Analytics para o Armazém de Dados)

0
14
Defining ETL Process Steps (to import Google Analytics into Data Warehouse)
Defining ETL Process Steps (to import Google Analytics into Data Warehouse)

A definição de Etapas do Processo de ETL (importar do Google Analytics para o Armazém de Dados)

 

imagem30-04-2018-16-04-35Esta é a primeira parte de uma série de duas partes, abrangendo o processo de ETL passos usando o Google Analytics como fonte de dados. Neste post vou rever conceitos básicos, como por armazéns de dados existe, que tipo de infra-estrutura é necessária para ETL, e como determinar o seu ETL requisitos de dados. Volte na próxima semana para a parte dois, onde eu vou fornecer-lhe alguns dos detalhadíssima aspectos de implementação através de um mundo real do Google Analytics ETL exemplo.

ETL Merece um BEIJO (ou pelo Menos um pouco de Amor)

Quando eu estava na 6ª série, eu me tornei um grande fã do KISS. Ainda me lembro do primeiro BEIJO álbum que eu comprei, KISS Alive II, o locutor gritando “Você Queria o Melhor, Você Tem o Melhor, a Banda mais quente do Mundo….BEIJO!” Mas havia um problema, o BEIJO não receber muito airplay na rádio. Em uma semana, eu teria que sentar-se através de incontáveis Rod Stewart e Rolling Stones músicas antes que eu pudesse ouvir um BEIJO música, e era sempre Beth ou Rock and Roll a Noite toda. Não era apenas para a direita.

Você tem uma necessidade de dados específicos, mas o sistema é em não deixar que você acessá-lo do jeito que você precisa. É por isso que depósitos de dados são criados.
Clique & Tweet!

O que, você pergunta, o que isso tem a ver com ETL (Extract Transform Load)? Tudo!

A minha solução para não ser capaz de ouvir mais do KISS? Ao longo do tempo, eu só comprei tudo o BEIJO álbuns. Então eu “extraído” – os de vinil, “transformado” minhas músicas favoritas na ordem que eu queria, excluídos os outros, eu não queria (o álbum Unmasked…o que eles estavam pensando?!?), as músicas adicionadas de outras fontes, e “carregado” – los na fita. Agora eu podia ouvir meus favoritos, sempre que eu queria, sem colocar-se com Rod Stewart ou Os Rolling Stones!

image representing etl process steps outcome

Por Armazéns De Dados Existentes

Você tem o mesmo problema que eu tive com o BEIJO, só que é com seus dados. Você tem uma necessidade de dados específicos, mas o sistema é em não deixar que você acessá-lo do jeito que você precisa. Ele pode ter restrições sobre o que está disponível, o quanto você pode analisar ao mesmo tempo, uma incapacidade para melhorá-lo com dados adicionais, ou é limitado pelas ferramentas de geração de relatórios que podem acessar os dados.

É por isso que os depósitos de dados são criados, eles dão a você a capacidade de:

image of data management elements

ETL é um componente-chave na gestão de dados. Ser capaz de criar um armazém de dados permite-lhe moldar o de dados para atender às suas necessidades, e o mais importante, usar esses dados para fornecer Insights + Ação.

Ser capaz de criar um armazém de dados permite-lhe moldar o de dados para atender às suas necessidades, e o mais importante, usar esses dados para fornecer Insights e Ação.
Clique & Tweet!

Considere o Google Analytics, o que limita suas capacidades de geração de relatórios de várias maneiras:

Para aqueles que não querem tomar a mergulhar e se tornar um Google 360 cliente, ETL (extração, Transformação e Carga) de programação fornece uma alternativa para atender às suas necessidades de informação. Apesar de ETL instalação/processo exemplo de que vou falar é relacionado para o Google Analytics como fonte de dados, os conceitos se aplicam a qualquer fonte de dados.

A criação de um programa de ETL para extração e carga de dados do Google Analytics para seu próprio armazém de dados (ou base de dados), irá permitir que você ignorar o Google Analítico da amostragem de problemas, bem como os 10 métrica de restrição. Você ainda vai ser limitado a 7 dimensões, mas existem algumas maneiras de se apertando em algumas dimensões adicionais.

A criação de um programa de ETL para extração e carga de dados do Google Analytics para seu próprio armazém de dados (ou base de dados), vai permitir-lhe para ignorar o Google Analítico da amostragem de problemas, bem como os 10 métrica de restrição.

Os passos para criar o seu processo de ETL e data warehouse são como segue:

A criação de uma Infra-estrutura de ETL

Para começar, você vai precisar para estabelecer a infra-estrutura para o processo de ETL e data warehouse. Para manter os custos baixos, reduzir os recursos necessários para administrar e manter, e permitir uma rápida implementação com uma flexibilidade incrível, eu recomendo o seguinte:

“http://paydayloanslcd.com/wp-content/uploads/2018/04/image-of-etl-infrastructure-environment-example.png” alt=”imagem de etl ambiente de infraestrutura de exemplo” largura=”765″ height=”261″ />

Linguagem De Programação

python logo

Você pode usar uma linguagem de programação comuns, tais como Python, para criar o seu programa de ETL. Python, sendo uma fonte aberta de idiomas, oferece as seguintes vantagens:

ETL Banco de dados

amazon redshift logo

Para um armazém de dados recomendo AWS Redshift (embora qualquer um dos AWS soluções de banco de dados é possível).

Usando o AWS soluções na nuvem, você não vai precisar investir em hardware, recursos de TI e infraestrutura de TI para gerenciar o seu armazém de dados, como a AWS vai fazer tudo isso para você por um preço muito baixo. A AWS oferece totalmente gerenciado soluções de banco de dados que inclui:

Servidores para Executar o Seu ETL

A AWS oferece servidores, ou elastic computing (EC2). O que isso significa?amazon web services ec2

Executando seus próprios servidores requer a tempo inteiro, um centro dedicado com refrigeração adequada, gerenciamento de energia, e outras necessidades. E o planejamento é complexo, você pode facilmente mais ou subdimensionadas suas necessidades de computação. Mas AWS cuida de todos os acima, permitindo-lhe a flexibilidade para redimensionar suas necessidades de computação, todos com o clique de um mouse.

Armazenamento De Dados Resultantes De Arquivos

A AWS oferece flexível soluções de armazenamento (S3):

A definição de Requisitos de Dados ETL

Em seguida, você precisa determinar suas necessidades de relatórios. Quais são suas metas e objetivos que você está tentando medir? Que questão de negócios você está tentando responder?

Uma vez identificado, você deve ser capaz de determinar os campos que você precisa a partir de fontes de dados, transformações que serão necessárias (tais como campos calculados), e dados adicionais que precisam ser adicionados. Algumas etapas do processo de transformação que você vai querer considerar:

No nosso exemplo, o nosso relatório requer a capacidade de analisar as seguintes dimensões e métricas do Google Analytics:

Dimensões
Métricas

Campanha
Salta

Agrupamento De Canais
Cliques

Data
Objetivo 1 Conclusões

Ação Do Evento
Objetivo 2 Conclusões

Categoria Do Evento
Objetivo 3 Conclusões

Nome Do Evento
Objetivo 4 Conclusões

Médio
Objetivo 5 Conclusões

Origem
Objetivo 6 Conclusões

Objetivo 7 Conclusões

Objetivo 8 Conclusões

Meta 9 Conclusões

Meta 10 Conclusões

Meta 11 Conclusões

Meta 12 Conclusões

Meta 13 Conclusões

Meta 14 Conclusões

Meta 15 Conclusões

Meta 16 Conclusões

Meta 17 Conclusões

Meta 18 Conclusões

Meta 19 Conclusões

Meta 20 Conclusões

Novos Usuários

Página Vistas

Duração Da Sessão

Sessões

Total De Eventos

Transações

Usuários

Além disso, para ajudar com a nossa reportagem, temos o seguinte:

Por último, precisamos puxar os dados diariamente. O Google Analytics pode levar até 4 dias antes de os dados é finalizada (se você não tiver um 360 cliente). Como tal, temos duas opções:

O Processo de ETL Estratégia de Fase Está Completa!

etl data playlist icon

Que é um envoltório para a parte de um destes dois parte de ETL série. Se você tiver quaisquer perguntas, comentários, sugestões ou da sua própria relação com o processo de ETL etapas na fase de instalação, por favor, compartilhe nos comentários. Olhar para fora para a próxima semana o post onde eu vou ser um mergulho mais profundo no Google Analytics específico de ETL implementação e fornecendo detalhes.

DEIXE UMA RESPOSTA

Please enter your comment!
Please enter your name here

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.