Michele Lopes
7/12/2023

Como montar um projeto de análise de dados do zero?

Imagem Principal

Hoje é crucial para um profissional que deseja ingressar na área de dados, comprovar experiência prática. E para isto, você não precisa necessariamente ter uma experiência profissional dentro de uma empresa, você pode comprovar sua experiência montando um portfólio de projetos, utilizando o conhecimento que você adquiriu com seus estudos.

Sendo assim, aqui vai um roteiro e algumas dicas para que você consiga ter um direcionamento mais assertivo e elaborar um primeiro projeto de análise de dados para o seu portfólio.

Como decidir qual projeto fazer?

Primeiramente você deve escolher alguma base de dados e trabalhar em cima dela para montar um projeto de portfólio.

Pense em algum assunto com o qual se identifica, ou até setores que gostaria de trabalhar (empresas do setor financeiro, indústria têxtil, ramo imobiliário, etc) e busque dados públicos de empresas desse mesmo setor.

Como sugestão você pode acessar a plataforma Kaggle, onde existem diversos dados públicos de empresas reais.

Inspecionar e preparar os dados

Com o dataset em mãos, o primeiro passo é entender melhor os dados que serão trabalhados e prepará-los para as análise posteriores, isso inclui realizar algumas inspeções e também uma limpeza dos dados conforme identificado ser necessário.

Inspecionando os dados

O foco dessa etapa é entender os dados com relação a tipos de dados, categorias, volumes que representam, se existem dados faltantes, se existe algum tipo de transformação ou  limpeza necessária.

Existem alguns comandos em Python que podem ser utilizados para inspeção. Neste outro artigo que publiquei no Medium, aprofundo um pouco em algumas ferramentas e comandos Python que você pode utilizar para a inspeção.

Realizando a limpeza dos dados

Após a inspeção, você pode realizar a limpeza dos dados de acordo com os pontos que identificou ser necessário.

Limpeza inclui converter dados para sua categoria correta (por exemplo alguma variável que é do tipo inteira mas está no dataset descrita como categórica), realizar a tratativa dos dados faltantes, seja com exclusão de linhas ou preenchimento com alguma informação e remover colunas que não são relevantes para a análise.

Estatística descritiva

Após a preparação do seu dataset, para ajudar a entender melhor os dados e também tirar alguns insights para validar na parte de análise dos dados em si, é importante realizar a etapa de estatística descritiva.

Ela consiste em uma área da estatística que envolve a organização, resumo e apresentação dos dados de forma informativa. Tem como objetivo descrever e resumir o conjunto de dados, o que proporciona clareza na compreensão dos dados e facilita na tomada de decisão.

Escrever as perguntas de negócio

Como esse é um projeto pessoal, onde você não possui uma pessoa da área de negócio te passando solicitações específicas, você precisa de um olhar para a parte de negócios e identificar que tipo de informação é interessante extrair e repassar. Aqui nesta etapa, você pode escrever algumas possíveis perguntas de negócio para respondê-las e utilizá-las no dashboard do seu projeto.

Pense o que seria interessante responder caso você fosse o CEO da empresa, um gerente comercial, uma pessoa de marketing. Pesquise sobre empresas do mesmo ramo do seu projeto para ajudar a adquirir mais contexto de negócio.

Escreva essas perguntas em um esquema de brainstorming para posteriormente selecionar as mais relevantes.

Respondendo as perguntas de negócio

Essa é a parte de mão na massa com relação a sua capacidade de analisar dados. Pense na melhor forma de responder cada pergunta, qual tipo de operação, agrupamento será necessário utilizar, qual métrica trará uma resposta mais assertiva, se a resposta fica melhor representada por uma tabela ou gráfico, qual tipo de gráfico.

Faça um planejamento de como responder cada pergunta e para responder utilize a ferramenta e linguagem de programação que você possui mais afinidade.

Pesquise por outros projetos ou perguntas parecidas, converse com outros profissionais da área para validar a sua linha de raciocínio.

Planejar como será o dashboard para visualização

Depois de responder às perguntas de negócio, é necessário trazê-las de forma visual para pessoas que não são da área técnica. Uma parte importante da profissão de um analista de dados, é conseguir trazer as informações solicitadas de uma forma simples, visual, de fácil uso e compreensão para o time de negócio.

Com uma ferramenta de dashboard intuitiva, você consegue dar autonomia para a equipe de negócio ter as informações, sem depender de você.

Para montar o dashboard da maneira mais organizada possível, antes de partir para a ferramenta de visualização uma boa estratégia é planejar esse dashboard antes. Isso pode ser feito em uma ferramenta mais simples, onde você consiga montar um layout visual. Powerpoint ou a ferramenta de diagramas do Google Draw.io são duas opções que podem cumprir esse papel.

Após planejar as páginas, como serão divididos os gráficos e tabelas, que tipo de filtro você pode criar para visualização e interação do usuário, você pode partir para de fato a elaboração do dashboard.

Reforçando a importância desse planejamento, quando você tem um esqueleto pronto, fica muito mais fácil criar o seu dashboard, pois você irá apenas manusear a ferramenta de visualização de acordo com o que definiu.

Escolher a ferramenta de visualização de dados e configura-la

Essa parte é mais técnica e a execução dela depende de qual ferramenta você irá escolher para o dashboard.

Para este artigo, como sugestão, deixo aqui a ferramenta Streamlit. O Streamlit é uma ferramenta de código aberto em Python, utilizada para criar aplicativos web interativos, sem muita complexidade significativa de desenvolvimento web.

Além disso, ele também oferece uma variedade de widgets interativos (como botões, sliders, caixas de texto), que podem ser incorporados no aplicativo para interação com o usuário e também pode ser facilmente integrado com outras bibliotecas de visualização de dados do Python, como Matplotlib e Plotly.

Para mais detalhes de como manuseá-la, você pode acessar a documentação do Streamlit neste link.

Organização do código

Quando você está em um processo seletivo, você é avaliado também pela qualidade do seu código, se está organizado e se é de fácil compreensão.

Por isso é crucial a organização do código. Um meio de realizar isso é deixar o código de forma modular.

No código modular você cria módulos/funções para cada parte do seu código e assim no decorrer do código você apenas utiliza as funções criadas, tornando a visualização muito mais limpa, ou seja, além de saber escrever o código você mostra que se preocupa com que fique de fácil compreensão para outras pessoas poderem entendê-lo e utilizá-lo.

O código modular é a prática de dividir o seu código em partes independentes, chamadas de módulos, que podem ser manuseados de forma independente também. Algumas dicas para aplicação são:

  • Análise o código para identificar diferentes funcionalidades ou partes lógicas que o compõem. Cada uma dessas funcionalidades podem ser implementadas como um módulo separado;
  • Identifique partes do código que se repetem e que podem ser resumidas a uma mesma função;
  • Projete os módulos para que possam ser reutilizados em diferentes partes do código ou até mesmo em projetos diferentes. Isso economiza tempo e esforço;
  • Ao longo do código, forneça explicações do que está sendo realizado e também a funcionalidade e forma de interação com as funções criadas.

Subir para um ambiente em nuvem

Para que você consiga tirar o projeto do seu computador e deixá-lo  em uma vitrine para os recrutadores poderem visualizar , é necessário subir para um ambiente em nuvem

Existem algumas formas de subir o seu arquivo para um ambiente em nuvem, uma das ferramentas mais utilizadas é o github. Caso você ainda não faça uso do github, esse artigo pode ser útil para ajudá-lo a criar uma conta.

Ao subir o seu projeto no Github, você consegue integrá-lo a ferramenta de visualização escolhida. No geral existem várias ferramentas que se integram com o github, a forma de realizar essa integração, vai depender de cada uma delas.

Normalmente os detalhes sobre essa integração constam na própria ferramenta e algumas delas, como é o caso do Streamlit, você consegue realizar o seu login atrelado diretamente a sua conta no github.

Depois de subir o seu projeto no github, é necessário também organizar as informações lá. É importante fazer um resumo explicando a elaboração do projeto, principais desafios, insights e conclusões. Para isso, você pode usar o arquivo Read.ME que o próprio github disponibiliza quando você cria um novo projeto. Aqui um artigo com algumas dicas para elaboração do arquivo Read.ME.

Considerações finais

Pronto! Seguindo esses passos você tem um direcionamento para começar a elaborar seus projetos de portfólio. As ferramentas técnicas que serão utilizadas vão variar de acordo com a sua escolha.

Faça uma primeira versão do seu projeto e revise-o, aplicando melhorias a cada revisão. Tente-se sempre ter o olhar de uma pessoa de negócios para trazer as informações da forma mais prática e relevante possível.

Lembre-se sempre que o principal foco de um projeto é demonstrar que você sabe aplicar de forma prática seu conhecimento, por isso realize-o com o máximo de excelência.