Meigarom
26/4/2020

Os 5 Projetos de Data Science Que Fará o Recrutador Olhar para Você!

Imagem Principal
Introdução

A forma mais simples e direta para conseguir o primeiro emprego ou fazer uma migração de carreira para Data Science é construir um Portfólio de Projetos Matador.

Um portfólio de projetos Matador é aquele que demonstra suas habilidades e competências para resolver problemas complexos, ou seja, que prove que você é tão capaz de solucionar desafios de negócio quanto os Data Scientist que já atuam profissionalmente nas empresas.

Se você criar um portfólio de projetos matador, é impossível os recrutadores não te olharem de uma forma diferente, em relação aos outros candidatos, para a vaga de Data Scientist.

Até o final desse artigo, eu vou mostrar 5 projetos que você deveria desenvolver e colocar no seu portfólio. Eu separei esse artigo em uma série de 5 posts, cada um terá todos os detalhes de um projeto específico e o passo a passo sugerido para resolvê-lo.

Os 5 tipos de Projetos de Data Science.

Antes de entrar no detalhe do primeiro projeto, eu gostaria de trazer um pouco de contexto. Eu gravei um video para canal “Seja Um Data Scientist” ( https://youtu.be/LJrK4B7bNWA ), onde eu explico os 5 tipos de projetos obrigatório para o seu portfólio, cada tipo demonstra uma habilidade específica dentro do caminho de resolução de projetos de Data Science. A explicação detalhada sobre os tipos de projetos e o roadmap de resolução você encontra no vídeo do canal.

Eu acredito que os 5 tipos de Projetos que demonstram suas habilidades e competências como um Data Scientist estão nessas categorias: Projetos de Insights, Projetos de Data Engineering, Projetos de Machine Learning, Projetos End to End e Projetos de Data Science.

Projeto Número 01: O Projeto de Insights

Nesse post, eu vou falar especificamente sobre o Projeto do tipo Insights.

O objetivo do projeto de Insights é recomendar soluções para o negócio através de Insights gerados por uma ótima Análise Exploratória de Dados.

O Projeto de Insight cobre 5 passos do roadmap de resolução de problemas em Data Science, sendo esses: A Questão de Negócio, O Entendimento do Negócio, A Coleta de Dados, A Limpeza de Dados e A Exploração de Dados.

Se você cumprir esses 5 passos, você criará um solução para um problema de negócio. Observe que nenhum passo fala sobre usar algoritmos de Machine Learning, isso é proposital, porque eu quero mostrar pra você que Machine Learning é apenas uma ferramenta de Data Science e que vários problema que as empresas enfrentam, podem ser resolvidas com uma ótima análise exploratória de dados.

E para te ajudar a cumprir esses 5 passos, eu vou criar um desafio fictício de uma empresa imaginária para simular um contexto real em problema de negócio.

Para um Projeto de Insights, eu sugiro que você crie uma solução para a empresa House Rocket Company:

Disclaimer: O Contexto a seguir, é completamente fictício, a empresa, o contexto, o CEO, as perguntas de negócio existem somente na minha imaginação.

Contexto do Desafio

A House Rocket é uma plataforma digital que tem como modelo de negócio, a compra e a venda de imóveis usando tecnologia.

Você é um Data Scientist contrato pela empresa para ajudar a encontrar as melhores oportunidades de negócio no mercado de imóveis. O CEO da House Rocket gostaria de maximizar a receita da empresa encontrando boas oportunidades de negócio.

Sua principal estratégia é comprar boas casas em ótimas localizações com preços baixos e depois revendê-las posteriormente à preços mais altos. Quanto maior a diferença entre a compra e a venda, maior o lucro da empresa e portanto maior sua receita.

Entretanto, as casas possuem muitos atributos que as tornam mais ou menos atrativas aos compradores e vendedores e a localização e o período do ano também podem influenciar os preços.

Portanto, seu trabalho como Data Scientist é responder as seguinte perguntas:

  1. Quais casas o CEO da House Rocket deveria comprar e por qual preço de compra?
  2. Uma vez a casa em posse da empresa, qual o melhor momento para vendê-las e qual seria o preço da venda?
  3. A House Rocket deveria fazer uma reforma para aumentar o preço da venda? Quais seriam as sugestões de mudanças? Qual o incremento no preço dado por cada opção de reforma?

Os Dados do Desafio.

O conjunto de dados que representam o contexto está disponível na plataforma do Kaggle.

Esse é o link

Esse conjunto de dados contém casas vendidas entre Maio de 2014 e Maio de 2015. Você usará esses dados para desenvolver sua solução.

Como solucionar esse desafio?

Não se assuste com o problema, respire fundo, mantenha a mente clara e limpa e então, comece a pensar de forma estruturada em alternativas para responder à essas perguntas.

Eu vou deixar aqui um roteiro para você se orientar, ele pode ser modificado da forma que você preferir ou simplesmente ignorado. Provavelmente, você já tem um roteiro de resolução melhor para abordar esse desafio.

Dicas preciosas para você começar: Tenha calma, não tenha medo de criar suposições e considerações, faça um passo de cada vez, não se prenda muito na parte técnica e foque em responder as perguntas, todas suas ações devem te deixar um passo mais próximo da solução final. Sempre pense: “Se eu fizer isso, me ajuda a chegar mais próximo da resposta?” Se a resposta for Sim, faça, se não, tome outra ação.

E o mais importante, tenha paciência, criar uma solução leva tempo, as respostas não ficam prontas do dia pra noite, assuma uma postura resiliente e nunca desista, afinal você quer ser um Data Scientist e ganhar um ótimo salário, não quer?

Roteiro Sugerido para a Resolução:

Esse é o roteiro de resolução do desafio que eu sugiro:

  1. Identifique a causa raíz.
    Porque o CEO fez essas perguntas? Se você fosse ele, porque você perguntaria isso? Quer aumentar receita? A empresa está indo bem?
    Anote essas causas.
  2. Colete os dados ( Os dados estão no link acima )
  3. Aplique uma limpeza nos dados.
    Entenda as variáveis disponíveis, possíveis valores faltantes, faça uma estatística descritiva para entender as características dos dados.
  4. Levante Hipóteses sobre o Comportamento do Negócio.
    Casas com garagens são mais caras? Porque?
    Casas com muitos quartos são mais caras? Porque? A partir de quantos quartos o preço aumenta? Qual o incremento de preço por cada quarto adicionado?
    As casas mais caras estão no centro? Qual a região? Existe alguma coisa na região que tem correlação com valor de venda da casa? Shoppings? Montanhas? Pessoas Famosas?
  5. Faça uma ótima Análise Exploratória de Dados.
    Quais hipóteses são falsas e quais são verdadeiras?
    Quais as correlações entre as variáveis e a variável resposta?
  6. Escreve os Insights que você encontrou
  7. Escreve possíveis soluções para o problema do CEO.

O Ferramental da Solução

Usa as ferramentas que você se sente mais confortável para desenvolver a solução. Você pode usar tanto Python quanto R e qualquer IDE de sua preferência Juypter Notebook, Spyder, VS Code, entre outros.

Você pode usar o Google Colab também, caso você não tenha um computador razoável, ou caso queira testar essa incrível ferramenta do Google.

Aproveite esse projeto para melhorar sua velocidade na manipulação de dados com linguagens de programação. Alcance um nível, no qual você consiga escrever códigos rapidamente, sem ficar olhando no Stackoverflow a cada linha código.

Vá em Frente!

Não existe caminho fácil, de curto prazo em nenhum profissão, muito menos em Data Science, mas existe o caminho certo. E o caminho certo é adquirir experiência através do desenvolvimento de projetos para mostrar sua capacidade.

Volto a repetir, os projetos do seu portfólio precisam demonstrar que você é tão capaz de resolver desafios de negócio quantos os Data Scientists que já atuam profissionalmente nas empresas.

Quando você conseguir solucionar esse desafio, escreva um artigo, explicando toda sua linha de raciocínio, o contexto do problema, todas as considerações assumidas, as hipóteses validadas e as rejeitadas e as suas sugestões para solucionar o problema da House Rocket Company.

Se quiser publicar aqui no blog, me manda um msg no LinkedIn (@meigarom ) ou no Instagram ( @meigarom.datascience ). Publicarei seu trabalho com o maior prazer do mundo.

Conclusão

Nesse primeiro post, você aprendeu os 5 tipos de projetos para construir um portfólio matador que vai te ajudar a se tornar um Data Scientist e também um pequeno guia para resolver um projeto do tipo Insights.

Fique ligado nos próximos posts, eu vou trazer sugestões para os outros tipos de projetos. Assim você conseguirá criar um portfólio de projetos matador no final dessa séries e com certeza estará vários passos a frente em relação aos outros candidatos.

Não se esqueça de acompanhar o canal “Seja um Data Scientist” no Youtube e o Instagram @meigarom.datascience para mais conteúdos. Caso você tenha LinkedIn, não se esqueça de conectar comigo, é só procurar por @Meigarom, está fácil de encontrar!! haha.

Bons estudos!! #KeepStuding