Lui Magno
28/11/2023

Git  para Cientista de Dados: Primeiros Passos e Dicas Essenciais

Imagem Principal

O Git é um sistema de controle de versão distribuído amplamente utilizado para rastrear alterações em projetos de software. Ele permite que você acompanhe o desenvolvimento do seu código, coordene o trabalho em equipe e reverta para versões anteriores do seu projeto. Neste tutorial inicial, vamos abordar os conceitos básicos do Git para ajudá-lo a começar.

De forma direta e simples, neste artigo você vai aprender como:

  1. Criar um repositório,
  2. Criar ramificações,
  3. Ver histórico de versões,
  4. Resolver e Revisar Mudanças.

O que é o Git?

O Git é um sistema de controle de versão que permite rastrear alterações em arquivos ao longo do tempo. Ele foi criado por Linus Torvalds em 2005 e se tornou a escolha padrão para desenvolvedores em todo o mundo. O Git é distribuído, o que significa que cada desenvolvedor tem uma cópia completa do histórico do projeto em sua máquina local.

E como instalar o Git?

Antes de começar a usar o Git, você precisa instalá-lo em sua máquina. Você pode baixar o Git no site oficial. Siga as instruções de instalação específicas para o seu sistema operacional. Os passos são muito fáceis e bem iniciais, então não deve levar mais do que 3 minutos.

Mas por que o Git é tão importante para um Cientista de Dados?

Você já deve saber, a profissão de Cientista de Dado evoluiu de profissões nas áreas de Banco de Dados e Inteligência Artificial. Essa relação com profissões da TI trouxe com ela as ferramentas que outros profissionais da área utilizam. Ou seja, Git, uma ferramenta amplamente utilizada na área de desenvolvimento acabou vindo para Ciência de Dados, assim como se espalhou também por múltiplas áreas.

No seu dia a dia de trabalho, será preciso versionar e analisar código, e o Git é a ferramenta mais poderosa do momento para lidar com esse tipo de situação:

  1. Salvar o estado atual do seu código.
  2. Ver um código antigo pelo histórico do projeto.
  3. Voltar, avançar e versionar o projeto.
  4. Ter várias versões do mesmo projeto em instâncias diferentes.
  5. E muito mais…

Configuração Inicial

Vamos imaginar um cenário: você é o mais novo Cientista de Dados júnior da Data Monkey Ltda. E o seu líder, Linus, pediu que você iniciasse um novo repositório.

Depois de instalar o Git, é necessário configurar algumas informações, como seu nome de usuário e endereço de e-mail. Isso é crucial para identificar quem fez quais alterações no projeto. Use os seguintes comandos no terminal do Git que você instalou na sua máquina:

git config - global user.name "Seu Nome"git config - global user.email "seu.email@example.com"

Depois dessa configuração inicial, todos os primeiros passos serão feitos por esse seu usuário. Então se precisar reconfigurar é só reutilizar os comandos acima.

Criando um Repositório Git

Agora que fez as configurações iniciais, você pode criar o novo repositório que seu líder pediu.

Um repositório Git é onde seu projeto será armazenado. Você pode iniciar um novo repositório ou clonar um existente. Para iniciar um novo repositório, vá para a pasta do seu projeto e execute:

git init

Pronto! Isso cria um repositório Git na pasta do seu projeto. Você já está apto a trabalhar e contribuir com o time.

Adicionando e Commitando Alterações

Já que seu Git já está funcionando na sua máquina, seu chefe pediu que fizesse algumas alterações novas em um arquivo .csv da empresa. Depois do trabalho feito, você precisa salvar essas alterações.

Para começar a rastrear os arquivos do seu projeto, utilize:

git add nome-do-arquivo

Para ganhar tempo e adicionar todos os arquivos:

git add .

Agora vamos fazer nosso primeiro commit, um comando que salva todas as alterações em um novo estado salvo:

git commit -m "Primeiro Commit"

É muito importante que a sua mensagem de commit seja clara e concisa, para que depois você mesmo e outros possam entender sobre do que se trata essa parte do projeto. Linus pode querer entender qual passo você completou nesses primeiros dias, e ele poder fazer isso só olhando o nome dos commits, é muito importante.

Branches (Ramificações)

As ramificações são essenciais para o desenvolvimento paralelo de recursos. Vamos a outra situação muito comum: como um Cientista de Dados Júnior, você precisa ter acesso ao mesmo repositório que seu líder de equipe. É importante que você tenha o acesso ao projeto, mas não de forma que possa influenciar o projeto diretamente, e sim uma “ramificação” desse projeto que você possa criar livremente. Crie essa nova ramificação com:

git branch nome-da-branch

Mude para essa branch com:

git checkout nome-da-ramificacao

Mesclando Ramificações

Digamos que seu trabalho na sua ramificação está pronto, como agora mesclar essas alterações para a branch do seu líder?

git merge nome-da-ramificacao

Se não tiver nenhum problema, sua branch estará agora na branch do seu líder, com todas as alterações já atualizadas

Histórico de Commits

O histórico de commits fornece uma visão cronológica do projeto, assim você pode ver quais foram as últimas modificações. Se o seu líder ou algum colega de trabalho pedir para você checar algum commit passado, utilize:

git log

Vish! Fiz uma besteira…

Na sexta-feira, no fim do expediente você fez o comando “git add .” e agora precisa desfazer essas alterações porque viu que fez algo de errado. Use este comando:

git checkout nome-do-arquivo

Vamos dizer que a besteira que você fez foi maior ainda, e você precisa desfazer o último commit:

git reset HEAD~1

Pronto, você já tem 2 comandos que vão te auxiliar nas horas que você enviar alguma alteração que não deveria estar upada no repositório. Veja qual se adequa mais a sua situação e use-as com sabedoria.

Colaboração com Repositórios Remotos

Já que você já fez 1 mês de empresa, Linus pediu que você começasse a contribuir com os repositórios online da Data Monkey. Primeiro, você precisa clonar um repositório online:

git clone url-do-repositorio-remoto

Agora que você tem o repositório principal na sua máquina, e foi dada a permissão para contribuir com o repositório, crie uma branch para trabalhar, e depois de todas as alterações, faça um commit e “push” as alterações para o repositório online:

git push origin nome-da-ramificacao

Alguém do seu time fez uma alteração no repositório online e você precisa obter na sua máquina? Fácil:

git pull origin nome-da-ramificacao

Conclusão

Viu como é fácil? Você não precisa ser um mestre para começar a contribuir com repositórios na sua empresa. Basta procurar comandos básicos e sempre fazer testes com um repositório seu, sempre tomando cuidado com repositórios que outras pessoas colaboram.

Mas esse não é o fim…

Apesar de tratarmos de muitas opções aqui, o Git tem muitas outras funcionalidades, das quais eu vou falar em outro post, tratando de conflitos, customizações e ferramentas.