Usamos cookies para melhorar sua experiência. Ao aceitar, poderemos medir visitas anonimamente.

Tutorial de Python + Google Colab para Análise de Dados

18 de setembro de 2023

Introdução

Utilizar análises de dados é essencial para criar ou melhorar políticas públicas mais eficientes. Afinal, como tomar boas decisões sem informações confiáveis?

Políticas públicas são planos de ação do governo para melhorar a sociedade — podem abranger saúde, educação, economia ou até cultura. E para que funcionem, precisam estar baseadas em dados reais.

Os dados são como pistas: nos mostram quanto as pessoas ganham, se têm acesso à saúde e educação, como está a mobilidade urbana, entre muitos outros fatores.
Instituições como o IBGE e o INEP fornecem microdados riquíssimos para que possamos entender melhor a realidade social.

Além disso, temos leis importantes que reforçam a importância de dados:

  • Constituição Federal (1988): estabelece direitos sociais fundamentais.
  • Lei de Acesso à Informação (2011): garante transparência nos dados públicos.
  • LGPD (2018): protege dados pessoais e assegura privacidade.

Ou seja: dados bem usados podem transformar políticas públicas em soluções mais justas e eficazes.


Tutorial: Python + Google Colab

Agora, vamos colocar a mão na massa e realizar uma Análise de Dados simples utilizando Python, Pandas, Matplotlib e o Google Colab.

1. Acessar o Google Colab

Google Colab

  • É preciso ter uma conta no Google.
  • Clique em New Notebook para abrir um novo arquivo .ipynb.
  • Colab funciona como um ambiente virtual de programação, integrado ao Google Drive.

2. Renomear e salvar o arquivo

  • Na parte superior, clique no título (geralmente Untitled.ipynb) e renomeie para aula1.
  • O arquivo pode ser salvo no Google Drive, no GitHub ou localmente.

3. Configurar projeto no Colab

No painel lateral, há a aba de arquivos. Ali podemos enviar datasets ou montar o Google Drive para acessar dados.

Montando o Google Drive no Colab:

from google.colab import drive
drive.mount('/content/drive')

Siga as instruções: abra o link, escolha sua conta Google, copie o código gerado e cole no Colab.
Se tudo der certo, aparecerá:

Mounted at /content/drive

Agora é só enviar seus datasets para uma pasta do Drive, por exemplo:
/content/drive/MyDrive/Datasets/imdb-reviews-pt-br.csv


4. Lendo dados com Pandas

import pandas as pd

df = pd.read_csv('/content/drive/MyDrive/Datasets/imdb-reviews-pt-br.csv')
df.head()

Esse comando mostra as primeiras linhas da tabela.


5. Usando dados públicos do INEP

Vamos baixar os microdados do ENEM:
Microdados ENEM — INEP

  • Baixe e descompacte o .zip.
  • Identifique os arquivos .csv para análise.
  • Faça upload para o Colab ou Google Drive.

Exemplo de leitura:

microdados = pd.read_csv("caminho/do/arquivo.csv", sep=";", encoding="ISO-8859-1")
microdados.head()

6. Explorando colunas

microdados.columns.values

Isso retorna o nome de todas as colunas disponíveis no dataset.

Para selecionar apenas algumas colunas:

colunasSelecionadas = ["NO_MUNICIPIO_PROVA", "TP_FAIXA_ETARIA", "TP_SEXO"]
microdadoSelecionado = microdados.filter(items=colunasSelecionadas)
microdadoSelecionado.head()

7. Estatísticas básicas

Distribuição de alunos por município:

microdadoSelecionado["NO_MUNICIPIO_PROVA"].value_counts()

Distribuição por faixa etária:

microdadoSelecionado["TP_FAIXA_ETARIA"].value_counts()

Distribuição por sexo:

microdadoSelecionado["TP_SEXO"].value_counts()

⚠️ Spoiler: o ENEM registra apenas masculino e feminino — o que abre debates sobre inclusão de gênero nas políticas públicas.


8. Visualizando com Matplotlib

import matplotlib.pyplot as plt

# Histograma de idades
microdadoSelecionado["TP_FAIXA_ETARIA"].hist(bins=30)
plt.title("Distribuição por Faixa Etária")
plt.xlabel("Faixa Etária")
plt.ylabel("Número de Participantes")
plt.show()

# Distribuição por sexo
microdadoSelecionado["TP_SEXO"].hist()
plt.title("Distribuição por Sexo")
plt.show()

Conclusão

O que fizemos aqui foi apenas uma análise exploratória básica.
Mas com poucos comandos já conseguimos:

  • acessar dados públicos,
  • organizar tabelas,
  • gerar estatísticas rápidas,
  • e visualizar informações em gráficos.

Esse processo pode ser expandido para análises mais complexas:

  • qualidade da educação por região,
  • comparação de desempenho entre grupos,
  • impacto de políticas públicas ao longo do tempo.

Os dados são aliados poderosos da cidadania e da democracia, e aprender a explorá-los é um passo essencial para qualquer pessoa interessada em ciência, tecnologia e sociedade.


Referências

Comentários