Tutorial de Python + Google Colab para Análise de Dados
Introdução
Utilizar análises de dados é essencial para criar ou melhorar políticas públicas mais eficientes. Afinal, como tomar boas decisões sem informações confiáveis?
Políticas públicas são planos de ação do governo para melhorar a sociedade — podem abranger saúde, educação, economia ou até cultura. E para que funcionem, precisam estar baseadas em dados reais.
Os dados são como pistas: nos mostram quanto as pessoas ganham, se têm acesso à saúde e educação, como está a mobilidade urbana, entre muitos outros fatores.
Instituições como o IBGE e o INEP fornecem microdados riquíssimos para que possamos entender melhor a realidade social.
Além disso, temos leis importantes que reforçam a importância de dados:
- Constituição Federal (1988): estabelece direitos sociais fundamentais.
- Lei de Acesso à Informação (2011): garante transparência nos dados públicos.
- LGPD (2018): protege dados pessoais e assegura privacidade.
Ou seja: dados bem usados podem transformar políticas públicas em soluções mais justas e eficazes.
Tutorial: Python + Google Colab
Agora, vamos colocar a mão na massa e realizar uma Análise de Dados simples utilizando Python, Pandas, Matplotlib e o Google Colab.
1. Acessar o Google Colab
- É preciso ter uma conta no Google.
- Clique em New Notebook para abrir um novo arquivo
.ipynb
. - Colab funciona como um ambiente virtual de programação, integrado ao Google Drive.
2. Renomear e salvar o arquivo
- Na parte superior, clique no título (geralmente
Untitled.ipynb
) e renomeie paraaula1
. - O arquivo pode ser salvo no Google Drive, no GitHub ou localmente.
3. Configurar projeto no Colab
No painel lateral, há a aba de arquivos. Ali podemos enviar datasets ou montar o Google Drive para acessar dados.
Montando o Google Drive no Colab:
from google.colab import drive
drive.mount('/content/drive')
Siga as instruções: abra o link, escolha sua conta Google, copie o código gerado e cole no Colab.
Se tudo der certo, aparecerá:
Mounted at /content/drive
Agora é só enviar seus datasets para uma pasta do Drive, por exemplo:/content/drive/MyDrive/Datasets/imdb-reviews-pt-br.csv
4. Lendo dados com Pandas
import pandas as pd
df = pd.read_csv('/content/drive/MyDrive/Datasets/imdb-reviews-pt-br.csv')
df.head()
Esse comando mostra as primeiras linhas da tabela.
5. Usando dados públicos do INEP
Vamos baixar os microdados do ENEM:
Microdados ENEM — INEP
- Baixe e descompacte o
.zip
. - Identifique os arquivos
.csv
para análise. - Faça upload para o Colab ou Google Drive.
Exemplo de leitura:
microdados = pd.read_csv("caminho/do/arquivo.csv", sep=";", encoding="ISO-8859-1")
microdados.head()
6. Explorando colunas
microdados.columns.values
Isso retorna o nome de todas as colunas disponíveis no dataset.
Para selecionar apenas algumas colunas:
colunasSelecionadas = ["NO_MUNICIPIO_PROVA", "TP_FAIXA_ETARIA", "TP_SEXO"]
microdadoSelecionado = microdados.filter(items=colunasSelecionadas)
microdadoSelecionado.head()
7. Estatísticas básicas
Distribuição de alunos por município:
microdadoSelecionado["NO_MUNICIPIO_PROVA"].value_counts()
Distribuição por faixa etária:
microdadoSelecionado["TP_FAIXA_ETARIA"].value_counts()
Distribuição por sexo:
microdadoSelecionado["TP_SEXO"].value_counts()
⚠️ Spoiler: o ENEM registra apenas masculino e feminino — o que abre debates sobre inclusão de gênero nas políticas públicas.
8. Visualizando com Matplotlib
import matplotlib.pyplot as plt
# Histograma de idades
microdadoSelecionado["TP_FAIXA_ETARIA"].hist(bins=30)
plt.title("Distribuição por Faixa Etária")
plt.xlabel("Faixa Etária")
plt.ylabel("Número de Participantes")
plt.show()
# Distribuição por sexo
microdadoSelecionado["TP_SEXO"].hist()
plt.title("Distribuição por Sexo")
plt.show()
Conclusão
O que fizemos aqui foi apenas uma análise exploratória básica.
Mas com poucos comandos já conseguimos:
- acessar dados públicos,
- organizar tabelas,
- gerar estatísticas rápidas,
- e visualizar informações em gráficos.
Esse processo pode ser expandido para análises mais complexas:
- qualidade da educação por região,
- comparação de desempenho entre grupos,
- impacto de políticas públicas ao longo do tempo.
Os dados são aliados poderosos da cidadania e da democracia, e aprender a explorá-los é um passo essencial para qualquer pessoa interessada em ciência, tecnologia e sociedade.
Referências
- Cursos gratuitos do Governo Federal — Ciência de Dados
- Pesquisa sobre Ciência de Dados e Educação — Instituto Unibanco
- Escola Nacional de Administração Pública (ENAP) — Ciência de dados em políticas públicas (2022)
- Documentação oficial: