Este repositório reúne os notebooks desenvolvidos durante o módulo de
Coleta de Dados do curso de Análise de Dados – EBAC.
O foco foi aprender a acessar, extrair e organizar dados de diferentes
fontes, estruturadas e não estruturadas, utilizando bibliotecas Python e
serviços externos.
Demonstrar como coletar dados de forma automatizada e eficiente, respeitando
a estrutura de cada fonte.
As atividades envolveram desde web scraping até integração com bancos de
dados e APIs.
- Requisições HTTP simulando navegadores reais
- Interpretação de HTML com BeautifulSoup
- Extração de títulos, parágrafos, links e tabelas
- Conversão de conteúdo web em DataFrames
- Simulação de dados realistas como nome, CPF, endereço, e-mail e telefone
- Uso de
Fakercom localização brasileira (pt_BR) - Exportação para CSV para uso em análises e testes
- Acesso a dados reais via
PyMySQLeSQLAlchemy - Execução de queries SQL e transformação em DataFrames
- Exportação para Excel, CSV e JSON
- Envio de arquivos para GoFile.io usando
requests - Recuperação de arquivos via URL pública
- Automação de processos de armazenamento e compartilhamento
Além dos notebooks interativos, este repositório inclui scripts .py que replicam as etapas de tratamento de dados de forma automatizada.
Esses scripts são úteis para:
- Executar o pré-processamento em ambientes fora do Jupyter
- Integrar a coleta de dados
- Reutilizar funções e lógicas da coleta com maior eficiência
requests– acesso a páginas web e APIsBeautifulSoup– interpretação de HTMLFaker– geração de dados sintéticospymysqlesqlalchemy– conexão com banco de dadospandas– manipulação e exportação de dadospathlib– gerenciamento de caminhos de arquivos
- A coleta de dados é uma etapa estratégica que exige atenção à estrutura, formato e origem das informações.
- Cada fonte seja ela web, banco, API ou simulação exige uma abordagem específica e cuidados técnicos.
- Automatizar a coleta permite escalar projetos e garantir consistência na entrada de dados.
- Documentar o processo é essencial para reprodutibilidade e colaboração.
Este repositório contém notebooks e scripts com técnicas de coleta de dados em diferentes contextos: web scraping, geração sintética, integração com bancos de dados e APIs.
Você pode explorar o conteúdo de duas formas:
Cada notebook está organizado por tema e pode ser executado individualmente em ambiente Jupyter. Eles incluem explicações passo a passo e exemplos práticos.
Os scripts .py automatizam os processos demonstrados nos notebooks, permitindo a execução rápida.
Para executar os scripts:
- Clone o repositório:
git clone https://github.com/seu-usuario/nome-do-repositorio.git cd nome-do-repositorio - Instale as dependências:
pip install -r requirements.txt
Os arquivos .csv, .xlsx e .json gerados serão salvos na pasta data/, conforme o fluxo de coleta.
Sou uma profissional em formação em Análise de Dados com foco em Python. Este repositório demonstra minhas habilidades práticas na coleta, tratamento e automação de dados de diversas fontes