Skip to content
This repository was archived by the owner on Jan 29, 2026. It is now read-only.

Latest commit

 

History

History
202 lines (135 loc) · 5.1 KB

File metadata and controls

202 lines (135 loc) · 5.1 KB

Instalación de CiberWebScan

Aviso Importante: Este software está diseñado exclusivamente para pruebas de seguridad autorizadas y uso educativo. No lo utilice en sistemas ajenos sin permiso explícito por escrito.

Requisitos Previos

  • Python 3.8 o superior
  • Git (opcional, solo para desarrollo)
  • Navegador Chrome o Chromium (requerido para el renderizado dinámico)
  • ChromeDriver

Métodos de Instalación

1. Método Recomendado: Instalación con pyproject.toml

# 1. Clonar el repositorio
git clone https://github.com/HC-ONLINE/CiberWebScan.git
cd web-scraping

# 2. Crear y activar entorno virtual (recomendado)
python -m venv venv

# En Windows:
venv\Scripts\activate
# En Linux/Mac:
source venv/bin/activate

# 3. Instalar en modo desarrollo
pip install -e .

2. Instalación con Script Automático (alternativa)

# Ejecutar el script de instalación
python install.py

Este script verifica los requisitos e instala el paquete en modo desarrollo.

3. Instalación con Dependencias Adicionales (Opcional)

# Para desarrollo (incluye herramientas de prueba y documentación)
pip install -e .[dev]

# Para funcionalidades de seguridad avanzadas
pip install -e .[security]

Verificación de la Instalación

Verifica que la instalación fue exitosa ejecutando:

ciberwebscan --help

Deberías ver la ayuda del comando con todas las opciones disponibles.

Configuración Inicial

Para configurar las fuentes de CVEs y otras opciones, consulta el archivo CONFIGURATION.md.

Uso Básico

Comandos Principales

# Scraping básico
ciberwebscan scrape --url https://example.com --selector "h1"

# Scraping con exportación a CSV
ciberwebscan scrape --url https://example.com --selector ".product" --export csv

# Scraping con renderizado dinámico (JavaScript)
ciberwebscan scrape --url https://example.com --selector ".dynamic-content" --dynamic

# Limpieza de archivos temporales
ciberwebscan cleanup

# Gestión de caché
ciberwebscan cache --action stats

Ejemplos Avanzados

# Scraping con paginación
ciberwebscan scrape --url https://example.com --selector ".item" --pagination-selector "a.next" --pagination-limit 5

# Scraping con headers personalizados
ciberwebscan scrape --url https://example.com --selector "h1" --headers "User-Agent: CustomBot, Accept: text/html"

# Scraping estructurado con esquema
ciberwebscan scrape --url https://example.com --selector ".product" --extract-schema structured_schemas/ejemplo.json

Ejecución sin instalación (usando solo pyproject.toml)

Si prefieres no instalar el paquete, puedes ejecutar el proyecto directamente desde el código fuente. Este método es ideal para desarrollo o pruebas rápidas sin afectar tu entorno global.

Requisitos previos

  • Python 3.8 o superior
  • Git (opcional, solo si clonas el repositorio)
  • Navegador web moderno (para la interfaz web)

Instrucciones paso a paso

  1. Obtén el código fuente:

    # Opción 1: Clona el repositorio
    git clone https://github.com/HC-ONLINE/CiberWebScan.git
    cd web-scraping
    
    # Opción 2: O descarga el código como ZIP y descomprímelo
  2. Crea y activa un entorno virtual (altamente recomendado):

    # En Windows
    python -m venv venv
    .\venv\Scripts\activate
    
    # En Linux/Mac
    python3 -m venv venv
    source venv/bin/activate
  3. Instala solo las dependencias básicas (sin instalar el paquete):

    # Instala las dependencias del proyecto
    pip install -e .
    
    # Alternativa: Instalar solo las dependencias principales
    pip install beautifulsoup4 flask selenium python-dotenv httpx lxml pyOpenSSL cryptography typer rich
  4. Configura las variables de entorno (opcional): Crea un archivo .env en la raíz del proyecto con configuraciones personalizadas:

    FLASK_APP=app.py
    FLASK_ENV=development
  5. Ejecuta la aplicación según tus necesidades:

    Opción A: Interfaz web

    python app.py

    Luego abre tu navegador en http://localhost:5000

    Opción B: Línea de comandos (CLI)

    python -m cli analyze --url https://ejemplo.com

    Opción C: Usando el módulo Python

    from services.scraping_service import realizar_scraping
    
    results = realizar_scraping({"url_input": "https://ejemplo.com"})
    print(results)

Notas importantes

  • Al ejecutar sin instalación, el comando ciberwebscan no estará disponible globalmente.
  • Para usar comandos CLI, debes usar python -m cli en lugar de ciberwebscan.
  • Asegúrate de tener instalado Chrome o Chromium para el modo headless.
  • Si encuentras errores de dependencias faltantes, instálalas manualmente con pip install nombre-del-paquete.

Solución de Problemas

Si encuentras algún problema durante la instalación o el uso, consulta la guía de errores comunes.

Desarrollo

Ejecutar la Aplicación Web

python app.py

Accede a la interfaz web en http://127.0.0.1:5000/

Ejecutar Pruebas

pytest