El presente trabajo analiza las características de las viviendas de la ciudad de Ames, Iowa, con el objetivo de identificar las razones por las que ciertas zonas presentan menos ventas y proyectar la cantidad de casas que se venderán en el año 2010 en cada vecindario. Se emplearon técnicas de análisis exploratorio, visualización de datos y Machine Learning (Random Forest) para realizar la proyección y detectar las zonas con mayor potencial inmobiliario. Los resultados muestran diferencias significativas entre las zonas comerciales y residenciales, aportando insumos útiles para el sector inmobiliario y la planificación urbana.
La predicción de ventas de viviendas y el análisis de factores que influyen en el éxito comercial de diferentes zonas urbanas es un tema de interés tanto para agentes inmobiliarios como para planificadores urbanos. En este estudio, se utiliza el reconocido dataset de Ames Housing para analizar las características principales que afectan las ventas y proyectar el comportamiento para el año 2010. Además, se emplea Machine Learning como herramienta predictiva y de apoyo al análisis.
A continuación, se resumen los pasos principales realizados para limpiar y transformar los datos del proyecto:
- Se importó el archivo de datos
train.csvutilizando la libreríapandas. - Se realizó una inspección básica del dataset con funciones como
.head(),.info()y.describe()para entender la estructura de los datos y detectar valores faltantes o anómalos.
- Eliminación de columnas irrelevantes:
Se eliminaron variables con alta proporción de valores nulos o que no aportaban valor analítico, tales comoPoolQC,MiscFeature,Alley, entre otras. - Eliminación de outliers:
Se identificaron y removieron registros con valores extremos en variables clave comoGrLivArea, para evitar distorsión en el análisis y en los modelos predictivos. - Manejo de valores nulos:
- Para variables numéricas, los valores faltantes se reemplazaron por la mediana o media de la columna.
- Para variables categóricas, se usó la moda o un valor específico ("None") para los nulos.
- Codificación de variables categóricas:
- Se aplicó Label Encoding para convertir categorías en valores numéricos.
- En algunos casos, se utilizó One-Hot Encoding para variables con pocas categorías distintas.
- Creación de variables derivadas:
- Se generaron nuevas variables combinando o transformando columnas existentes, como la antigüedad de la vivienda (
YearSold - YearBuilt) o superficies totales.
- Se generaron nuevas variables combinando o transformando columnas existentes, como la antigüedad de la vivienda (
- Estandarización/Normalización:
- Se normalizaron algunas variables numéricas para que fueran compatibles con los algoritmos de Machine Learning.
- Se seleccionaron únicamente las variables relevantes para el análisis, descartando aquellas que generaban ruido o duplicidad.
- Se separaron los datos en variables predictoras (
X) y variable objetivo (y). - En etapas de modelado, se dividieron los datos en conjuntos de entrenamiento y prueba (train/test split).
- Se realizó análisis exploratorio para identificar correlaciones y patrones relevantes.
- Se almacenaron datasets limpios y transformados en archivos auxiliares para su reutilización.
Se realizó una comparación entre la zona "C (all)" (comercial) y las zonas residenciales, evaluando métricas como:
-
Cantidad de casas vendidas
-
Superficie habitable promedio
-
Precio promedio de venta
-
Calidad y condición promedio
-
Año promedio de construcción
Los resultados se presentaron en gráficos de barras horizontales, uno por cada característica, mostrando comparativamente la situación de cada zona.
Para la proyección de ventas en el año 2010, se empleó un modelo Random Forest Regressor, utilizando como variables predictoras:
-
Promedios históricos de características físicas y económicas por zona
-
Cantidad de ventas previas
-
Codificación de la zona
Se entrenó el modelo con datos hasta 2009 y se proyectó el número de ventas por zona para el año 2010.
El análisis comparativo mostró que la zona "C (all)", al ser comercial, tiene significativamente menos ventas, precios y calidad de viviendas, en contraste con las zonas residenciales que presentan mejores valores en todas las métricas analizadas.
El modelo de Machine Learning permitió proyectar la cantidad de casas vendidas en 2010 por zona, identificando los cinco vecindarios con mayores ventas proyectadas.
Se graficó la proyección de ventas por zona y se identificaron las zonas con mayor y menor potencial para el año proyectado.
El análisis evidenció la importancia de la zonificación urbana y las características físicas de las viviendas en el volumen de ventas. Las zonas residenciales superan ampliamente en ventas a la zona comercial "C (all)", lo cual se atribuye tanto a la oferta disponible como a la demanda del mercado. La utilización de modelos predictivos de Machine Learning refuerza la capacidad de anticipar tendencias y apoyar la toma de decisiones.
-
La zona "C (all)" vende menos casas debido a su carácter comercial, baja oferta y menor atractivo residencial.
-
Las zonas residenciales, en cambio, presentan mejores proyecciones de ventas y condiciones habitacionales.
-
El Machine Learning es una herramienta eficaz para proyectar tendencias de ventas y aportar al análisis urbano.
Este estudio es relevante porque integra el análisis exploratorio, la visualización y la modelización predictiva, brindando una herramienta práctica para la toma de decisiones en el sector inmobiliario y la planificación urbana. Además, demuestra la aplicabilidad del Machine Learning en contextos urbanos y su valor para la predicción de tendencias de mercado.
Ames Housing Data. (2018). Kaggle. https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data
Pedregosa, F., et al. (2011). Scikit-learn: Machine Learning in Python. Journal of Machine Learning Research, 12, 2825–2830.