Trabajo final de Big Data
Jair Alfredo Sanchez JaraInforme16 de Octubre de 2025
682 Palabras (3 Páginas)27 Visitas
BIG DATA 5 - Introducción a la utilización práctica de los datos masivos
Proyecto Capstone
Informe final
1. Objetivo del proyecto
El objetivo de este proyecto Capstone es aplicar técnicas de análisis de datos masivos para la clasificación automática de galaxias a partir de datos del Sloan Digital Sky Survey (SDSS). Se busca demostrar el uso práctico de herramientas de Big Data y Machine Learning para reducir, analizar y clasificar grandes volúmenes de información astronómica.
2. Criterio de clasificación de las galaxias
Las galaxias se pueden clasificar por su forma en dos grandes categorías: espirales y elípticas. Las espirales presentan brazos curvados que rodean un núcleo brillante, mientras que las elípticas tienen una forma más redondeada y homogénea, sin brazos definidos.
Para distinguirlas, se utilizan parámetros fotométricos y espectroscópicos que reflejan su estructura y brillo. Una de las dificultades principales en esta clasificación automática es la superposición de valores entre tipos, lo que requiere el uso de algoritmos de aprendizaje supervisado para mejorar la precisión.
3. Descripción de los datos y las herramientas usadas
Los ficheros utilizados provienen del SDSS y contienen parámetros espectroscópicos y fotométricos. Los principales ficheros analizados fueron 'SDSS_SpecObj.csv' y 'SDSS_PhotObj.csv'. El primero contiene identificadores, valores de redshift, plate, mjd, fiberid y clase, mientras que el segundo incluye coordenadas RA y DEC en grados y magnitudes de brillo en distintos filtros.
Las herramientas utilizadas fueron Python, Pandas, NumPy, Matplotlib, Scikit-learn y PySpark. Se emplearon para exploración, limpieza, reducción de dimensionalidad y clasificación mediante regresión logística y redes neuronales.
4. Exploración de los datos
La exploración inicial permitió identificar valores nulos y duplicados en algunos registros. Los datos de los ficheros SpecObj y PhotObj comparten el campo 'objid', lo que permitió integrarlos. Las variables RA y DEC se almacenan en grados. Durante la exploración, se determinó que el archivo SpecObj tenía un tamaño aproximado de 1.8 MB tras su reducción y guardado en formato Parquet.
5. Modelización de los datos
La normalización de los datos se ejecuta para eliminar diferencias de escala entre variables y mejorar la convergencia de los modelos de aprendizaje. Se construyó un modelo de datos con campos normalizados que permitieron realizar las etapas de reducción de dimensionalidad y clasificación.
6. Creación del clasificador
6.1 PCA (Análisis de Componentes Principales)
Antes de comenzar la clasificación, se aplicó el método PCA para identificar los componentes con mayor varianza y reducir la dimensionalidad de los datos. Este proceso permite conservar la información más relevante. En el análisis se conservaron los componentes principales que explicaban la mayor parte de la varianza, siendo el valor máximo de la primera variable tras la transformación 5.3. El tamaño final del archivo PCA reducido fue de aproximadamente 1.8 MB.
6.2 Regresión Logística
Para entrenar el algoritmo de clasificación se dividieron los datos en dos grupos: un conjunto de entrenamiento (80%) y uno de prueba (20%). El algoritmo se entrenó utilizando los datos etiquetados del SDSS y obtuvo un porcentaje de acierto elevado. Según el modelo, se identificaron 6,299 galaxias espirales dentro del conjunto de datos no etiquetados. La curva ROC mostró un área bajo la curva (AUC) de aproximadamente 0.55, lo que indica un comportamiento ligeramente mejor que el azar. A pesar de ello, el modelo logra capturar relaciones lineales relevantes.
...