ClubEnsayos.com - Ensayos de Calidad, Tareas y Monografias
Buscar

COMPRENSIÓN DE LOS DATOS


Enviado por   •  24 de Agosto de 2022  •  Biografías  •  1.636 Palabras (7 Páginas)  •  38 Visitas

Página 1 de 7

COMPRENSIÓN DE LOS DATOS

¡Bienvenido(a) a Metodología de la Ciencia de Datos 101 De la Comprensión a la Preparación! Comprensión de los Datos. La comprensión de los datos involucra todas las actividades de construcción de un conjunto de datos. 

En esencia, la sección de comprensión de los datos de la metodología de la ciencia de datos responde a esta pregunta: ¿Los datos que recolectaste son representativos del problema a resolver? Apliquemos la etapa de comprensión de los datos de nuestra metodología, al estudio de caso que hemos venido examinando. 

Para comprender los datos relacionados con admisiones por insuficiencia cardíaca, se debía correr estadísticas descriptivas frente a las columnas de datos que se volverían variables en el modelo. 

Primero, estas estadísticas incluyeron Hearst, univariantes y estadísticas en cada variable tales como media, mediana, mínimo, máximo y desviación estándar. 

Segundo, se usaron correlaciones por pares, para ver qué tan cerca se relacionaban ciertas variables, y cuáles, si las había, estaban muy altamente correlacionadas, de modo que serían esencialmente redundantes, haciendo que sólo una fuera relevante para el modelado. 

Tercero, se examinaron histogramas de las variables para entender sus distribuciones. Los histogramas son un buen modo de entender cómo se distribuyen los valores de una variable, y cuáles tipos de preparación se necesitarían para volver la variable más útil en un modelo. 

Por ejemplo, para que una variable categórica con demasiados valores distintos sea informativa en un modelo, el histograma les ayudaría a decidir cómo consolidar esos valores. Univariantes, estadísticas e histogramas también se usan para evaluar la calidad de los datos. 

Con la información conseguida, ciertos valores pueden recodificarse o incluso descartarse de ser necesario, como cuando cierta variable tiene demasiados valores faltantes. La pregunta es, entonces, ¿"faltante" significa algo? 

A veces un valor faltante puede significar "no", o "0" (cero), o en ocasiones sólo significa "no sabemos". O, si una variable contiene valores inválidos o confusos, tales como una variable numérica llamada "edad" que contiene 0 a 100 y también 999, donde ese "triple-9" realmente significa "faltante", pero se trataría como un valor válido a menos que lo corrigiéramos. 

Inicialmente, el significado de admisión por insuficiencia cardíaca se decidió sobre la base de un diagnóstico primario de insuficiencia cardíaca. Pero al avanzar en la etapa de comprensión de los datos se reveló que la definición inicial no capturaba todas las admisiones por insuficiencia cardíaca que se esperaban, según la experiencia clínica. 

Esto implicó volver a la etapa de recolección de datos y agregar diagnósticos secundarios y terciarios, construyendo una definición más completa de la admisión por insuficiencia cardíaca. 

Este sólo es un ejemplo de los procesos interactivos de la metodología. 

Entre más se trabaja con el problema y los datos, más se aprende y por lo tanto más 

refinamientos pueden hacerse dentro del modelo, llevando en últimas a una mejor solución del problema. Aquí termina la sección de Comprensión de los Datos de este curso. 

¡Gracias por tu atención!

PREPARACIÓN DE DATOS- CONCEPTOS

¡Bienvenido(a) a Metodología de la Ciencia de Datos 101 De la Comprensión a la Preparación! Preparación de Datos. 

- ¡Conceptos! 

En cierta forma, la preparación de datos se parece a lavar los vegetales recién elegidos pues elimina los elementos indeseados, como la tierra e imperfecciones. 

Junto con la recolección de datos y la comprensión de datos, la preparación de datos es la fase más dispendiosa de un proyecto de ciencia de datos, ocupando por lo general el setenta por ciento y aún el noventa por ciento del tiempo total del proyecto. Automatizar algunos procesos de recolección y preparación de datos en la base datos puede reducir este tiempo a tan sólo el 50 por ciento. 

Este ahorro se traduce en más tiempo para que los científicos de datos se centren en crear modelos. 

Continuando con la metáfora culinaria, sabemos que el proceso de cortar cebollas 

en trozos más pequeños permitirá que su sabor se esparza por la salsa más fácil que 

si dejáramos caer la cebolla entera en la olla de la salsa. Así mismo, transformar los datos en la etapa de preparación es el proceso de llevar los datos a un estado en que sea más fácil trabajar con ellos. 

En particular, la etapa de preparación de datos de la metodología responde a esto: ¿Cuáles son los modos de preparación de los datos? 

Para trabajar efectivamente con datos, deben prepararse de una forma que aborde los datos faltantes o inválidos y remueva duplicados, para asegurar que todo está debidamente formateado. 

La ingeniería de características también es parte de la preparación de datos. 

Es el proceso de usar conocimiento del dominio de los datos para crear características que hagan funcionar algoritmos de aprendizaje automático

Una característica es una propiedad que puede ayudar a resolver un problema. 

Las características de los datos son importantes en los modelos predictivos e influyen en los resultados que quieras conseguir. 

La ingeniería de características es crítica al aplicar herramientas de aprendizaje automático para analizar los datos. 

Al trabajar con texto, se necesitan pasos de análisis textual para codificar los datos y así poder manipular los datos. El científico de datos debe saber qué está buscando en su conjunto de datos para abordar la pregunta. 

El análisis textual es crucial para fijar las agrupaciones apropiadas, y asegurar que la 

programación no pase por alto lo que se oculta en el interior. 

La fase de preparación de datos prepara el terreno para los próximos pasos en torno a la pregunta. Si bien esta fase puede ser demorada, si se hace bien los resultados respaldarán el proyecto. Si se deja de lado, el resultado no estará a la altura y podría obligarte a comenzar desde cero. 

...

Descargar como (para miembros actualizados)  txt (10.7 Kb)   pdf (45.5 Kb)   docx (409.5 Kb)  
Leer 6 páginas más »
Disponible sólo en Clubensayos.com