ClubEnsayos.com - Ensayos de Calidad, Tareas y Monografias
Buscar

Análisis Exploratorio


Enviado por   •  23 de Febrero de 2015  •  731 Palabras (3 Páginas)  •  186 Visitas

Página 1 de 3

El análisis exploratorio de datos (EDA), según unos, nueva rama de la estadística, según otros, una extensión de la estadística descriptiva, propugna un cambio de actitud y de enfoque metodológico ante el análisis de datos.

El EDA propugna que previo a cualquier análisis estadístico, es necesario un examen cualitativo de los datos, hay que comprender y reflexionar sobre la información que ellos contienen.

La estadística descriptiva clásica se ocupa de describir los datos a través de gráficos y de algunas medidas de tendencia central y de dispersión. El EDA tiene los mismos objetivos pero además pretende detectar anomalías o errores en las distribuciones univariantes de los datos. También intenta descubrir patrones o modelos. Para ello incorpora nuevas técnicas gráficas y busca estadísticos resistentes y robustos basados en las estadísticas de orden y centrados en la mediana.

El EDA potencializa los índices de forma, y la utilización de gráficos, prácticamente, como un índice más, una gráfica bien realizada puede ser más informativa que un conjunto de números.

Estadística descriptiva

Frecuencias e histogramas

Supongamos que se tiene un conjunto de n observaciones , denominado muestra, de una variable aleatoria X o de una población !. Uno de los problemas es conocer la distribución de la muestra. Con este fin se divide a la muestra en rangos o clases continuas de igual longitud, sean los rangos.

Frecuencia relativa

La frecuencia relativa de la clase rj es:

Si la muestra es aleatoria y n es suficientemente grande, se puede hacer la siguiente aproximación

Es la probabilidad empírica (suma de frecuencias), mientras que P es la probabilidad teórica.

Histograma

El gráfico de las frecuencias relativas; en ordenadas los valores fj y en abscisas las clases rj, se denomina histograma. Es claro que la forma del histograma depende del número de clases, no deben ser muchas ni muy pocas. No existe una regla que determine el número de clases, en general deben ser alrededor de y no menos de 5.

Función de distribución (empírica)

También se define la función de distribución acumulada

Donde uno de los pilares de la estadística clásica es la convergencia de la distribución empírica hacia la distribución teórica.

Medidas de tendencia central y de dispersión

Media

Es el índice clásico de tendencia central. Se define por:

Moda

Es el valor o los valores más frecuentes.

Su uso es restringido porque pueden existir varias modas o su frecuencia puede ser irrelevante con respecto a la frecuencia de los otros datos, en especial cuando los datos son de tipo continuo. Si en el ejemplo anterior, calculamos la frecuencia de cada uno de los salarios, vemos que todos tienen la misma frecuencia, no existe una moda, pero si consideramos los 5 rangos de salarios, existe uno que es claramente modal, el primero.

Varianza

Es una medida de dispersión, en promedio, mide como se alejan los datos de la media. Su definición es:

Desviación estándar

El problema de la varianza es que sus unidades están elevadas al cuadrado, por ejemplo si calculamos la varianza de los salarios tendríamos dólares al cuadrado, lo que no tiene mucho sentido. Por esta razón, se acostumbra calcular la raíz cuadrada de la varianza, lo que se denomina desviación estándar.

Coeficiente de variación

Es una medida adimensional de la dispersión. Es la dispersión con respecto a la media, su fórmula es:

Ejemplo. Para los 15 salarios se tiene:

Tanto la desviación estándar como el coeficiente de variación ponen en evidencia que la dispersión es muy grande, la desviación estándar es 1.15 veces la media. Existen salarios muy bajos y salarios muy altos.

Algunos índices EDA

Los índices EDA se clasifican en:

• Localización: corresponderían a los índices de posición y tendencia central clásicos, indicando los valores límites y promedios de la distribución.

• Dispersión: indican el grado de agrupación o disgregación en la distribución. Cuanto menor sea su valor, más información aportaran los índices de localización.

• Forma: evalúan la forma de la distribución de los datos desde ejes verticales (simetría) y desde ejes horizonta-les (curtosis).

• Gráficos: mostraran las agrupaciones internas de los valores e indicarán los índices que mejor representan a la distribución.

* Objetivo general

Identificar características en losdatos que permitan realizar una interpretación de su significado y en consecuencia la construcción de conclusiones, hipótesis, conjeturas y preguntas.

* Objetivos específicos

Indicar cuáles son las etapas a seguir en la realización de un A.E.D.

Seleccionar los métodos gráfico y numérico apropiados para examinar las características de los datos y/o relaciones de interés.

Comprobar si se verifican algunas hipótesis de interés en los datos (normalidad, linealidad, homocedasticidad).

Identificar casos atípicos univariantes, bivariantes y multivariantes.

Comprender los diferentes tipos de datos ausentes y evaluar su impacto potencial.

...

Descargar como  txt (5 Kb)  
Leer 2 páginas más »
txt