ClubEnsayos.com - Ensayos de Calidad, Tareas y Monografias
Buscar

Análisis Exploratorio

23 de Febrero de 2015

731 Palabras (3 Páginas)230 Visitas

Página 1 de 3

El análisis exploratorio de datos (EDA), según unos, nueva rama de la estadística, según otros, una extensión de la estadística descriptiva, propugna un cambio de actitud y de enfoque metodológico ante el análisis de datos.

El EDA propugna que previo a cualquier análisis estadístico, es necesario un examen cualitativo de los datos, hay que comprender y reflexionar sobre la información que ellos contienen.

La estadística descriptiva clásica se ocupa de describir los datos a través de gráficos y de algunas medidas de tendencia central y de dispersión. El EDA tiene los mismos objetivos pero además pretende detectar anomalías o errores en las distribuciones univariantes de los datos. También intenta descubrir patrones o modelos. Para ello incorpora nuevas técnicas gráficas y busca estadísticos resistentes y robustos basados en las estadísticas de orden y centrados en la mediana.

El EDA potencializa los índices de forma, y la utilización de gráficos, prácticamente, como un índice más, una gráfica bien realizada puede ser más informativa que un conjunto de números.

Estadística descriptiva

Frecuencias e histogramas

Supongamos que se tiene un conjunto de n observaciones , denominado muestra, de una variable aleatoria X o de una población !. Uno de los problemas es conocer la distribución de la muestra. Con este fin se divide a la muestra en rangos o clases continuas de igual longitud, sean los rangos.

Frecuencia relativa

La frecuencia relativa de la clase rj es:

Si la muestra es aleatoria y n es suficientemente grande, se puede hacer la siguiente aproximación

Es la probabilidad empírica (suma de frecuencias), mientras que P es la probabilidad teórica.

Histograma

El gráfico de las frecuencias relativas; en ordenadas los valores fj y en abscisas las clases rj, se denomina histograma. Es claro que la forma del histograma depende del número de clases, no deben ser muchas ni muy pocas. No existe una regla que determine el número de clases, en general deben ser alrededor de y no menos de 5.

Función de distribución (empírica)

También se define la función de distribución acumulada

Donde uno de los pilares de la estadística clásica es la convergencia de la distribución empírica hacia la distribución teórica.

Medidas de tendencia central y de dispersión

Media

Es el índice clásico de tendencia central. Se define por:

Moda

Es el valor o los valores más frecuentes.

Su uso es restringido porque pueden existir varias modas o su frecuencia puede ser irrelevante con respecto a la frecuencia de los otros datos, en especial cuando los datos son de tipo continuo. Si en el ejemplo anterior, calculamos la frecuencia de cada uno de los salarios, vemos que todos tienen la misma frecuencia, no existe una moda, pero si consideramos los 5 rangos de salarios, existe uno que es claramente modal, el primero.

Varianza

Es una medida de dispersión, en promedio, mide como se alejan los datos de la media. Su definición es:

Desviación estándar

El problema de la varianza es que sus unidades están elevadas al cuadrado, por ejemplo si calculamos la varianza de los salarios tendríamos dólares al cuadrado, lo que no tiene mucho sentido. Por esta razón, se acostumbra calcular la raíz cuadrada de la varianza, lo que se denomina desviación estándar.

Coeficiente de variación

Es una medida adimensional de la dispersión. Es la dispersión con respecto a la media, su fórmula es:

Ejemplo. Para los 15 salarios se tiene:

Tanto la desviación estándar como el coeficiente de variación ponen en evidencia que la dispersión es muy grande, la desviación estándar es 1.15 veces la media. Existen salarios muy bajos y salarios muy altos.

Algunos índices EDA

...

Descargar como (para miembros actualizados) txt (5 Kb)
Leer 2 páginas más »
Disponible sólo en Clubensayos.com