Análisis de datos. Análisis de una variable
Jorge Garrido GarciaResumen7 de Enero de 2020
2.977 Palabras (12 Páginas)175 Visitas
CLASE DÍA 15/10/2019
Análisis de una variable
Recuento | 40 |
Promedio | 25622,9 |
Mediana | 23092,0 |
Desviación Estándar | 7707,4 |
Coeficiente de Variación | 30,0801% |
Error Estándar | 1218,65 |
Mínimo | 15230,0 |
Máximo | 54800,0 |
Rango | 39570,0 |
Sesgo Estandarizado | 5,07546 |
Curtosis Estandarizada | 6,24752 |
Como el coeficiente de variación es menor que 75% la media es representativa
Como un dato sale supera 3 veces la longitud de la caja, se marca como dato disperso
Pauta para analizar datos:
Primero hacemos el análisis univariante y luego el análisis por subgrupo (que sigue siendo de una variable). Después al bivariante. Y finalmente multivariante.
Para ver la diferencia entre hombre y mujeres: datos numéricos – análisis de subgrupos – en códigos selecciono sexo.
Desviación | Coeficiente | Sesgo | ||||||
sexo | Recuento | Promedio | Estándar | de Variación | Mínimo | Máximo | Rango | Estandarizado |
h | 22 | 26920,6 | 7779,22 | 28,8969% | 18165,0 | 54800,0 | 36635,0 | 4,57572 |
m | 18 | 24036,9 | 7528,71 | 31,3215% | 15230,0 | 45791,0 | 30561,0 | 3,09694 |
Total | 40 | 25622,9 | 7707,4 | 30,0801% | 15230,0 | 54800,0 | 39570,0 | 5,07546 |
Curtosis | |
sexo | Estandarizada |
h | 7,11055 |
m | 2,7007 |
Total | 6,24752 |
Análisis bivariante: relacionar – un factor – regresión simple.
Análisis bivariante de dos atributos: describir – datos categóricos – tabulación cruzada.
Análisis multivariante:
Análisis previo para esto:
Primero análisis de datos perdidos (para los datos que faltan, por ejemplo, cuando una muestra no presenta algún valor para cualquiera de las variables, si no statgraphics no tendría en cuenta ese componente de la muestra). Se puede sustituir un valor, eliminarlo, etc.
Después se realiza un análisis de datos atípicos.
Para finalizar este análisis previo se realiza una verificación de hipótesis básica.
Por ejemplo, trabajando con Población, Densidad de Población, Edad Mediana, Porcentaje de Mujeres, Renta pc y Tasa de Criminalidad.
Describir – datos numéricos – análisis multivariado.
Correlaciones
Population | Population Density | Median Age | Percent Female | Per Capita Income | Crime rate | |
Population | 0,1992 | -0,1271 | 0,1469 | 0,2618 | 0,3511 | |
(50) | (50) | (50) | (50) | (50) | ||
0,1655 | 0,3792 | 0,3087 | 0,0663 | 0,0124 | ||
Population Density | 0,1992 | 0,2614 | 0,5328 | 0,6538 | 0,0804 | |
(50) | (50) | (50) | (50) | (50) | ||
0,1655 | 0,0667 | 0,0001 | 0,0000 | 0,5788 | ||
Median Age | -0,1271 | 0,2614 | 0,4487 | 0,1529 | -0,1833 | |
(50) | (50) | (50) | (50) | (50) | ||
0,3792 | 0,0667 | 0,0011 | 0,2891 | 0,2025 | ||
Percent Female | 0,1469 | 0,5328 | 0,4487 | 0,0763 | 0,0870 | |
(50) | (50) | (50) | (50) | (50) | ||
0,3087 | 0,0001 | 0,0011 | 0,5985 | 0,5479 | ||
Per Capita Income | 0,2618 | 0,6538 | 0,1529 | 0,0763 | 0,0851 | |
(50) | (50) | (50) | (50) | (50) | ||
0,0663 | 0,0000 | 0,2891 | 0,5985 | 0,5569 | ||
Crime rate | 0,3511 | 0,0804 | -0,1833 | 0,0870 | 0,0851 | |
(50) | (50) | (50) | (50) | (50) | ||
0,0124 | 0,5788 | 0,2025 | 0,5479 | 0,5569 |
El primer dato que da, es la correlación (por ejemplo, entre densidad de población y renta pc es de 0,6538, siendo esta una correlación fuerte por estar más cercana a 1, existe correlación)
El siguiente numero entre () es el tamaño de la muestra.
El último es un p_valor (valor de probabilidad).
La hipótesis nula seria que la correlación es 0, (Ho: pxy = 0).
La hipótesis alternativa alfa=0,05.
(se puede cometer el error de tipo 1, que es rechazar una hipótesis cuando es verdadera, se minimiza el error al 5%, de ahí que el nivel de confianza 1-alfa sea del 95%).
p_valor < alfa, se rechaza la hipótesis nula, al % de confianza, con la información muestral disponible.
Pulsando el botón de tablas y gráficas (el que pone dos veces tg en un cuadrado), añadimos ahora intervalo de confianza.
Intervalos de confianza del 95,0%
...