REPRESENTACION DE DATOS DE DOS VARIABLES

Ricardo BlasEnsayo2 de Julio de 2016

1.919 Palabras (8 Páginas)7.210 Visitas

Página 1 de 8

Se hace referencia a dos variables cuando interesa investigar dos características de un mismo elemento de la población, es decir, se desea conocer si existe o no alguna relación entre esos dos aspectos o variables; por ejemplo: género y preferencia de programa televisivo, género y calificación obtenida en estadística, estatura y peso, tiempo dedicado a estudiar y calificaciones obtenidas, ingresos económicos y gastos vacacionales, tiempo destinado a ver televisión y tiempo durmiendo, cantidad de obreros y producción, entre otras más.

Las variables asociadas pueden ser cualitativas o cuantitativas, distinguiéndose los siguientes casos de datos bivariados:

Dos variables cualitativas.
Una variable cualitativa y otra cuantitativa.
Dos variables cuantitativas Dos variables cualitativas.

Al usar dos variables nominales, ordinales o combinadas, usualmente los datos se acomodan en una Tabla de contingencia o tabla cruzada para ser analizados.

Tablas de contingencia

Un método útil para clasificar los datos obtenidos en un recuento es mediante las tablas de contingencia. Se trata de tablas en cuyas celdas figuran probabilidades, y en la cual podemos determinar una probabilidad conociendo otras de la tabla.

Se representan estos valores en una tabla de doble entrada, llamada tabla de contingencia:[pic 1]

Cada fila y cada columna corresponden a una submuestra particular. La fila de índice “h” es la
distribución en d1……ds, de los individuos para los cuales el carácter x toma el valor Ch. La columna de índice k es la distribución sobre C1, …,C2, de los individuos para los cuales el carácter y toma el valor dk. Dividiendo las filas y las columnas por sus sumas, obtenemos en cada u na, distribuciones empíricas formadas por frecuencias condicionales. Para h=1……r y k=1…,s, las denotaremos:

[pic 2]

Estas distribuciones empíricas condicionales se llaman los perfiles-fila y perfiles-columna. La cuestión es estudiar la dependencia de los dos caracteres. Dos caracteres son independientes si el valor de uno no influye sobre la distribución de los valores del otro. Si este es el caso, los perfiles-fila diferirán muy poco de la distribución empírica de y , y los perfiles-columna de la de x :

[pic 3][pic 4]

Es equivalente a decir que las frecuencias conjuntas deben estar cerca de los productos de las frecuencias marginales:[pic 5]

Las frecuencias conjuntas, por un lado, y los productos de las frecuencias marginales por el otro, constituyen dos distribuciones de probabilidad sobre el conjunto producto {C1, … , Cr} X {d1,… , ds}. Una de las maneras de cuantificar su proximidad es calcular la distancia de chi-cuadrado de una con respecto a la otra. En este caso particular, hablamos de chi-cuadrado de contingencia.

Proposición 3.9 La distancia de chi-cuadrado de contingencia de la distribución empírica (fhk) a la distribución teórica (fh * fk) le: [pic 6][pic 7][pic 8][pic 9][pic 10]

Diagrama de dispersión

El diagrama de dispersión permite analizar si existe algún tipo de relación entre dos variables. Por ejemplo, puede ocurrir que dos variables estén relacionadas de manera que, al aumentar el valor de una, se incremente el de la otra. En este caso hablaríamos de la existencia de una correlación positiva. También podría ocurrir que al producirse una en un sentido, la otra derive en el sentido contrario; por ejemplo, al aumentar el valor de la variable x, se reduzca el de la variable y. Entonces, se estaría ante una correlación negativa. Si los valores de ambas variables se revelan independientes entre sí, se afirmaría que no existe correlación.

El diagrama de dispersión es una herramienta gráfica que ayuda a identificar la posible relación entre dos variables. Representa la relación entre dos variables de forma gráfica, lo que hace más fácil visualizar e interpretar los datos.

De otro lado, calculando el coeficiente de correlación entre dos variables, permite cuantificar el grado de relación entre ambas, así como su signo. El valor de este coeficiente puede estar comprendido entre −1 y 1.

Cuando toma un valor próximo a −1, la correlación es fuerte y negativa. Si el valor es cercano a +1, la correlación es fuerte y positiva.

Si el coeficiente de correlación lineal presenta un valor próximo a 0, la correlación es débil.

Un coeficiente de 0 indicaría independencia total entre ambas variables. A su vez, un coeficiente de correlación lineal de 1 ó de -1 señalaría que entre ambas variables hay dependencia funcional, positiva o negativa según el signo del coeficiente.

Esta correlación puede señalar, pero no por ello probar, una relación causal, es decir, no predice relaciones causa – efecto, sino que muestra la intensidad de la relación entre dos variables. Por lo tanto, es importante no apresurarse a obtener conclusiones sobre la relación entre las variables, ya que puede ser otra tercera que afecte a la relación.

Ejemplo de Diagrama de Dispersión

[pic 11]

En el diagrama de dispersión de ejemplo las variables a analizar son las puntuaciones medias obtenidas para los distintos factores del servicio, tanto en percepción (X) como en expectativas (Y), a partir de una muestra de usuarios de un servicio administrativo a los que se les administró una encuesta de satisfacción.

El cálculo del coeficiente de correlación lineal efectuado para los datos del ejemplo de diagrama de dispersión arroja un valor de 0,45. Se confirma que existe una relación positiva entre ambas variables, si bien la correlación existente entre ambas es moderada.

Correlación Lineal

En una distribución bidimensional puede ocurrir que las dos variables guarden algún tipo de relación entre sí.

Por ejemplo, si se analiza la estatura y el peso de los alumnos de una clase es muy posible que exista relación entre ambas variables: mientras más alto sea el alumno, mayor será su peso.

El coeficiente de correlación lineal mide el grado de intensidad de esta posible relación entre las variables. Este coeficiente se aplica cuando la relación que puede existir entre las variables es lineal (es decir, si representáramos en un gráfico los pares de valores de las dos variables la nube de puntos se aproximaría a una recta).

[pic 12][pic 13] [pic 14]

Los mejores cursos GRATIS

No obstante, puede que exista una relación que no sea lineal, sino exponencial, parabólica, etc. En estos casos, el coeficiente de correlación lineal mediría mal la intensidad de la relación las variables, por lo que convendría utilizar otro tipo de coeficiente más apropiado.

Para ver, por tanto, si se puede utilizar el coeficiente de correlación lineal, lo mejor es representar los pares de valores en un gráfico y ver qué forma describen.

El coeficiente de correlación lineal se calcula aplicando la siguiente fórmula:[pic 15]

Es decir:

Numerador: se denomina covarianza y se calcula de la siguiente manera: en cada par de valores (x,y) se multiplica la "x" menos su media, por la "y" menos su media. Se suma el resultado obtenido de todos los pares de valores y este resultado se divide por el tamaño de la muestra.

Denominador se calcula el producto de las varianzas de "x" y de "y", y a este producto se le calcula la raíz cuadrada.

Los valores que puede tomar el coeficiente de correlación "r" son: -1 < r < 1

Si "r" > 0, la correlación lineal es positiva (si sube el valor de una variable sube el de la otra). La correlación es tanto más fuerte cuanto más se aproxime a 1.

...

Descargar como (para miembros actualizados) txt (15 Kb) pdf (367 Kb) docx (1 Mb)

Leer 7 páginas más »

Leer documento completo Guardar

Disponible sólo en Clubensayos.com