ClubEnsayos.com - Ensayos de Calidad, Tareas y Monografias
Buscar

Teoria De Alftha


Enviado por   •  9 de Diciembre de 2014  •  30.410 Palabras (122 Páginas)  •  183 Visitas

Página 1 de 122

MÉTODOS ESTADÍSTICOS MULTIVARIADOS

Elaboró: Dr. Primitivo Reyes Aguilar

Dic. 2006

CONTENIDO

1. Coeficiente de Cronbach

2. Métodos de análisis multivariado

3. ANOVA de K direcciones

4. Análisis multivariado de Varianza (MANOVA)

5. Análisis de Covarianza

6. Análisis Discriminante

7. Análisis de Conglomerados (Clusters)

8. Análisis Factorial

9. Análisis de Regresión Múltiple

1. COEFICIENTE DE CRONBACH

1. CÁLCULO DEL COEFICIENTE DE CONFIABILIDAD

(FIABILIDAD) ALFA-CRONBACH

Existen tres procedimientos para determinar el coeficiente “” o alfa :

1. Sobre la base de la varianza de los ítems, con la aplicación de la siguiente

fórmula:

En donde N representa el número de ítems de la escala, “s2 (Yi)” es igual a la sumatoria de las varianzas de los ítems y “s2x” equivale a la varianza de toda la escala.

2. Sobre la base de la matriz de correlación de los ítems, el procedimiento

sería:

a) Se aplica la escala.

b) Se obtienen los resultados.

c) Se calculan los coeficientes de correlación r de Pearson entre todos los ítems (todos contra todos de par en par).

d) Se elabora la matriz de correlación con los coeficientes obtenidos. Por

ejemplo:

Los coeficientes que se mencionan como “ya fue calculado”, se ubican en la

parte superior de las líneas horizontales (guiones). Es decir, cada coeficiente se incluye una sola vez y se excluyen los coeficientes que vinculan al ítem o

puntuación consigo misma (1 con 1, 2 con 2, 3 con 3 y 4 con 4).

3. Mediante otra fórmula que se basa en la correlación promedio

2. MÉTODOS DE ANÁLISIS MULTIVARIADO

2. LOS MÉTODOS DE ANÁLISIS MULTIVARIADO

Los métodos de análisis multivariado son aquellos en que se analiza la relación entre diversas variables independientes y al menos una dependiente. Son métodos más complejos que requieren del uso de computadoras para efectuar los cálculos necesarios

Entre las técnicas más comunes se encuentran (1) Análisis de componentes principales y factores comunes, (2) regresión y correlación múltiple, (3) análisis discriminante múltiple, (4) análisis multivariado de varianza y covarianza, (5) análisis conjunto, (6) correlación canónica, (7) análisis de clusters, (8) escala multidimensional. Otras técnicas nuevas incluyen (9) análisis de correspondencia, (10) modelos de probabilidad lineal tales como el logit y probit, y (11) modelos de ecuación simultaneas / estructurales. A continuación se describen brevemente éstas técnicas.

Análisis de componentes principales y de factores comunes

Es un método estadístico que puede usarse para analizar las interrelaciones entre un gran número de variables y explicar esas variables en términos de sus dimensiones subyacentes comunes. El objetivo es hallar la forma de sintetizar la información contenida en un número de variables originales, dentro de un conjunto más pequeño de variates (factores) con mínima pérdida de información.

Regresión múltiple

En un método de análisis adecuado cuando el problema de investigación involucra una variable dependiente única que se presume se relaciona a dos o más variables independientes medibles. El objetivo es predecir el cambio en la variable dependiente de respuesta con cambios en las variables independientes, normalmente con el método de mínimos cuadrados.

Por ejemplo se pueden predecir los montos gastados en cenas a partir de ingresos de las familias (variable dependiente), su tamaño, y la edad del padre (variables independientes).

Análisis discriminante múltiple (MDA)

Se aplica cuando la variable dependiente es dicotómica (vgr. hombre – mujer) o multitómica (vgr. Alto – medio – bajo) y por tanto no medible. Como en la regresión las variables independientes deben ser medibles. Se aplica cuando la muestra total se puede dividir en grupos con base en una variable no medible caracterizando varias clases conocidas. Su objetivo es comprender las diferencias entre grupos y predecir la probabilidad de que una entidad (objeto individual) pertenezca a una clase o grupo particular con base en varias variables independientes medibles o métricas.

Por ejemplo el análisis discriminante se puede utilizar para distinguir entre innovadores y no innovadores de acuerdo a su perfil demográfico y psicográfico.

Análisis multivariado de varianza y covarianza (MANOVA)

Es un método estadístico para explorar simultáneamente la relación entre varias variables categóricas independientes (referidas como tratamientos) y dos o más variables dependientes medibles o métricas. Es una extensión del ANOVA univariado. El análisis multivariado de covarianza (MANCOVA) se puede usar en conjunto con el MANOVA para remover (después del experimento) el efecto de cualquier variable métrica independiente no controlada (conocida como covariada) en la variable independiente.

Análisis conjunto

Se aplica a nuevos productos para evaluar la importancia de los atributos del nuevo producto así como los niveles de cada atributo, mientras que el consumidor evalúa solo unos pocos perfiles del producto como combinaciones de los niveles de producto.

Por ejemplo asumir un producto con tres atributos (precio, calidad y color), cada uno en tres niveles posibles (vgr. Rojo, amarillo y azul). En vez de tener que evalur las 27 combinaciones posibles (3x3x3), se evalúa un subconjunto de 9 o más combinaciones con base en su atractivo para el consumidor, de manera que el investigador no solo conozca la importancia de cada atributo, sino además la importancia de cada nivel (atractivo del rojo vs amarillo vs azul).

Correlación canónica

El análisis de correlación puede ser visto como una extensión lógica de la regresión múltiple. Donde se trata de correlacionar simultáneamente varias variables dependientes medibles o métricas y varias variables independientes medibles. El principio es establecer una combinación lineal de cada conjunto de variables (dependientes e independientes) para maximizar la correlación entre los dos conjuntos (obteniendo ponderacións adecuados para las variables).

Análisis de conglomerados (Clusters)

Es una técnica analítica para desarrollar sugrupos significativos de individuos u o objetos. Específicamente, el objetivo es clasificar una muestra de entidades (individuos u objetos) en un número más pequeño de grupos más pequeños con base en las similitudes entre entidades. A diferencia del análisis discriminante, los grupos no están definidos, más bien se usa para identificarlos.

Normalmente se realiza en tres pasos. El primero es la medición de alguna forma de similitud o asociación entre las entidades para identificar cuantos grupos realmente existen en la muestra. El segundo paso es el proceso en sí de conglomerados, donde las entidades se particionan en grupos (conglomerados o clusters). El paso final es perfilar las personas o variables para determinar su composición. Muchas veces esto último se realiza con el análisis discriminante.

Escala multidimensional

El objetivo es transformar los juicios del consumidor de similitud o preferencias (vgr. Preferencia por tiendas o marcas) en distancias representadas en un espacio multidimensional. Si los objetos A y B se juzgan por el consumidor como similares, comparados con cualquier otro par de objetos, la técnica posiciona los objetos A y B de manera que la distancia entre ellos en un espacio multidimensional es más pequeño que la distancia entre cualquier otro par de objetos. Al final se muestra un mapa perceptual con la posición relativa de los objetos.

Análisis de correspondencia

Facilita tanto la reducción dimensional de objetos en un conjunto de atributos y el mapa perceptual de objetos respecto a estos atributos. En su forma más elemental es una tabla de contingencia o tabulación cruzada de dos variables categóricas. Transforma los datos no métricos a un nivel medible y realiza una reducción dimensional (similar al análisis de factores) y un mapa perceptual (similar al análisis multidimensional).

Por ejemplo, las preferencias de marcas de los consumidores pueden ser tabuladas contra variables demográficas (vgr. Género, categorías de ingresos, ocupación) indicando cuanta gente prefiere cada una de las marcas que caen en cada categoría de las variables demográficas. Por medio del análisis de correspondencia, la asociación o “correspondencia” de marcas y las características distintivas de aquellos que prefieren las marcas se muestran en un mapa tridimensional o bidimensional tanto de marcas como de las características que distinguen a aquellos que prefieren cada marca.

Modelos de probabilidad lineal (Análisis Logit)

Son una combinación de regresión múltiple y análisis discriminante. Es similar al análisis de regresión múltiple excepto que la variable dependiente es categórica no métrica como en el análisis discriminante.

Modelos de ecuaciones estructurales

A veces se refiere como el nombre del software LISREL, es una técnica que permite separar las relaciones del conjunto de variables dependientes. En su forma más sencilla proporciona el modelo más adecuado y la técnica de estimación más eficiente para una serie de ecuaciones de regresión múltiple, evaluadas simultáneamente. Se caracteriza por dos componentes básicos: (1) el modelo estructural y (2) el modelo de medición.

El modelo estructural es la “vía” que relaciona variables dependientes e independientes. El modelo de medición permite al investigador a usar varias variables (indicadores) para una variable dependiente e independiente.

Los datos para HATCO son los siguientes:

Variables / Tipo

Percepciones / Medibles (Métricas)

X1 Tiempo de entrega - entrega del producto con la orden confirmada

X2 Nivel de precios - nivel de precio percibido ponderacióndo por proveedores

X3 Flexibilidad de precios - flexibilidad para negociar precios

X4 Imagen de la empresa - general

X5 Servicio en general - nivel necesario para mantener relaciones

X6 Imagen de la fuerza de ventas - general

X7 Calidad del producto – calidad percibida en desempeño o rendimiento

Resultados de compras / Medibles (Métricas)

X9 Nivel de utilización - que porcentaje de producto es surtido por Hatco

X10 Nivel de satisfacción – que tan satisfecho esta el cliente con Hatco

Características del comprador / No Medibles (No Métricas)

X8 Tamaño de la empresa - 1- Grande 0 - pequeño

X11 Especificación de compra - 1-Evalúa por el valor total y 0- especificación

X12 Estructura de abastecimiento – 1- centralizado 0 - descentralizado

X13 Tipo de industria - 1- industria A 0 – otras industrias

X14 Tipo de situación de compra – 1- nueva 2- modificada 0- tradicional

3. ANOVA DE K DIRECCIONES

3. ANOVA (análisis de varianza de k direcciones )

El ANOVA es similar a la regresión en el sentido de que se utiliza para investigar y modelar la relación entre una variable de respuesta y una o más variables independientes. Sin embargo, el ANOVA difiere de la regresión en dos aspectos: las variables independientes son cualitativas (categóricas), y no hay supuestos acerca de la naturaleza de la relación (o sea que el modelo no incluye coeficientes para variables). En efecto el ANOVA extiende la prueba de dos muestras con prueba t para probar la igualdad de dos poblaciones a una hipótesis más general al comparar más de dos medias, versus que no sean iguales.

Definición: Es una prueba estadística para evaluar el efecto de dos o más variables independientes sobre una variable dependiente.

Responde a esquemas como el que se muestra en la figura:

Constituye una extensión del análisis de varianza unidireccional, solamente

que incluye más de una variable independiente. Evalúa los efectos por separado de cada variable independiente y los efectos conjuntos de dos o más variables independientes.

Variables: Dos o más variables independientes y una dependiente.

Nivel de medición de las variables: La variable dependiente (criterio) debe estar

medida en un nivel por intervalos o razón, y las variables independientes (factores) pueden estar en cualquier nivel de medición, pero expresadas de manera categórica.

Interpretación y ejemplo

Hi: La similitud en valores, la atracción física y el grado de retroalimentación

positiva son variables que inciden en la satisfacción sobre la relación en parejas de novios.

Contexto: Muestra de parejas de adultos jóvenes (23-29 años), pertenecientes a estratos económicos altos (n=400).

El ANOVA efectuado mediante un paquete estadístico computacional como

SPSS produce los siguientes elementos básicos:

• Fuente de la variación (source of variation). Es el factor que origina variación en la dependiente. Si una fuente no origina variación en la dependiente, no tiene efectos.

• Efectos principales (main effects). Es el efecto de cada variable independiente

por separado; no está contaminado del efecto de otras variables iindependientes ni de error. Suele proporcionarse la suma de todos los efectos principales.

• Interacciones de dos direcciones (2-way interactions). Representa el efecto conjunto de dos variables independientes, aislado de los demás posibles efectos de las variables independientes (individuales o en conjuntos). Suele proporcionarse la suma de los efectos de todas estas interacciones.

• Interacciones de tres direcciones (3-way interactions). Constituye el efecto conjunto de tres variables independientes, aislado de otros efectos. Suele proporcionarse la suma de los efectos de todas estas interacciones.

• Puede haber efecto de K-direcciones, esto dependie del número de variables independientes.

En nuestro ejemplo, tenemos los resultados siguientes:

TABLA ANOVA

VARIABLE DEPENDIENTE: SATISFACCIÓN EN LA RELACIÓN

Fuente de variación Suma de cuadrados Grados de libertad Cuadrados medios Estadístico F Significancia de Fc = P

Efectos principales

(main effects 22.51 .001**

SIMILITUD 31.18 0.001**

ATRACCIÓN 21.02 0.001**

RETROALIM 11.84 0.004**

SIMILITUD ATRACCIÓN -4.32 0.04*

SIMILITUD

RETROALIM 2.18 0.11

ATRACCION

RETROALIM 1.56 0.190

SIN – RETROL-ATRACCION 8.01 0.02*

NOTA: Normalmente interesa saber si las razones “F” resultaron o no significativas; por tanto, sólo se incluyen estos valores. Se recomienda concentrarse en dichos valores y evitar confusiones. Desde luego, el investigador experimentado acostumbra estudiar todos los valores.

**— Razón “F” significativa al nivel del 0.01 (p < 0.01)

*—Razón “F” significativa al nivel del 0.05 (p < 0.05)

Como podemos ver en la tabla, la similitud, la atracción y la retroalimentación tienen un efecto significativo sobre la satisfacción en la relación.

Respecto a los efectos de dos variables independientes conjuntas, sólo la similitud y la atracción tienen un efecto, hay un efecto conjunto de las tres variables independientes. La hipótesis de investigación se acepta y la nula se rechaza. Asimismo, se recuerda al lector que en el capítulo 5 del presente disco: Otros diseños experimentales (en el apartado sobre diseños factoriales) se explica la noción de interacción entre variables independientes. Cabe agregar que el ANOVA es un método estadístico propio para los diseños experimentales factoriales.

Ejemplo:

Un experimento se realizó para probar cuanto tiempo toma usar un modelo nuevo y un modelo anterior de calculadora. Seis ingenieros trabajando en un problema estadístico y uno de ingeniería se les toma el tiempo para resolver el problema. Los ingenieros se consideran como bloques en el diseño experimental.

Hay dos factores: Tipo de problema y modelo de calculadora – cada uno con dos niveles, se hacen experimentos donde esos niveles de los factores se cruzan. Los datos se muestran a continuación:

SolveTime Engineer ProbType Calculator

3.1 Jones Stat New

7.5 Jones Stat Old

2.5 Jones Eng New

5.1 Jones Eng Old

3.8 Williams Stat New

8.1 Williams Stat Old

2.8 Williams Eng New

5.3 Williams Eng Old

3 Adams Stat New

7.6 Adams Stat Old

2 Adams Eng New

4.9 Adams Eng Old

3.4 Dixon Stat New

7.8 Dixon Stat Old

2.7 Dixon Eng New

5.5 Dixon Eng Old

3.3 Erickson Stat New

6.9 Erickson Stat Old

2.5 Erickson Eng New

5.4 Erickson Eng Old

3.6 Maynes Stat New

7.8 Maynes Stat Old

2.4 Maynes Eng New

4.8 Maynes Eng Old

Las instrucciones de Minitab son las siguientes:

1 Abrir la worksheet EXH_AOV.MTW.

2 Stat > ANOVA > Balanced ANOVA.

3 Responses, poner SolveTime.

4 Model, poner Engineer ProbType | Calculator.

5 En Random Factors, poner Engineer.

6 Click Results. En Display means corresponding to the terms, poner ProbType | Calculator. Click OK cada cuadro de diálogo.

Los resultados obtenidos son los siguientes:

ANOVA: SolveTime versus Engineer, ProbType, Calculator

Factor Type Levels Values

Engineer random 6 Adams, Dixon, Erickson, Jones, Maynes, Williams

ProbType fixed 2 Eng, Stat

Calculator fixed 2 New, Old

Analysis of Variance for SolveTime

Source DF SS MS F P

Engineer 5 1.053 0.211 3.13 0.039

ProbType 1 16.667 16.667 247.52 0.000

Calculator 1 72.107 72.107 1070.89 0.000

ProbType*Calculator 1 3.682 3.682 54.68 0.000

Error 15 1.010 0.067

Total 23 94.518

S = 0.259487 R-Sq = 98.93% R-Sq(adj) = 98.36%

Means

ProbType N SolveTime

Eng 12 3.8250

Stat 12 5.4917

Calculator N SolveTime

New 12 2.9250

Old 12 6.3917

ProbType Calculator N SolveTime

Eng New 6 2.4833

Eng Old 6 5.1667

Stat New 6 3.3667

Stat Old 6 7.6167

Interpretación de los resultados:

Se muestran los factores (fijos y aleatorios), niveles y valores. Después se muestra la tabla de ANOVA, donde se indica de acuerdo al valor P que hay una interacción significativa entre el tipo de problema y el modelo de calculadora, lo que implica que la reducción en tiempo de proceso de la calculadora depende del tipo de problema.

En la lista de promedios se observa un menor tiempo entre la calculadora nueva y la anterior.

4. ANÁLISIS MULTIVARIADO DE VARIANZA (MANOVA)

4. ANÁLISIS MULTIVARIADO DE VARIANZA (MANOVA)

Es un modelo para analizar la relación entre una o más variables independientes y dos o más variables dependientes. Es decir, es útil para estructuras causales del tipo:

La técnica posee varios usos, entre los que destacan:

- Evaluar diferencias entre grupos a través de múltiples variables dependientes (medidas por intervalos o razón). La(s) variable(s) independiente(s) es(son) categórica(s) (no métricas). Tiene el poder de evaluar no solamente las diferencias totales, sino diferencias entre las combinaciones de las dependientes.

En este sentido representa una extensión del análisis de varianza (ANOVA)

para cubrir casos donde hay más de una variable dependiente y/o cuando las variables dependientes simplemente no pueden ser combinadas. En otras

palabras, reconoce si los cambios en la(s) variable(s) independiente(s) tienen un efecto significativo en las dependientes. Señala qué grupos difieren en una variable o en el conjunto de variables dependientes.

- Identificar las interacciones entre las variables independientes y la asociación entre las dependientes.

Las tres clases principales del MANOVA son:

1) Hotelling's T. Es parecida a la prueba t (dos grupos) pero con más dependientes: una variable independiente dicotómica y varias dependientes.

2) MANOVA unidireccional. Análogo al ANOVA de una sola vía, pero con más dependientes: una variable independiente multicategórica y varias

dependientes.

3) MANOVA factorial. Similar al ANOVA factorial, solamente que con dos o más dependientes: varias independientes categóricas y varias dependientes.

Los modelos del MANOVA tienen en común que forman combinaciones lineales de las dependientes que discriminan mejor entre los grupos en un experimento o una situación no experimental. Es una prueba de significancia de las diferencias en los grupos en un espacio multidimensional donde cada dimensión está definida por combinaciones lineales del conjunto de variables dependientes.

Una pregunta que suele hacer el estudiante al revisar el MANOVA es ¿por qué no hacemos ANOVAS separados, uno para cada dependiente? La respuesta: las dependientes están correlacionadas muy frecuentemente, por lo cual los resultados de varios ANOVA pueden ser redundantes y difíciles de integrar. He aquí una síntesis de la explicación de Wiersma (1999) sobre este tipo de análisis:

Al incluir dos o más variables dependientes simultáneamente no se consideran las diferencias entre las medias en cada variable, sino las diferencias en variables canónicas. El interés no sólo es saber si los grupos definidos por las variables independientes difieren en las variables canónicas, sino conocer la naturaleza de éstas. Una variable canónica es una variable artificial generada a partir de los datos. Representa constructos y se compone de variables reales, las cuales deben ser descritas en términos de variables dependientes. Lo anterior se efectúa por medio de las ponderacións de los coeficientes de correlación entre una variable dependiente y una variable canónica. Si una ponderación entre la variable canónica y la dependiente es positiva y elevada, significa que altos valores en la dependiente se asocian con altos valores en la canónica. Por ejemplo, si una variable dependiente consiste en puntuaciones a una prueba sobre innovación, y dichas puntuaciones se correlacionan en forma considerable con una variable canónica, inferimos que la variable canónica representa un constructo que involucra esencialmente a la innovación.

En los cálculos que se hacen en el MANOVA, se generan variables canónicas hasta que se encuentra que no hay una diferencia estadística significativa entre las categorías o los grupos de las variables independientes; o bien, hasta que se agotan los grados de libertad de las variables independientes (lo que ocurra primero). El número de variables canónicas no puede exceder el número de variables dependientes, pero es común que el número de dependientes sea mayor que el de variables canónicas estadísticamente significativas o los grados de libertad.

La hipótesis general de investigación en el MANOVA postula que las medias de los grupos o las categorías de la(s) variable(s) independiente(s) difieren entre sí en las variables canónicas. La hipótesis nula postula que dichas medias serán iguales.

Se calculan diversas estadísticas para evaluar ambas hipótesis, entre las que destacan: F (total, toma en cuenta el modelo completo), la prueba Hotelling's TSquare, T2 (cuando hay dos grupos formados por las variables independientes), Wilks' lambda, U (cuando hay más de dos grupos formados por las variables independientes), y Pillai-Bartlett (cuando hay coeficientes canónicos); y si resultan significativas en un nivel de confianza, se acepta la hipótesis de investigación de diferencia de medias. Esto indica que hay, por lo menos, una variable canónica significativa (pero puede haber varias). Si diversas variables canónicas son significativas, esto muestra que se presentan diferencias en las variables canónicas en cuestión, entre los grupos o categorías de las independientes.

Los paquetes estadísticos que contiene el MANOVA suelen posicionar a los

grupos de las variables independientes por puntuaciones discriminantes; éstas son calculadas con una función discriminante, que es una ecuación de regresión para un compuesto de variables dependientes. A cada grupo se le asigna una puntuación discriminante en cada variable canónica. Las puntuaciones discriminantes de una variable independiente pueden ser cero o tener un valor positivo o negativo. Una puntuación discriminante positiva y elevada para un grupo, indica que éste se coloca por encima de los demás en la respectiva variable canónica. Y deben considerarse las ponderacións, las cuales son positivas o negativas. Las puntuaciones discriminantes son utilizadas para interpretar las separaciones de los grupos en las variables canónicas, en tanto que las ponderacións se usan para evaluar y ligar los resultados de las variables dependientes (Wiersma, 1999). Un ejemplo de las ponderacións de los coeficientes de correlación entre las variables dependientes y las variables canónicas así como las puntuaciones discriminantes se muestran en las tablas siguientes:

Como observamos en la última tabla, se obtuvieron tres constructos subyacentes en las puntuaciones recolectadas de la muestra: motivación intrínseca, atribución de causalidad externa y desempeño laboral. Vemos en la tabla que los grupos (niveles en la empresa) están separados en las tres variables canónicas (los grupos difieren), particularmente en la primera variable canónica (motivación intrínseca) y los obreros ocupan la posición más baja. Las variables dependientes enmarcadas en un recuadro en la primera variable canónica se ponderaciónn en ella; en consecuencia, los ejecutivos tienen las puntuaciones más altas en motivación intrínseca medida por la escala mencionada, en atribuciones internas y en sentimientos de éxito en el trabajo. Así se interpretan todas las variables canónicas y dependientes.

En el MANOVA se incluyen razones F y análisis de varianza. Algunos paquetes estadísticos agregan una prueba denominada correlación canónica, que es muy similar al MANOVA. Ésta es la máxima correlación que llega a obtenerse entre los conjuntos de puntuaciones y las relaciones entre las variables independientes, entre las variables dependientes y entre los conjuntos de ambas (dependientes e independientes) (Kerlinger, 1979). Las variables en el MANOVA y la correlación canónica asumen que las variables dependientes están medidas en un nivel de intervalos o razón. Tal correlación se interpreta como otras; pero el contexto de interpretación varía de acuerdo con el número de variables involucradas.

Ejemplo con Minitab

Se realiza un estudio para determinar las condiciones óptimas para extruir película plástica. Se miden tres respuestas – Tear, gloss y opacity – cinco veces en cada combinación de dos factores – tasa de extrusión y cantidad de aditivo – cada grupo se pone en niveles bajos y altos. Se utiliza el MANOVA balanceado para probar la igualdad de las medias.

DATOS

Tear Gloss Opacity Extrusion Additive

6.5 9.5 4.4 1 1

6.2 9.9 6.4 1 1

5.8 9.6 3 1 1

6.5 9.6 4.1 1 1

6.5 9.2 0.8 1 1

6.9 9.1 5.7 1 2

7.2 10 2 1 2

6.9 9.9 3.9 1 2

6.1 9.5 1.9 1 2

6.3 9.4 5.7 1 2

6.7 9.1 2.8 2 1

6.6 9.3 4.1 2 1

7.2 8.3 3.8 2 1

7.1 8.4 1.6 2 1

6.8 8.5 3.4 2 1

7.1 9.2 8.4 2 2

7 8.8 5.2 2 2

7.2 9.7 6.9 2 2

7.5 10.1 2.7 2 2

7.6 9.2 1.9 2 2

Instrucciones de Minitab

1 Abrir el archivo EXH_MVAR.MTW.

2 Seleccionar Stat > ANOVA > Balanced MANOVA.

3 En Responses, poner Tear Gloss Opacity.

4 En Model, poner Extrusion | Additive.

5 Click Results. En Display of Results, seleccionar Matrices (hypothesis, error, partial correlations) y Eigen analysis.

6 Click OK en cada cuadro de diálogo.

Los resultados se muestran a continuación:

Results for: Exh_mvar.MTW

ANOVA: Tear, Gloss, Opacity versus Extrusion, Additive

MANOVA for Extrusion

s = 1 m = 0.5 n = 6.0

Test DF

Criterion Statistic F Num Denom P

Wilks' 0.38186 7.554 3 14 0.003

Lawley-Hotelling 1.61877 7.554 3 14 0.003

Pillai's 0.61814 7.554 3 14 0.003

Roy's 1.61877

SSCP Matrix for Extrusion

Tear Gloss Opacity

Tear 1.740 -1.505 0.8555

Gloss -1.505 1.301 -0.7395

Opacity 0.855 -0.739 0.4205

SSCP Matrix for Error

Tear Gloss Opacity

Tear 1.764 0.0200 -3.070

Gloss 0.020 2.6280 -0.552

Opacity -3.070 -0.5520 64.924

Partial Correlations for the Error SSCP Matrix

Tear Gloss Opacity

Tear 1.00000 0.00929 -0.28687

Gloss 0.00929 1.00000 -0.04226

Opacity -0.28687 -0.04226 1.00000

EIGEN Analysis for Extrusion

Eigenvalue 1.619 0.00000 0.00000

Proportion 1.000 0.00000 0.00000

Cumulative 1.000 1.00000 1.00000

Eigenvector 1 2 3

Tear 0.6541 0.4315 0.0604

Gloss -0.3385 0.5163 0.0012

Opacity 0.0359 0.0302 -0.1209

MANOVA for Additive

s = 1 m = 0.5 n = 6.0

Test DF

Criterion Statistic F Num Denom P

Wilks' 0.52303 4.256 3 14 0.025

Lawley-Hotelling 0.91192 4.256 3 14 0.025

Pillai's 0.47697 4.256 3 14 0.025

Roy's 0.91192

SSCP Matrix for Additive

Tear Gloss Opacity

Tear 0.7605 0.6825 1.931

Gloss 0.6825 0.6125 1.732

Opacity 1.9305 1.7325 4.901

EIGEN Analysis for Additive

Eigenvalue 0.9119 0.00000 0.00000

Proportion 1.0000 0.00000 0.00000

Cumulative 1.0000 1.00000 1.00000

Eigenvector 1 2 3

Tear -0.6330 0.4480 -0.1276

Gloss -0.3214 -0.4992 -0.1694

Opacity -0.0684 0.0000 0.1102

MANOVA for Extrusion*Additive

s = 1 m = 0.5 n = 6.0

Test DF

Criterion Statistic F Num Denom P

Wilks' 0.77711 1.339 3 14 0.302

Lawley-Hotelling 0.28683 1.339 3 14 0.302

Pillai's 0.22289 1.339 3 14 0.302

Roy's 0.28683

SSCP Matrix for Extrusion*Additive

Tear Gloss Opacity

Tear 0.000500 0.01650 0.04450

Gloss 0.016500 0.54450 1.46850

Opacity 0.044500 1.46850 3.96050

EIGEN Analysis for Extrusion*Additive

Eigenvalue 0.2868 0.00000 0.00000

Proportion 1.0000 0.00000 0.00000

Cumulative 1.0000 1.00000 1.00000

Eigenvector 1 2 3

Tear -0.1364 0.1806 0.7527

Gloss -0.5376 -0.3028 -0.0228

Opacity -0.0683 0.1102 -0.0000

Por default se muestra la tabla para las cuatro pruebas multivariadas (Wliks, Lawley, Hotelling, Pillai y Roy) para cada uno de los términos en el modelo.

Los valores s, m y n se utilizan para los cálculos de los estadísticos de prueba Fc, el cual es exacto si s = 1 o 2 de otra forma es aproximado.

Examinando los valores P de las pruebas para Extrusión y Aditivo se observa que son significativas para un nivel de 0.05, no así la interacción.

Las matrices SSCP se usan para evaluar la contribución a la variabilidad de manera similar a la suma de cuadrados en la ANOVA univariada. La matriz SSCP para Extrusion es la suma de cuadrados de la hipótesis y matriz de productos cruzados H para las tres respuestas con el término de modelo Extrusión. Los elementos diagonales de esta matriz, 1.740, 1.301 y 0.405 son las sumas de cuadrados univariados para el término del modelo Extrusión cuando las variables de respuesta son Tear, Gloss y Opacity respectivamente. Los elementos fuera de la diagonal son los productos cruzados.

La matriz SSCP para el error es la suma de cuadrados de los errores y productos cruzados E. Los elementos diagonales de la matriz 1.764, 2.6280, y 64.924 son las sumas de cuadrados de los errores para las variables de respuesta Teat, Gloss y Opacity, respectivamente. Los elementos fuera de la diagonal de esta matriz son los productos cruzados.

La matriz de correlaciones parciales para el error SSCP, se usa para evaluar que tanto se relacionan las variables de respuesta. Las correlaciones parciales entre Tear y Gloss son pequeñas con 0.00929 y entre Gloss y Opacity -0.04226. Y la correlación parcial entre Tear y Opacity es de -0.28687 tampoco es grande. Como la estructura de las correlaciones es débil, se pueden realizar análisis univariados de ANOVA para cada una de las respuestas.

Se puede utilizar el análisis de valores característicos o Eigenvalores, para evaluar como difieren los promedios de las respuestas entre los niveles de los diferentes términos del modelo. El análisis de Eigenvalores es E-1 H donde E es la matriz SCCP del error y H es la matriz SCCP de las variables de respuesta. Estos son los eigenvalores utilizados para calcular las cuatro pruebas de MANOVA.

Poner la mayor importancia en los eigenvectores que corresponden a valores altos de eigenvalores. En el ejemplo, el segundo y tercer eigenvalores son pequeños, no signiicativos. Para ambos factores, Extrusion y Additive, los primeros eigenvalores contienen información similar. Para Extrusion is 0.6541, -0.3385, 0.0359 and for Additive it is -0.6630, -0.3214, -0.0684. El mayor valor absoluto dentro de esos eigenvalores corresponde a la respuesta Tear, el segundo a Gloss y el valor para Opacity es pequeño. Esto implica que Tear tiene la mayor diferencia entre los dos niveles de los factores ya sea Extrusion o Additive, el Gloss tiene las siguientes mayores diferencias y op.citp. tiene solo pequeñas diferencias.

Para un análisis más general utilizar General MANOVA con diseños balanceados y no balanceados, incluso si se tienen covariados.

1 Seleccionar Stat > ANOVA > General MANOVA.

2 En Responses, seleccionar hasta 50 columnas numéricas conteniendo las variables de respuesta.

3 En Model, introducir los términos del modelo que se quiera ajustar.

4. Click OK.

5. ANÁLISIS DE COVARIANZA

5. ANÁLISIS DE COVARIANZA

Definición: Es un método estadístico que analiza la relación entre una variable dependiente y dos o más independientes, con el que se elimina o controla el efecto de al menos una de estas independientes. Similar al ANOVA, excepto que permite controlar la influencia de una variable independiente, la cual con frecuencia es una característica antecedente que puede variar entre los grupos (Mertens, 2005) o influir los resultados y afectar la claridad de las interpretaciones.

Perspectivas o usos: Wildt y Ahtola (1978, pp. 8-9) destacan tres perspectivas para el análisis de covarianza:

A. Perspectiva experimental. Se aplica a aquellas situaciones en que el interés del investigador se centra en las diferencias observadas en la variable dependiente, por medio de las categorías de la variable independiente (o variables independientes). Pero el experimentador asume que hay otras variables independientes cuantitativas que contaminan la relación y cuya influencia debe ser controlada.

Y el investigador únicamente se interesa por conocer la relación entre las

variables independientes categóricas y la variable dependiente. Desea al mismo tiempo remover y controlar el efecto de las variables independientes cuantitativas no categóricas (continuas). Es decir, desea tener un esquema como el de la figura

El objetivo es “purificar la relación entre las independientes categóricas y la

Variable dependiente, mediante el control del efecto de las independientes no categóricas o continuas”.

Ejemplos de variables independientes categóricas serían: género (masculino,

femenino), inteligencia (alta, media, baja), ingreso (menos de un salario mínimo, dos a cuatro salarios mínimos, cinco a 10 salarios mínimos, 11 o más salarios mínimos).

Los niveles de medición nominal y ordinal son categóricos en sí mismos, mientras que los niveles de intervalos y razón deben transformarse en categorías más discretas. Estos últimos son en sí: cuantitativos, continuos y de categorías múltiples. Por ejemplo, el ingreso en su “estado natural” (ponderacións, dólares, euros, etc.) varía de la categoría cero hasta la categoría (K)k, ya que puede haber millones de categorías.

Variable categórica — unas cuantas categorías o un rango medio.

Variable continua — muchas categorías (a veces una infinidad).

A dichas variables independientes cuantitativas continuas, cuya influencia se controla, se les denomina “covariables”. Una covariable se incluye en el análisis para remover su efecto sobre la variable dependiente, e incrementar el conocimiento de la relación entre las variables independientes categóricas de interés y la dependiente, lo cual aumenta la precisión del análisis.

En esta perspectiva, el análisis de covarianza puede ser concebido primero

como un ajuste en la variable dependiente respecto a diferencias en la covariable o las covariables y, posteriormente, como una evaluación de la relación entre las variables independientes categóricas y los valores ajustados de la variable dependiente (Wildt y Ahtola, 1978). En términos de Creswell (2005):

El procedimiento “ajusta” las puntuaciones en la dependiente para dar cuenta por la covarianza (por decirlo en términos sencillos: “hace equivalentes a los grupos en la(s) covariable(s)” y controla influencias potenciales que pueden afectar a la variable dependiente).

B. Perspectiva de interés por la covariable. Esta perspectiva se ejemplifica con aquellas instancias en las cuales el interés principal se centra en analizar la relación entre la variable dependiente y la covariable (variable cuantitativa continua) o las covariables. Aquí el enfoque es distinto; la influencia que se remueve es la de las variables independientes categóricas. Primero se controla el efecto (en este caso contaminante) de estas variables y después se analiza el efecto “purificado” de las covariables.

C. Perspectiva de regresión. En esta tercera perspectiva, tanto las variables

independientes categóricas como las covariables resultan de interés para el

investigador, quien puede desear examinar el efecto de cada variable

independiente (covariables y no covariables, todas) y después ajustar o corregir los efectos de las demás variables independientes.

En cualquier caso, el análisis de covarianza elimina influencias no deseadas

sobre la variable dependiente. Se puede utilizar en contextos experimentales y no experimentales. La mayoría de las veces la función del ANCOVA es “remover” la varianza compartida entre una o más covariables y la dependiente, de este modo, se valora en su justa dimensión la relación causal entre la(s) variable(s) independiente(s) de interés y la dependiente (Creswell, 2005).

Veámoslo conceptualmente pero de forma gráfica con un ejemplo simple:

Ejemplo:

Estudio: Al investigador le interesa analizar el efecto en el aprendizaje de la

computación, por medio un nuevo método para su enseñanza a niños. La hipótesis es: El nuevo método de enseñanza de la computación (MA-RH) provocará un mayor aprendizaje en los niños que un método tradicional.

Entonces, implementa el siguiente experimento: A un grupo de infantes los

expone al nuevo método de enseñanza de computación (MA-RHS); a otro grupo no lo expone al nuevo método, éste aprende con el método tradicional; finalmente, a un tercer grupo, de control, no recibe ningún tipo de enseñanza en computación.

La variable independiente es el tipo de método con tres categorías o niveles

(método nuevo, método tradicional y ausencia de método), la dependiente es el aprendizaje en computación (medida por una prueba estandarizada a nivel de intervalos). Se tiene un esquema como el de la figura.

Con el experimento el investigador desea conocer la varianza en común entre método y aprendizaje (cuantificarla), la relación XY (pura). Si los niños son asignados al azar a los grupos del experimento y tiene grupos de tamaño aceptable, por el diseño mismo, remueve la influencia de las covariables que pudieran afectar. Pero si no es factible hacerlo y tiene un diseño cuasiexperimental (grupos intactos), debe remover tal influencia con el análisis de covarianza (eliminar al mínimo posible la varianza del aprendizaje no explicada), para evitar que las covariables impidan ver con claridad la relación XY. Por ejemplo, el nivel educativo tecnológico de los padres puede influir (hace variar al aprendizaje) y este efecto debe ser controlado, al introducirlo como covariable.

Lo que el investigador desea también se puede expresar gráficamente así:

Wildt y Ahtola (1978, p. 13) definen algunos usos del análisis de covarianza:

1. Incrementar la precisión en experimentos con asignación al azar.

2. Eliminar influencias extrañas o contaminantes que pueden resultar cuando las pruebas o los individuos no son asignados al azar a las diferentes condiciones experimentales (grupos de un experimento).

3. Eliminar efectos de variables que confundan o distorsionen la interpretación de resultados en estudios no experimentales.

Nivel de medición de las variables: La variable dependiente siempre está medida por intervalos o razón y las variables independientes pueden estar medidas en cualquier nivel.

Interpretación: Depende de cada caso específico, ya que el análisis de

covarianza efectuado mediante un programa estadístico computacional, produce un cuadro de resultados muy parecido al del análisis de varianza. Los elementos más comunes pueden obssevarse en la tabla ANOVA.

La razón F es, igual que en el análisis de varianza, una razón de varianzas. El razonamiento estadístico es el mismo y F se interpreta igual, incluso se utiliza el mismo cuadro de la distribución F. Solamente que las inferencias y conclusiones se hacen al considerar que las medias de la variable

dependiente, a través de las categorías de las variables independientes, se han ajustado, de este modo eliminan el efecto de la covariable o covariables.

Ejemplo:

Diseño de investigación que utiliza el análisis de covarianza

Hi: Los trabajadores que reciban retroalimentación verbal sobre el desempeño de parte de su supervisor mantendrán un nivel mayor de productividad que los trabajadores que reciban retroalimentación sobre el desempeño por escrito, más aún que los trabajadores que no reciban ningún tipo de retroalimentación.

__ __ __

Hi: X1 > X2 > X3

(verbal) (por escrito) (ausencia)

El investigador plantea un diseño experimental para intentar probar su

hipótesis. Sin embargo, no puede asignar aleatoriamente a los trabajadores a los tres grupos del experimento. El diseño sería con grupos intactos

(cuasiexperimental) y se esquematizaría así:

Asimismo, el investigador presupone que hay un factor que puede

contaminar los resultados (actuar como fuente de invalidación interna): la

motivación. Diferencias iniciales en motivación pueden invalidar el estudio.

Como la asignación al azar está ausente, no se sabe si los resultados se ven influidos por dicho factor. Entonces, el experimentador decide eliminar o controlar el efecto de la motivación sobre la productividad para conocer los efectos de la variable independiente: tipo de retroalimentación. La motivación se convierte en covariable.

El esquema es el que se muestra en la figura

Cabe destacar que, para introducir una covariable en el análisis, de preferencia debe medirse antes del inicio del experimento.

El análisis de covarianza “quita” a la variabilidad de la dependiente lo que se

debe a la covariable. Ajusta la varianza de la variable dependiente en las categorías de la independiente, al basarse en la covariable. En el ejemplo, ajusta la varianza de la productividad debida a la motivación, en las categorías experimentales (tratamientos o grupos). El ajuste se realiza sobre la base de la correlación entre la covariable y la dependiente. Esto se muestra esquemáticamente en la tabla.

Una vez realizado el análisis de covarianza, se evalúa si F es o no significativa.

Cuando F resulta significativa se acepta la hipótesis de investigación.

Si el resultado fuera:

G1 = 35

G2 = 36

La correlación entre la calificación en motivación y las puntuaciones en

productividad es la base para el ajuste.

G3 = 38

Gl entre = K – 1 = 3 – 1 = 2

Gl intra = N – K = 107

F = 1.70

Comparamos con el valor de la tabla respectiva: en el nivel de 0.05 es igual a 3.07, y nuestra razón F a 1.70 es menor a este valor. Por lo tanto, rechazamos la hipótesis de investigación y aceptamos la hipótesis nula. Esto se contrasta y profundiza con las medias ajustadas de los grupos que proporcione el análisis de covarianza (no las medias obtenidas en el experimento por cada grupo, sino las ajustadas con base en la covariable).

Recordemos que SPSS nos proporciona automáticamente la significancia de F.

Ejemplo:

Determinar si hay diferencia en la resistencia de una fibra monofilamento producida por tres máquinas diferentes. El diámetro de la fibra parece tener influencia en la resistencia como se muestra abajo (covariado de Y).

Datos de resistencia - Y es la respuesta, X es el covariado.

Y X Maq

36 20 1

41 25 1

39 24 1

42 25 1

49 32 1

40 22 2

48 28 2

39 22 2

45 30 2

44 28 2

35 21 3

37 23 3

42 26 3

34 21 3

32 15 3

La relación entre X y Y es significativa como se observa en la siguiente gráfica:

En Minitab:

1. Stat > Regresión > Fitted line plot

2. Introducir Y y X, seleccionar Linear

3. OK

Para el ANOVA con Covariados, las instrucciones de Minitab son las siguientes:

1. Stat > ANOVA > General Linear Model

2. Introducir en Response Y, en Model X y Maquina

3. En Covariates X

4. En Results en Display Least Square Means corresponding to the terms Maq

5. En Graphs seleccionar Normal plot for residuals

6. OK

Los resultados se muestran a continuación:

General Linear Model: Y versus Maq

Factor Type Levels Values

Maq fixed 3 1, 2, 3

Analysis of Variance for Y, using Adjusted SS for Tests

Source DF Seq SS Adj SS Adj MS F P

X 1 305.13 178.01 178.01 69.97 0.000

Maq 2 13.28 13.28 6.64 2.61 0.118

Error 11 27.99 27.99 2.54

Total 14 346.40

S = 1.59505 R-Sq = 91.92% R-Sq(adj) = 89.72%

Term Coef SE Coef T P

Constant 17.177 2.783 6.17 0.000

X 0.9540 0.1140 8.36 0.000

Unusual Observations for Y

Obs Y Fit SE Fit Residual St Resid

7 48.0000 45.1080 0.7489 2.8920 2.05 R

R denotes an observation with a large standardized residual.

Means for Covariates

Covariate Mean StDev

X 24.13 4.324

Least Squares Means for Y

Maq Mean SE Mean

1 40.38 0.7236

2 41.42 0.7444

3 38.80 0.7879

Conclusión:

Se observa que no hay diferencia en las máquinas una vez que eliminamos la variabilidad introducida por el diámetro de la fibra, en caso de no haber tomado en cuenta la covarianza del diámetro en la resistencia, se hubiese concluido al revés, que si hay diferencia en las máquinas, como se muestra a continuación:

Con Minitab:

1. Stat > ANOVA > One way

2. Response Y Factor Maquina

3. OK

Los resultados son los siguientes:

One-way ANOVA: Y versus Maq

Source DF SS MS F P

Maq 2 140.4 70.2 4.09 0.044

Error 12 206.0 17.2

Total 14 346.4

S = 4.143 R-Sq = 40.53% R-Sq(adj) = 30.62%

Individual 95% CIs For Mean Based on Pooled

StDev

Level N Mean StDev +---------+---------+---------+---------

1 5 41.400 4.827 (---------*----------)

2 5 43.200 3.701 (---------*---------)

3 5 36.000 3.808 (---------*---------)

+---------+---------+---------+---------

32.0 36.0 40.0 44.0

Pooled StDev = 4.143

Conclusión: Como P value es menor a 0.05 aparentemente si hay diferencia entre máquinas.

6. ANÁLISIS DISCRIMINANTE MÚLTIPLE Y REGRESIÓN LOGÍSTICA

6. ANÁLISIS DISCRIMINANTE MÚLTIPLE Y REGRESIÓN LOGÍSTICA

El análisis discriminante, se aplica cuando las variables independientes son medidas por intervalos o razón, y la dependiente es categórica. Tal análisis sirve para predecir la pertenencia de un caso a una de las categorías de la variable dependiente, sobre la base de varias independientes (dos o más). Se utiliza una ecuación de regresión llamada función discriminante. Por ejemplo, si queremos predecir el voto obtenido por dos partidos contendientes (variable dependiente nominal con dos categorías) sobre la base de cuatro variables independientes, aplicaremos el análisis discriminante, para resolver una ecuación de regresión; así se obtienen las predicciones individuales. En el ejemplo, hay dos categorías (votar por A o votar por B); por tanto, los valores a predecir son 0 y 1 (A y B, respectivamente). Si el sujeto obtiene una puntuación más cercana a cero, se predice que pertenece al grupo que votará por A; si logra una puntuación más cercana a 1, se predice que pertenece al grupo que votará por B. Además, se consigue una medida del grado de discriminación del modelo.

Usar el Análisis Discrimínate para clasificar observaciones en dos grupos (Análisis discriminante) o más grupos (Análisis discriminante múltiple – MDA) si se tiene una muestra con grupos conocidos. Se puede utilizar también para investigar como contribuyen las variables a la separación de grupos. La regresión logística o Logit Analysis se limita a dos grupos. Para el caso de clasificar las observaciones nuevas en una de dos categorías, la regresión logística puede ser superior al análisis discriminante.

Se pueden hacer análisis discriminantes lineales y cuadráticos. Los lineales asumen que todos los grupos tienen la misma matriz de covarianza, los cuadráticos no hacen este supuesto y no son bien comprendidos.

Ejemplo:

Para regular la pesca de salmón, se desea identificar si el pescado es originario de Alaska o de Canadá. Cincuenta peces de cada lugar de origen fueron capturados y pesados cuando vivían en agua dulce y cuando vivieron en agua salada. El objetivo es el de poder identificar si los nuevos pescados vienen de criaderos en Alaska o Canadá. Los datos se muestran a continuación:

SalmonOrigin Freshwater Marine SalmonOrigin Freshwater Marine

Alaska 108 368 Canada 129 420

Alaska 131 355 Canada 148 371

Alaska 105 469 Canada 179 407

Alaska 86 506 Canada 152 381

Alaska 99 402 Canada 166 377

Alaska 87 423 Canada 124 389

Alaska 94 440 Canada 156 419

Alaska 117 489 Canada 131 345

Alaska 79 432 Canada 140 362

Alaska 99 403 Canada 144 345

Alaska 114 428 Canada 149 393

Alaska 123 372 Canada 108 330

Alaska 123 372 Canada 135 355

Alaska 109 420 Canada 170 386

Alaska 112 394 Canada 152 301

Alaska 104 407 Canada 153 397

Alaska 111 422 Canada 152 301

Alaska 126 423 Canada 136 438

Alaska 105 434 Canada 122 306

Alaska 119 474 Canada 148 383

Alaska 114 396 Canada 90 385

Alaska 100 470 Canada 145 337

Alaska 84 399 Canada 123 364

Alaska 102 429 Canada 145 376

Alaska 101 469 Canada 115 354

Alaska 85 444 Canada 134 383

Alaska 109 397 Canada 117 355

Alaska 106 442 Canada 126 345

Alaska 82 431 Canada 118 379

Alaska 118 381 Canada 120 369

Alaska 105 388 Canada 153 403

Alaska 121 403 Canada 150 354

Alaska 85 451 Canada 154 390

Alaska 83 453 Canada 155 349

Alaska 53 427 Canada 109 325

Alaska 95 411 Canada 117 344

Alaska 76 442 Canada 128 400

Alaska 95 426 Canada 144 403

Alaska 87 402 Canada 163 370

Alaska 70 397 Canada 145 355

Alaska 84 511 Canada 133 375

Alaska 91 469 Canada 128 383

Alaska 74 451 Canada 123 349

Alaska 101 474 Canada 144 373

Alaska 80 398 Canada 140 388

Alaska 95 433 Canada 150 339

Alaska 92 404 Canada 124 341

Alaska 99 481 Canada 125 346

Alaska 94 491 Canada 153 352

Alaska 87 480 Canada 108 339

Las intrucciones de Minitab son las siguientes:

1 Abrir la worksheet EXH_MVAR.MTW.

2 Stat > Multivariate > Discriminant Analysis.

3 En Groups, poner SalmonOrigin.

4 En Predictors, poner Freshwater Marine. Click OK.

Los resultados obtenidos se muestran a continuación:

Discriminant Analysis: SalmonOrigin versus Freshwater, Marine

Linear Method for Response: SalmonOrigin

Predictors: Freshwater, Marine

Group Alaska Canada

Count 50 50

Summary of classification

True Group

Put into Group Alaska Canada

Alaska 44 1

Canada 6 49

Total N 50 50

N correct 44 49

Proportion 0.880 0.980

N = 100 N Correct = 93 Proportion Correct = 0.930

Squared Distance Between Groups

Alaska Canada

Alaska 0.00000 8.29187

Canada 8.29187 0.00000

Linear Discriminant Function for Groups

Alaska Canada

Constant -100.68 -95.14

Freshwater 0.37 0.50

Marine 0.38 0.33

Summary of Misclassified Observations

Squared

Observation True Group Pred Group Group Distance Probability

1** Alaska Canada Alaska 3.544 0.428

Canada 2.960 0.572

2** Alaska Canada Alaska 8.1131 0.019

Canada 0.2729 0.981

12** Alaska Canada Alaska 4.7470 0.118

Canada 0.7270 0.882

13** Alaska Canada Alaska 4.7470 0.118

Canada 0.7270 0.882

30** Alaska Canada Alaska 3.230 0.289

Canada 1.429 0.711

32** Alaska Canada Alaska 2.271 0.464

Canada 1.985 0.536

71** Canada Alaska Alaska 2.045 0.948

Canada 7.849 0.052

Interpretando los resultados

El Análisis Discriminante identificó correctamente 93 de los 100 peces, a pesar de que la probabilidad de clasificar correctamente un pez de Alaska fue menor (44/50 o 88%) que la probabilidad de clasificar correctamente un pez de Canadá (49/50 o 98%). Para identificar el origen de un pez recientemente capturado depende de cual valor discriminante sea mayor. Se puede correr el análisis discriminante de nuevo y predecir a que grupo pertenecen las nuevas observaciones.

El resumen de las observaciones mal clasificadas muestra la distancia al cuadrado desde el punto mal clasificado a los centroides del grupo (vectores medios) y las probabilidades posteriores. Las observaciones son asignadas al grupo con la mayor probabilidad posterior.

Si en Options introducimos en Predict membership for: 100 130, la clasificación aparece como:

Prediction for Test Observations

Squared

Observation Pred Group From Group Distance Probability

1 Canada

Alaska 78.448 0.000

Canada 55.194 1.000

El análisis discriminante involucra establecer una “Variable (Variate)”, combinación lineal de dos o más variables independientes que discriminarán mejor entre grupos definidos a priori. Se logra al poner los pesos de la “variable” para cada variable de modo de maximizar la varianza entre grupos respecto a la varianza dentro de los grupos. La ecuación de la función discriminante toma la forma de:

Donde:

Zjk = Valor Z discriminante de la función discriminante J para el objeto K.

a = Intersección en eje Y

Wi = Peso discriminante para la variable independiente i.

Xik = Variable independiente i para el objeto k.

La media de un grupo se denomina Centroide, que indica la localización típica de cualquier individuo dentro de un grupo en particular y una comparación de las centroides de los grupos muestra que tan alejados se encuentran en relación a la dimensión considerada.

A B A B

Representación univariada de los valores Z de la función discriminante

Las áreas sombreadas son la probabilidad de clasificar erróneamente los objetos entre A y B

Ejemplo con HATCO:

Paso 1: Objetivos del análisis discriminante

Identificar las percepciones de HATCO que difieren significativamente entre empresas que utilizan los métodos de compra: valor total de compra incluyendo productos y servicios comprados y compra especificada donde se indican las características deseadas del producto y del servicio.

Paso 2. Diseño de la investigación para el análisis discriminante

La variable dependiente es categórica con dos grupos, las variables independientes son X1 a X7 y X11 con los métodos de compra de las empresas.

Las muestra es de 100 observaciones que supera el mínimo de muestras a variables de 5 a 1, siendo de 10.

Se toma una muestra de 40 observaciones para validar el modelo y se utilizan 60 observaciones para la estimación.

Paso 3. Supuestos de la función discriminante

En la formación de la Variate debe haber normalidad, linealidad, y multicolinealidad y la estimación de la función discriminante (matrices de varianza y covarianza similares). Una prueba de igualdad de covarianza o matrices de dispersión es la prueba M de Box.

Paso 4. Estimación del modelo discriminante y evaluación de ajuste

Instrucciones en Minitab:

1. Stat > Multivariate > Discriminant Analysis.

2. En Groups, poner X11.

3 En Predictors, poner X1 – X7.

4. Click OK.

Los resultados se muestran a continuación:

Discriminant Analysis: X11 versus X1, X2, X3, X4, X5, X6, X7

Linear Method for Response: X11

Predictors: X1, X2, X3, X4, X5, X6, X7

Group 0 1

Count 25 35

Summary of classification

True Group

Put into Group 0 1

0 24 2

1 1 33

Total N 25 35

N correct 24 33

Proportion 0.960 0.943

N = 60 N Correct = 57 Proportion Correct = 0.950

Squared Distance Between Groups

0 1

0 0.0000 10.9857

1 10.9857 0.0000

Linear Discriminant Function for Groups

0 1

Constant -55.092 -67.574

X1 12.813 16.539

X2 12.313 14.638

X3 7.780 10.158

X4 3.320 3.639

X5 -21.933 -26.874

X6 -2.326 -2.159

X7 4.389 2.657

Summary of Misclassified Observations

True Pred Squared

Observation Group Group Group Distance Probability

13** 0 1 0 6.238 0.474

1 6.032 0.526

17** 1 0 0 7.893 0.980

1 15.673 0.020

56** 1 0 0 4.753 0.841

1 8.078 0.159

Por medio de SPSS

1. Analize > Clasify > Discriminant

2. Grouping variable X11 (0:1) Independent variables X1 – X7

3. Statistics Univariate ANOVAs Box’s M

4. OK

Los resultados se muestran a continuación

Tests of Equality of Group Means

Wilks' Lambda F df1 df2 Sig.

X1 .614 36.526 1 58 .000

X2 .716 22.953 1 58 .000

X3 .467 66.302 1 58 .000

X4 .997 .145 1 58 .704

X5 .993 .414 1 58 .523

X6 .991 .522 1 58 .473

X7 .528 51.951 1 58 .000

Como se puede observar son significativos X1, X2, X3 y X7.

La función discriminante es la siguiente:

Standardized Canonical Discriminant Function Coefficients

Function

1

X1 1.152

X2 .749

X3 .668

X4 .111

X5 -1.153

X6 .042

X7 -.626

La matriz estructural es la siguiente:

Structure Matrix

Function

1

X3 .643

X7 -.569

X1 .477

X2 -.379

X6 .057

X5 .051

X4 .030

Pooled within-groups correlations between discriminating variables and standardized canonical discriminant functions Variables ordered by absolute size of correlation within function.

Medias de grupos (centroides) de las funciones canónicas discriminantes:

Functions at Group Centroids

X11 Function

1

.00 -1.933

1.00 1.381

Unstandardized canonical discriminant functions evaluated at group means

Z=0

N=24 N=33

Zo=-1.933 Z1=1.063

Gráfica de los centroides de grupos

Paso 5. Validación del modelo

Con los 40 datos restantes se repite la corrida y se observa que los resultados concuerden:

Tests of Equality of Group Means

Wilks' Lambda F df1 df2 Sig.

X1 .546 31.628 1 38 .000

X2 .934 2.676 1 38 .110

X3 .789 10.185 1 38 .003

X4 .969 1.205 1 38 .279

X5 .798 9.611 1 38 .004

X6 .997 .105 1 38 .748

X7 .535 33.043 1 38 .000

Log Determinants

X11 Rank Log Determinant

.00 7 -9.872

1.00 7 -6.987

Pooled within-groups 7 -6.367

The ranks and natural logarithms of determinants printed are those of the group covariance matrices.

Test Results

Box's M 63.963

F Approx. 1.776

df1 28

df2 3061.289

Sig. .007

Tests null hypothesis of equal population covariance matrices.

Standardized Canonical Discriminant Function Coefficients

Function

1

X1 1.932

X2 1.525

X3 .294

X4 -.621

X5 -1.698

X6 .934

X7 -.783

Structure Matrix

Function

1

X7 -.644

X1 .630

X3 .358

X5 .347

X2 -.183

X4 -.123

X6 -.036

Pooled within-groups correlations between discriminating variables and standardized canonical discriminant functions Variables ordered by absolute size of correlation within function.

Functions at Group Centroids

X11 Function

1

.00 -1.822

1.00 1.093

Unstandardized canonical discriminant functions evaluated at group means

Classification Results(a)

X11 Predicted Group Membership Total

.00 1.00

Original Count .00 15 0 15

1.00 3 22 25

% .00 100.0 .0 100.0

1.00 12.0 88.0 100.0

a 92.5% of original grouped cases correctly classified.

Regresión Logística

Una de las ventajas de la regresión logística versus el análisis discriminante es que es menos afectada por las diferencias en varianzas / covarianzas entre los grupos, que es una premisa del análisis discriminante. Otra ventaja es que la regresión logística puede manejar variables independientes categóricas fácilmente, mientras que en el análisis discriminante el uso de variables de apoyo crea problemas con la igualdad de varianza / covarianza. Finalmente la regresión logística es similar a la regresión múltiple en términos de su interpretación e interpretación incluyendo los residuos.

Ejemplo:

You are a researcher who is interested in understanding the effect of smoking and weight upon resting pulse rate. Because you have categorized the response-pulse rate-

into low and high, a binary logistic regression analysis is appropriate to investigate the effects of smoking and weight upon pulse rate.

Se tiene interés en comprender el efecto de fumar y el peso sobre el pulso (alto y bajo).

Los datos utilizados son los siguientes:

RestingPulse Smokes Weight RestingPulse Smokes Weight RestingPulse Smokes Weight

Low No 140 Low No 215 Low No 115

Low No 145 Low Yes 150 Low No 102

Low Yes 160 Low Yes 145 Low No 115

Low Yes 190 Low No 155 Low No 150

Low No 155 Low No 155 Low No 110

Low No 165 Low No 150 High No 116

High No 150 Low Yes 155 Low Yes 108

Low No 190 Low No 150 High No 95

Low No 195 High Yes 180 High Yes 125

Low No 138 Low No 160 Low No 133

High Yes 160 Low No 135 Low No 110

Low No 155 Low No 160 High No 150

High Yes 153 Low Yes 130 Low No 108

Low No 145 Low Yes 155 Low No 155

Low No 170 Low Yes 150 Low No 180

Low No 175 Low No 148 Low No 122

Low Yes 175 High No 155 Low No 120

Low Yes 170 Low No 150 Low No 118

Low Yes 180 High Yes 140 Low No 125

Low No 135 Low Yes 190 High Yes 135

Low No 170 High No 145 Low No 125

Low No 157 High Yes 150 High No 118

Low No 130 Low Yes 164 High Yes 150

Low Yes 185 Low No 140 Low Yes 112

High No 140 Low No 142 Low No 125

Low No 120 High No 136 Low No 190

Low Yes 130 Low No 123 Low No 155

High No 138 Low No 155 Low Yes 170

High Yes 121 High No 130 Low No 145

Low No 125 Low No 120 High Yes 131

High No 116 Low No 130

Las instrucciones de Minitab para el ejemplo son:

1. Open worksheet EXH_REGR.MTW.

2. Seleccionar Stat > Regression > Binary Logistic Regression.

3. En Response, poner RestingPulse. En Model, poner Smokes Weight. En Factors (optional), poner Smokes.

4. Click Graphs. Seleccionar Delta chi-square vs probability and Delta chi-square vs leverage. Click OK.

5. Click Results. Seleccionar In addition, list of factor level values, tests for terms with more than 1 degree of freedom, and 2 additional goodness-of-fit tests.

Click OK en cada cuadro de diálogo.

Los resultados se muestran a continuación:

Results for: Exh_regr.MTW

Binary Logistic Regression: RestingPulse versus Smokes, Weight

Link Function: Logit

Observaciones que caen dentro de cada categoría

Response Information Variable Value Count

RestingP Low 70 (Event) -> Evento de referencia

High 22

Total 92

Factor Information

Factor Levels Values

Smokes 2 No Yes

Logistic Regression Table

Odds 95% CI

Predictor Coef SE Coef Z P Ratio Lower Upper

Constant -1.987 1.679 -1.18 0.237

Smokes

Yes -1.1930 0.5530 -2.16 0.031 0.30 0.10 0.90

Weight 0.02502 0.01226 2.04 0.041 1.03 1.00 1.05

Por ser su P value menor a 0.05 son significativos Smoke y Weight

El coeficiente de -1.93 para Smoke representa el cambio estimado en el log de P(low pulse)/P(high pulse) cuando el sujeto fuma comparado a cuando no fuma, con el covariado Weigh (peso) mantenido constante.

El coeficiente de 0.0250 para Weight (peso) es el cambio estimado en el log de P(low pulse)/P(high pulse) con una unidad (lb.) de incremento en peso con el factor Fumar constante.

A pesar de que hay evidencia de el parámetro de peso Weight no es cero, la tasa de exceso es muy cercana a uno (1.03), indicando que un incremento de peso de una libra tiene un efecto menor en la tasa de pulso en reposo de la persona. Una diferencia más significativa se puede encontrar si se comparan sujetos con una diferencia de peso mayor, por ejemplo 10 libras, la tasa cambia a 1.28 (1.03 + 0.025*10), indicando que el puso de un sujeto con pulso bajo se incrementa 1.28 veces con cada 10 libras de incremento de peso.

Para Smokes, el coeficiente negativo de -1.93 y la tasa de exceso de 0.30 indica que los sujetos que fuman tienden a tener una mayor tasa de pulso en reposo (resting pulse rate) que los sujetos que no fuman. Dados sujetos con el mismo peso, la tasa de exceso puede ser interpretada como el exceso de fumadores en la misma muestra teineido un pulso bajo (low pulse) de 30% de los no fumadores teniendo un pulso bajo (low pulse).

Log-Likelihood = -46.820

Test that all slopes are zero: G = 7.574, DF = 2, P-Value = 0.023

El estadístico G prueba la hipótesis nula de que los coeficientes asociados con los predoctores son iguales a cero versus que esos coeficientes no todos son cero. En es ejemplo con G = 7.574 y P value = 0.023, indican que hay suficiente evidencia que al menos uno de los coeficientes es diferente de cero.

Goodness-of-Fit Tests

Method Chi-Square DF P

Pearson 40.848 47 0.724

Deviance 51.201 47 0.312

Hosmer-Lemeshow 4.745 8 0.784

Brown:

General Alternative 0.905 2 0.636

Symmetric Alternative 0.463 1 0.496

Estas pruebas de bondad de ajuste con P values de 0.312 a 0.724 indican que no hay evidencia suficiente que indique que el modelo no ajuste a los datos adecuadamente, considerando un nivel de significancia de 0.05.

Table of Observed and Expected Frequencies:

(See Hosmer-Lemeshow Test for the Pearson Chi-Square Statistic)

Group

Value 1 2 3 4 5 6 7 8 9 10 Total

Low

Obs 4 6 6 8 8 6 8 12 10 2 70

Exp 4.4 6.4 6.3 6.6 6.9 7.2 8.3 12.9 9.1 1.9

High

Obs 5 4 3 1 1 3 2 3 0 0 22

Exp 4.6 3.6 2.7 2.4 2.1 1.8 1.7 2.1 0.9 0.1

Total 9 10 9 9 9 9 10 15 10 2 92

Esta tabla permit ever que tan bien ajusta el modelo a los datos, comparando las frecuencias observadas y las frecuencias esperadas, siendo similares indica que no hay evidencia suficiente de que los datos no ajusten bien al modelo, soportado por las pruebas de bondad de ajuste para un nivel de significancia de 0.05.

Measures of Association:

(Between the Response Variable and Predicted Probabilities)

Pairs Number Percent Summary Measures

Concordant 1045 67.9% Somers' D 0.38

Discordant 461 29.9% Goodman-Kruskal Gamma 0.39

Ties 34 2.2% Kendall's Tau-a 0.14

Total 1540 100.0%

Esta tabla muestra 1540 pares (70 individuos con un low pulse y 22 con high pulse resultando en 70*22 = 1540) con valores de respuesta diferentes. Con base en el modelo un par es concordante si el individuo con una tasa de pulso baja (low pulse rate) tiene una más alta probabilidad de tener pulso bajo, discrepante de si sucede lo contrario, y empate si las probabilidades son iguales. En este ejemplo el 67.9% de los pares son concordantes y 29% son discrepantes. Se pueden usar estos valores como una medición comparativa de predicción, por ejemplo para comparar ajustes con diferentes conjuntos de predictores o con funciones diferentes de enlace.

Se muestran resumenes de pares concordantes y discrepantes de Somers, Goodman-Kriskal Gamma, y Tau de Kendall. Las métricas se encuentran entre 0 y 1 donde los valores mayores indican que el modelo tiene una mejor habilidad predictiva. En este ejemplo el rango va de 0.14 a 0.39 que implica una baja capacidad predictiva.

Las gráficas del ejemplo de Chi cuadrada versus probabilidad y versus apalancamiento muestran que hay dos puntos que se desvían más allá del límite sugerido de 3.84, indicando situaciones anormales que deben ser investigadas.

Con la opción Editor > Brush se puede observar que corresponden a los valores de datos 31 y 66, correspondientes a individuos con un pulso alto, que no fuman, y que tienen pesos menores al promedio (116 y 136 libras).

Ejemplo con datos de Hatco

El ejemplo siguiente utiliza las mismas variables que el análisis discriminante anterior para estimar el modelo.

Utilizando los datos de HATCO, la muestra de 100 clientes se divide en dos grupos, uno de 60 para análisis y otro de 40 para validación. La regresión logística es más robusta ante el supuesto de igualdad de varianza covarianza.

Para el ejemplo se utilizan las 7 variables X1 a X7 teniendo como respuesta a X11.

7. Análisis de Conglomerados

7. ANÁLISIS DE CONGLOMERADOS

Se cuenta también con el análisis de conglomerados o clusters (técnica para

agrupar los casos o elementos de una muestra en grupos con base en una o

más variables).

Usar Análisis de componentes principales para ayudar a comprender la estructura de datos y/o a formar un pequeño número de variables no correlacionadas (por ejemplo para evitar multicolinealidad en la regresión).

El análisis de conglomerados agrupa individuos u objetos dentro de conglomerados (“Clusters”) de modo que los objetos en el mismo grupo tienen características más similares que las que tienen versus otros grupos.

El “Cluster Variate” es el conjunto de variables representando las características utilizadas para comparar objetos en el análisis de conglomerados. Es decir determina el “carácter de los objetos”. Es la única técnica multivariada que no estima la “variate” empíricamente sino que se especifica por el investigador.

“Variate” es la combinación lineal de variables formadas en la técnica multivariada al determinar empíricamente ponderaciones aplicadas al conjunto de variables especificadas por el investigador.

El análisis de conglomerados también se ha denominado Análisis Q, Construcción de tipología, Análisis de clasificación, y taxonomía numérica. Esto debido al uso de estas técnicas en diversas áreas como la sicología, biología, sociología, economía, ingeniería, y los negocios. El análisis de conglomerados es parecido al análisis factorial en su propósito de evaluar la estructura. Pero el análisis de conglomerados difiere del análisis factorial en que agrupa objetos, mientras que el análisis factorial se enfoca principalmente a agrupar variables.

El análisis de conglomerados puede hacer reducciones de datos colectados de cuestionarios en una población, a información relacionada con pequeños subgrupos específicos. No tiene bases estadísticas sobre las que se puedan realizar inferencias estadísticas de una muestra a una población, su uso es principalmente como técnica exploratoria. Las soluciones no son únicas y se pueden obtener diversas soluciones variando uno o más elementos del procedimiento.

¿Cómo funciona el análisis de conglomerados?

Se ilustra con un ejemplo con datos divariados.

Suponer que un estudio de mercado trata de determinar segmentos de mercado en base a los patrones de lealtad de marcas (V1) y tiendas (V2), medidas del 0 al 10 en 7 personas (A-G).

Variables A B C D E F G

V1 3 4 4 2 6 7 6

V2 2 5 7 7 6 7 4

Para acomodar en grupos se necesita contestar:

 ¿Cómo se mide la similaridad?, se puede hacer por correlación o proximidad en un espacio de dos dimensiones.

 ¿Cómo se forman los conglomerados?

 ¿Cuántos grupos se formarán?

Ejemplo 1:

Para medir la similitud se evalúa con la distancia euclidiana (línea recta) entre cada par de observaciones (ver Tabla), entendiendo que las distancias pequeñas indican similaridad, E y F son las más similares (1.414) y la A y F las más diferentes (6.403).

Observ. A B C D E F G

A

B 3.162

C 5.099 2.000

D 5.099 2.828 2.000

E 5.000 2.236 2.236 4.123

F 6.403 3.606 3.000 5.000 1.414

G 3.606 2.236 3.606 5.000 2.000 3.162

Formamos conglomerados ahora con un Procedimiento jerárquico moviéndose paso a paso para formar un rango completo de soluciones. También se denomina Método Aglomerativo dado que los conglomerados se forman con la combinación de conglomerados existentes.

Distancia

Mínima entre observa-ciones Solución por conglomerados

Paso Par observado Miembros en el conglomerado Núm. De Congl. Dist. Prom. Dentro Cong.

Sol. inicial A, B,C,D,E,F,G 7 0

1 1.414 E-F A, B,C,D,E-F,G 6 1.414

2 2.000 E-G A, B,C,D,E-F-G 5 2.192

3 2.000 C-D A, B,C-D,E-F-G 4 2.144

4 2.000 B-C A, B-C-D,E-F-G 3 2.234

5 2.236 B-E A,B-C-D-E-F-G 2 2.896

6 3.162 A=B A-B-C-D-E-F-G 1 3.420

Utilizando Minitab:

Stat > Multivariate Análisis > Cluster Observations

Distance Measured Euclidean Seleccionar Show Dendogram OK

Cluster Analysis of Observations: V1, V2

Euclidean Distance, Single Linkage

Amalgamation Steps

Number

Number of obs.

of Similarity Distance Clusters New in new

Step clusters level level joined cluster cluster

1 6 77.9137 1.41421 5 6 5 2

2 5 68.7652 2.00000 5 7 5 3

3 4 68.7652 2.00000 3 4 3 2

4 3 68.7652 2.00000 2 3 2 3

5 2 65.0785 2.23607 2 5 2 6

6 1 50.6135 3.16228 1 2 1 7

Final Partition

Number of clusters: 1

Within Average Maximum

cluster distance distance

Number of sum of from from

observations squares centroid centroid

Cluster1 7 41.4286 2.23187 3.77154

Ejemplo 2:

Se registran las siguientes características para 14 censos: Población total (Pop), mediana de años escolares (School), empleo total (Employ),empleo en servicios de salud (Health), y valor mediano del valor de la casa (Home). Los datos se muestran a continuación:

Pop School Employ Health Home

5.935 14.2 2.265 2.27 2.91

1.523 13.1 0.597 0.75 2.62

2.599 12.7 1.237 1.11 1.72

4.009 15.2 1.649 0.81 3.02

4.687 14.7 2.312 2.5 2.22

8.044 15.6 3.641 4.51 2.36

2.766 13.3 1.244 1.03 1.97

6.538 17 2.618 2.39 1.85

6.451 12.9 3.147 5.52 2.01

3.314 12.2 1.606 2.18 1.82

3.777 13 2.119 2.83 1.8

1.53 13.8 0.798 0.84 4.25

2.768 13.6 1.336 1.75 2.64

6.585 14.9 2.763 1.91 3.17

Se realiza un análisis de components principales para comprender la estructura de datos subyacente. Se usa la matriz de correlación para estandarizar las mediciones dado que no se mide con la misma escala.

Las instrucciones de Minitab son las siguientes:

1 Abrir la worksheet EXH_MVAR.MTW.

2 Stat > Multivariate > Principal Components.

3 En Variables, Pop-Home.

4 En Type of Matrix, seleccionar Correlation.

5 Click Graphs y seleccionar Scree plot.

6 Click OK en cada cuadro de diálogo.

Los resultados se muestran a continuación:

Principal Component Analysis: Pop, School, Employ, Health, Home

Eigenanalysis of the Correlation Matrix

Eigenvalue 3.0289 1.2911 0.5725 0.0954 0.0121

Proportion 0.606 0.258 0.114 0.019 0.002

Cumulative 0.606 0.864 0.978 0.998 1.000

Variable PC1 PC2 PC3 PC4 PC5

Pop -0.558 -0.131 0.008 0.551 -0.606

School -0.313 -0.629 -0.549 -0.453 0.007

Employ -0.568 -0.004 0.117 0.268 0.769

Health -0.487 0.310 0.455 -0.648 -0.201

Home 0.174 -0.701 0.691 0.015 0.014

Interpretando los resultados

El primer componente principal tiene varianza (eigenvalor) 3.029 y acumula el 60.6% de la varianza total. Los coeficientes para el PC1 muestran como calcular el nivel del componente principal.

PC1 = .558 Pop  .313 School  .568 Employ  .487 Health + .174 Home

Notar que la interpretación de los components principales es subjetiva, sin embargo, frecuentemente surgen patrones obvios. Por ejemplo, se podría pensar que el primer componente represente el efecto del tamaño de la población total, el nivel de escolaridad, empleo y servicios de salud, dado que los coeficientes de estos términos tienen el mismo signo y no son cercanos a cero.

El segundo componente tiene varianza 1.2911 y acumula el 25.8% de la variabilidad de los datos. Se calcula de los datos originales usando los coeficientes listados en PC2. Este componente podría ser pensado como nivel de contraste de escolaridad y valor de la casa con salud y empleo de alguna manera.

Juntos el primero y segundo componentes representan el 86.4% y 97%, respectivamente, de la variabilidad total. Así, la mayoría de la estructura de datos puede ser capturada en dos o tres dimensiones relevantes. Los componentes remanentes solo tienen una menor proporción de probabilidad y no son importantes. La gráfica Scree proporciona una visión gráfica de lo anterior.

Ejemplo 3:

Con los datos de HATCO se utilizan las siete percepciones de clientes para identificar segmentos de clientes.

Paso 1: Objetivos del análisis de conglomerados

El objetivo es segmentar objetos (clientes) en grupos con percepciones similares (X1 a X7). Una vez identificados, se pueden aplicar diferentes estrategias para para cada grupo.

X1 = Rapidez de entrega

X2 = Nivel de precio

X3 = Flexibilidad de precio

X4 = Imagen del fabricante

X5 = Servicio en general

X6 = Imagen de la fuerza de ventas

X7 = Calidad del producto

Paso 2. Diseño del análisis de conglomerados

Se identifica si no hay puntos aberrantes en los datos. Se selecciona la medida de similaridad, en este caso la distancia euclidiana al cuadrado. Si se observa multicolinealidad que afecte a las ponderaciones de las variables, entonces se puede utilizar la distancia de Mahalanobis (D2). La estandarización de variables no es importante dado que tienen valores parecidos.

Paso 3. Supuestos en el análisis de conglomerados

Para el análisis se considera que los datos de la muestra representan a la población de clientes de HATCO. Queda pendiente el efecto de la multicolinealidad en la ponderación implícita de los resultados.

Paso 4. Establecer conglomerados y evaluar el ajuste al modelo

Con Minitab:

1. Stat > Multivariate > Cluster observations

2. Variables or distance matrix X1 – X7

3. Linkage method Ward (minimize la distancia dentro de los conglomerados)

4. Distance Measure Squared Euclidean

5. Seleccionar Show Dendogram

6. Customize Label Y axis with Distances

7. OK

Los resultados se muestran a continuación:

Cluster Analysis of Observations: X1, X2, X3, X4, X5, X6, X7

Squared Euclidean Distance, Ward Linkage

Amalgamation Steps

Number

Number of obs.

of Similarity Distance Clusters New in new

Step clusters level level joined cluster cluster

1 99 100.000 0.000 15 20 15 2

2 98 99.987 0.010 5 42 5 2

3 97 99.987 0.010 24 27 24 2

4 96 99.975 0.020 47 61 47 2

5 95 99.949 0.040 19 28 19 2

6 94 99.924 0.060 67 90 67 2

7 93 99.912 0.070 36 41 36 2

8 92 99.912 0.070 51 77 51 2

9 91 99.912 0.070 18 92 18 2

10 90 99.912 0.070 33 62 33 2

11 89 99.874 0.100 25 44 25 2

12 88 99.874 0.100 85 87 85 2

13 87 99.874 0.100 43 46 43 2

14 86 99.836 0.130 38 63 38 2

15 85 99.798 0.160 69 81 69 2

16 84 99.760 0.190 50 72 50 2

17 83 99.760 0.190 56 91 56 2

18 82 99.760 0.190 94 98 94 2

19 81 99.722 0.220 1 95 1 2

20 80 99.722 0.220 16 73 16 2

21 79 99.722 0.220 75 99 75 2

22 78 99.722 0.220 37 48 37 2

23 77 99.684 0.250 11 100 11 2

24 76 99.646 0.280 4 89 4 2

25 75 99.646 0.280 84 88 84 2

26 74 99.646 0.280 23 32 23 2

27 73 99.646 0.280 2 83 2 2

28 72 99.646 0.280 29 78 29 2

29 71 99.646 0.280 3 71 3 2

30 70 99.520 0.380 17 64 17 2

31 69 99.457 0.430 8 68 8 2

32 68 99.457 0.430 12 76 12 2

33 67 99.330 0.530 9 74 9 2

34 66 99.267 0.580 52 60 52 2

35 65 99.153 0.670 10 34 10 2

36 64 99.115 0.700 26 59 26 2

37 63 98.939 0.840 49 97 49 2

38 62 98.812 0.940 7 67 7 3

39 61 98.686 1.040 13 21 13 2

40 60 98.673 1.050 40 54 40 2

41 59 98.673 1.050 82 93 82 2

42 58 98.656 1.063 10 30 10 3

43 57 98.648 1.070 66 80 66 2

44 56 98.591 1.115 36 84 36 4

45 55 98.332 1.320 6 70 6 2

46 54 97.902 1.660 45 86 45 2

47 53 97.877 1.680 39 96 39 2

48 52 97.761 1.772 10 53 10 4

49 51 97.321 2.120 13 35 13 3

50 50 96.355 2.885 50 69 50 4

51 49 96.203 3.005 40 45 40 4

52 48 95.986 3.177 14 38 14 3

53 47 95.818 3.310 9 58 9 3

54 46 95.552 3.520 22 55 22 2

55 45 95.325 3.700 65 79 65 2

56 44 94.826 4.095 10 31 10 5

57 43 94.301 4.510 6 52 6 4

58 42 94.054 4.706 10 37 10 7

59 41 93.996 4.751 14 66 14 5

60 40 93.783 4.920 15 19 15 4

61 39 93.745 4.950 16 29 16 4

62 38 93.594 5.070 4 75 4 4

63 37 92.867 5.645 25 33 25 4

64 36 92.341 6.062 25 26 25 6

65 35 91.633 6.622 18 50 18 6

66 34 90.732 7.335 23 56 23 4

67 33 90.566 7.466 9 12 9 5

68 32 89.797 8.075 11 85 11 4

69 31 89.607 8.225 8 36 8 6

70 30 88.621 9.005 1 51 1 4

71 29 88.537 9.072 13 22 13 5

72 28 87.859 9.608 40 94 40 6

73 27 87.621 9.797 4 24 4 6

74 26 86.484 10.697 3 10 3 9

75 25 86.381 10.778 18 43 18 8

76 24 86.216 10.909 7 15 7 7

77 23 85.195 11.717 16 47 16 6

78 22 85.001 11.870 39 65 39 4

79 21 82.841 13.580 3 57 3 10

80 20 82.550 13.810 9 14 9 10

81 19 81.104 14.954 9 49 9 12

82 18 77.848 17.531 2 4 2 8

83 17 76.996 18.205 8 17 8 8

84 16 67.541 25.688 1 25 1 10

85 15 65.781 27.081 2 40 2 14

86 14 61.257 30.661 7 9 7 19

87 13 60.778 31.040 11 23 11 8

88 12 56.202 34.662 6 8 6 12

89 11 49.784 39.741 2 39 2 18

90 10 42.640 45.395 3 82 3 12

91 9 40.362 47.197 1 18 1 18

92 8 36.171 50.514 1 16 1 24

93 7 29.104 56.107 6 11 6 20

94 6 19.593 63.634 5 7 5 21

95 5 17.930 64.950 1 13 1 29

96 4 -15.826 91.665 2 6 2 38

97 3 -96.701 155.669 2 3 2 50

98 2 -135.645 186.489 1 5 1 50

99 1 -839.878 743.820 1 2 1 100

Final Partition

Number of clusters: 1

Within Average Maximum

cluster distance distance

Number of sum of from from

observations squares centroid centroid

Cluster1 100 996.352 3.05166 5.27503

De Minitab con soluciones por grupos de Conglomerados:

1. Stat > Multivariate > Cluster K Means

2. Variables or distance matrix X1 – X7

3. Nmber of clusters 2 o 4

4. OK

Solución por dos conglomerados

K-means Cluster Analysis: X1, X2, X3, X4, X5, X6, X7

Final Partition

Number of clusters: 2

Within Average Maximum

cluster distance distance

Number of sum of from from

observations squares centroid centroid

Cluster1 52 315.799 2.383 4.285

Cluster2 48 294.132 2.368 4.279

Cluster Centroids

Grand

Variable Cluster1 Cluster2 centroid

X1 4.3827 2.5750 3.5150

X2 1.5808 3.2125 2.3640

X3 8.8615 6.8458 7.8940

X4 4.9250 5.5979 5.2480

X5 2.9577 2.8708 2.9160

X6 2.5250 2.8167 2.6650

X7 5.9038 8.1271 6.9710

Distances Between Cluster Centroids

Cluster1 Cluster2

Cluster1 0.0000 3.9347

Cluster2 3.9347 0.0000

En esta solución se observa que en el grupo o cluster 1 versus cluster 2, X1 y X3 son mayores.

En el caso de las variables X2, X4, X6 y X7 tienen valores más altos en el cluster 2 que en el cluster 1. X5 no muestra diferencia significativa. Por tanto se sugieren dos segmentos, evaluados desde un punto de vista conceptual y práctico.

Corriendo con SPSS se tiene:

1. Analyze > Clasify > K Jeans Clusters

2. Variables X1 – X7

3. Number of clusters 2

4. OK

ANOVA

Cluster Error F Sig.

Mean Square df Mean Square df

X1 81.563 1 .930 98 87.717 .000

X2 66.457 1 .766 98 86.753 .000

X3 101.414 1 .923 98 109.816 .000

X4 11.302 1 1.178 98 9.596 .003

X5 .188 1 .568 98 .331 .566

X6 2.123 1 .579 98 3.670 .058

X7 123.372 1 1.280 98 96.404 .000

The F tests should be used only for descriptive purposes because the clusters have been chosen to maximize the differences among cases in different clusters. The observed significance levels are not corrected for this and thus cannot be interpreted as tests of the hypothesis that the cluster means are equal.

Solución por cuatro conglomerados

K-means Cluster Analysis: X1, X2, X3, X4, X5, X6, X7

Final Partition

Number of clusters: 4

Within Average Maximum

cluster distance distance

Number of sum of from from

observations squares centroid centroid

Cluster1 34 155.126 2.100 2.922

Cluster2 29 123.693 2.012 3.211

Cluster3 14 54.234 1.833 3.051

Cluster4 23 109.941 2.031 3.947

Cluster Centroids

Grand

Variable Cluster1 Cluster2 Cluster3 Cluster4 centroid

X1 4.1441 2.0241 3.6143 4.4043 3.5150

X2 1.5794 2.7655 4.1286 1.9435 2.3640

X3 8.5765 7.0103 5.9500 9.1826 7.8940

X4 4.4176 5.1621 6.0643 6.0870 5.2480

X5 2.8353 2.3655 3.8429 3.1652 2.9160

X6 2.0882 2.5552 3.1643 3.3522 2.6650

X7 5.3147 8.2690 7.9500 7.1870 6.9710

Distances Between Cluster Centroids

Cluster1 Cluster2 Cluster3 Cluster4

Cluster1 0.0000 4.2514 5.0504 2.9268

Cluster2 4.2514 0.0000 2.9967 3.7896

Cluster3 5.0504 2.9967 0.0000 4.1141

Cluster4 2.9268 3.7896 4.1141 0.0000

El Cluster 3 es mucho más compacto que el cluster 1, como se indica por la suma de cuadrados.

En este caso se muestra en forma más clara un grupo de patrones con valores altos y otro con valores bajos.

Corriendo con SPSS se tiene:

5. Analyze > Clasify > K Jeans Clusters

6. Variables X1 – X7

7. Number of clusters 4

OK

ANOVA

Cluster Error F Sig.

Mean Square df Mean Square df

X1 37.108 3 .639 96 58.055 .000

X2 28.530 3 .583 96 48.960 .000

X3 37.115 3 .839 96 44.224 .000

X4 15.527 3 .835 96 18.598 .000

X5 7.487 3 .348 96 21.509 .000

X6 8.242 3 .355 96 23.204 .000

X7 53.222 3 .928 96 57.330 .000

The F tests should be used only for descriptive purposes because the clusters have been chosen to maximize the differences among cases in different clusters. The observed significance levels are not corrected for this and thus cannot be interpreted as tests of the hypothesis that the cluster means are equal.

Investigando ahora la agrupación de variables se tiene:

En Minitab:

1. Stat > Multivariate > Cluster variables

2. Variables or distance matrix X1 – X7

3. Linkage method Ward (minimize la distancia dentro de los conglomerados)

4. Distance Measure Correlation

5. Seleccionar Show Dendogram

6. Customize Label Y axis with Distances

7. OK

Los resultados se muestran a continuación:

Cluster Analysis of Variables: X1, X2, X3, X4, X5, X6, X7

Correlation Coefficient Distance, Ward Linkage

Amalgamation Steps

Number

Number of obs.

of Similarity Distance Clusters New in new

Step clusters level level joined cluster cluster

1 6 89.4112 0.21178 4 6 4 2

2 5 80.5950 0.38810 1 5 1 2

3 4 73.4873 0.53025 2 7 2 2

4 3 57.8288 0.84342 1 3 1 3

5 2 39.4434 1.21113 2 4 2 4

6 1 -4.3342 2.08668 1 2 1 7

Se identifican conglomerados en las variables X1 y X5; X2 y X7; X4 y X6, después entre X1, X5, X3 y X2, X7, X4 y X6 y al final un solo conglomerado.

Paso 5. Interpretación de los conglomerados

Como resultado de un análisis factorial se tiene:

Instrucciones en Minitab:

1. Stat > Multivariate > Factor analysis

2. Variables X1 – X7 Method of Extraction Maximum likelihood

3. Rotation Varimax

4. Graphs Scree Plot Loading Plot for first two factors

5. OK

Factor Analysis: X1, X2, X3, X4, X5, X6, X7

Maximum Likelihood Factor Analysis of the Correlation Matrix

* NOTE * Heywood case

Unrotated Factor Loadings and Communalities

Variable Factor1 Factor2 Communality

X1 0.969 0.177 0.971

X2 -0.181 -0.984 1.000

X3 0.436 0.400 0.350

X4 0.133 -0.301 0.108

X5 0.752 -0.660 1.000

X6 0.133 -0.214 0.063

X7 -0.424 -0.400 0.340

Variance 1.9431 1.8896 3.8327

% Var 0.278 0.270 0.548

Rotated Factor Loadings and Communalities

Varimax Rotation

Variable Factor1 Factor2 Communality

X1 -0.894 0.414 0.971

X2 0.714 0.700 1.000

X3 -0.587 -0.075 0.350

X4 0.065 0.323 0.108

X5 -0.235 0.972 1.000

X6 0.015 0.251 0.063

X7 0.577 0.082 0.340

Variance 2.0468 1.7859 3.8327

% Var 0.292 0.255 0.548

Factor Score Coefficients

Variable Factor1 Factor2

X1 0.000 -0.000

X2 1.132 0.273

X3 0.000 -0.000

X4 -0.000 -0.000

X5 -0.815 0.832

X6 -0.000 -0.000

X7 -0.000 0.000

Para las correlaciones en Minitab:

1. Stat > Basic statistics > Correlations

2. Variables X1 – X7 Show P values

3. OK

Correlations: X1, X2, X3, X4, X5, X6, X7

X1 X2 X3 X4 X5 X6

X2 -0.349

0.000

X3 0.476 -0.472

0.000 0.000

X4 0.050 0.272 -0.095

0.618 0.006 0.347

X5 0.612 0.513 0.064 0.299

0.000 0.000 0.524 0.003

X6 0.077 0.186 -0.015 0.788 0.241

0.446 0.064 0.880 0.000 0.016

X7 -0.483 0.470 -0.407 0.200 -0.055 0.177

0.000 0.000 0.000 0.046 0.586 0.078

Cell Contents: Pearson correlation

P-Value

Al definir los factores que son las dimensiones de las variables que se correlacionan significativamente, se observan dos factores. El primer factor contiene a X1, X2, X3 y X7 y el segundo factor contiene a los aspectos de imagen X4 y X6. En el primer factor X2 y X7 se relacionan inversamente con X1 y X3, es decir que mientras se incrementan unas, las otras bajan. Esto sugiere que altos valores en X1 y X3 implican valores bajos en X2 y X7. O sea que definir conglomerados sólo con base en valores altos o bajos es inapropiado.

De la tabla ANOVA para dos conglomerados se observa que solo X5 – Servicio general no es significativa.

De la gráfica de centros de conglomerados se observa que X4 y X6 tienen valores mayores en el conglomerado 2 que en el 1 y X1, X3 tienen valores mayores en el conglomerado 1 que en el 2 y X2 y X7 son menores.

Para el caso de 4 conglomerados, el 1 se divide en 1 y 4 y el 2 se divide en 2 y 3 se tiene:

En general la aplicación del análisis de conglomerados es un arte más que una ciencia y se deben aplicar criterios objetivos y subjetivos adecuados.

8. ANÁLISIS FACTORIAL

8. ANÁLISIS FACTORIAL

El análisis factorial es un método cuyo propósito principal es definir la estructura subyacente de una matriz de datos. Atiende el problema de analizar la estructura de las interrelaciones (correlaciones) entre un gran número de variables (vgr. Respuestas de cuestionarios) al definir un conjunto de dimensiones subyacentes comunes, conocidas como factores. Con el análisis factorial se identifican las dimensiones separadas de la estructura y después se determina que tanto cada variable es explicada por cada dimensión. Una vez que se determinan las dimensiones y se explican las variables por cada dimensión, se puede hacer un resumen y reducción de datos.

El análisis factorial es una técnica de interdependencia en la cual todas las variables son consideradas de manera simultanea, cada una relacionada a las otras, y empleando el concepto de variate, composición lineal de variables. De hecho las variates (factores) se forman para maximizar su explicación de todo el conjunto de variables, no para predecir una variable dependiente(s). Una variate (factor) es una variable dependiente que es función del conjunto total de variables.

Se usa el Análisis factorial, de manera similar al análisis de componentes principales, para resumir la estructura de covarianza de los datos en una pocas dimensiones de los mismos. Sin embargo, el énfasis en análisis factorial es la identificación de los “factores subyacentes” que pueden explicar las dimensiones asociadas con la gran variabilidad de los datos.

Se pueden tener tres tipos de datos de entrada:

 Columnas de datos unitarios

 Una Matriz de correlaciones o covarianzas

 Columnas conteniendo ponderaciones de factores

Con los datos del ejemplo anterior de Componentes principales, realizar un análisis factorial como sigue:

Nos gustaría investigar que “factores” pueden explicar la mayor parte de la variabilidad. Como primer paso del análisis factorial, se utiliza la extracción de componentes principales y se examinan los eigenvalores en gráfica como ayuda para decidir el número de factores.

PROCESO DE DECISIÓN DE ANÁLISIS FACTORIAL

Paso 1. Objetivos del Análisis factorial

El propósito es encontrar una forma de condensar (resumir) la información contenida en un cierto número de variables originales, en un grupo más pequeño de dimensiones nuevas, compuestas o variates (factores) con un mínimo de pérdida de información.

Por ejemplo si hay datos de 100 cuestionarios en 10 características, el análisis factorial se aplica a la matriz de correlación de variables y se denomina Análisis Factorial R, para identificar las dimensiones que están latentes o no son fácilmente observables.

El análisis factorial también se puede aplicar a una matriz de correlación de los cuestionarios individuales basados sus características, referido como Análisis Factorial Q, es un método de condensar o combinar un grupo grande de gente en diferentes grupos distintos dentro de una población grande, para esto se utiliza el análisis de conglomerados (clusters).

Paso 2. Diseño del análisis factorial

Incluye tres decisiones básicas: (1) cálculo de los datos de entrada (una matiz de correlación) para cumplir con los objetivos especificados de agrupar variables o cuestionarios; (2) el diseño del estudio en términos del nñumeor de variables, propiedades de medición de las variables, y el tipo de variables permitidas y (3) el tamaño de muestra necesario (al menos 5 veces el númro de variables analizadas), ambos en términos absolutos y como función de del número de variables en el análisis.

Paso 3. Supuestos del análisis factorial

Es deseable algún grado de multicolinealidad entre variables dado que el objetivo es identificar conjuntos de variables interrelacionadas, no son tan importantes la normalidad, homoestacidad y linealidad a menos que disminuyan significativamente las correlaciones observadas.

La matriz de correlación debe indicar valores mayores a 0.3 para aplicar el análisis de correlación. También si las correlaciones parciales entre variables (correlación entre variables cuando el efecto de las otras variables se toma en cuenta) son pequeñas dado que la variable puede explicada por los factores (variates con ponderacións para cada una de las variables). Si las correlaciones parciales son altas, no hay factores subyacentes “verdaderos” y el análisis factorial es inapropiado.

La prueba de esfericidad de Bartlett mide la presencia de correlaciones entre las variables, proporciona la probabilidad de que la matriz de correlación tenga correlaciones significativas en algunas de las variables. Otro indicador es el “Measure of Sampling Adequacy (MSA)”, con rango de 0 a 1, donde 0.8 o más es meritorio; 0.07 o más es regular; 0.60 o más es mediocre; 0.50 o más miserable y debajo de 0.50 inaceptable.

El supuesto básico en el análisis factorial es que existe una estructura subyacente en el conjunto de variables seleccionadas.

Paso 4. Identificando factores y evaluando el ajuste del modelo

Una vez que se especifican las variables y se prepara la matriz de correlación, se toman decisiones en relación a (1) el método de extracción de los factores (análisis de factores comunes versus análisis de componentes) y (2) el número de factores seleccionados para representar la estructura subyacente en los datos.

Análisis de componentes

El análisis de componentes se usa cuando el objetivo es resumir la mayor parte de la información original (varianza) en un mínimo número de factores para propósitos de predicción. Considera la varianza total y determina factores que contienen pequeñas proporciones de varianza única y, en algunos casos, varianza del error.

Análisis factorial

En contraste el análisis de factores comunes se utiliza para identificar los factores subyacentes o dimensiones que reflejan aquello que las variables comparten en común.

En este método se tienen tres tipos de varianzas: (1) común, (2) específica (única), y (3) error. La varianza común se define como la varianza en una variable que es compartida por todas las demás variables. La varianza específica es la varianza asociada solo con una variable específica. La varianza del error es la varianza debida a la incertidumbre en el proceso de recolección de datos, errores de medición, o componente aleatorio en el fenómeno medido.

Criterios para el número de factores a extraer

El método primero extrae la combinación de variables explicando la mayor cantidad de varianza y después continua con combinaciones que representan menos y menos cantidades de varianza.

La selección de factores a extraer equivale a enfocar un microscopio normalmente se hace por prueba y error contrastando los resultados.

Criterio de Raíz Latente: su racional es que cualquier factor individual debe contener la varianza de al menos una variable. Como cada variable contribuye con 1 al eigenvalor total o raíz latente. Se seleccionan solo los factores con eigenvalores mayores a uno, cuando se tienen menos de 20 variables, los factores extraídos son pocos.

Criterio a Priori: en este método el investigador ya tiene una idea clara de los factores a extraer y así lo indica en la computadora.

Criterio de porcentaje de varianza: Enfoque basado en lograr un porcentaje acumulado de varianza total extraído por factores sucesivos. Normalmente el proceso para al acumular 95%.

Criterio Scree Test: Se usa para identificar el número óptimo de factores que pueden ser extraídos antes de que la cantidad de varianza única empiece a dominar la estructura de varianza común.

Paso 5. Interpretando los factores

Se obtiene la matriz no rotada para estimar el número de factores a extraer. La matriz de factores contiene ponderacións de factores para cada variable en cada factor. El primer factor puede verse como la mejor combinación lineal incluida en los datos, con cada factor con ponderacións significativos y acumula la mayor parte de a varianza; el segundo factor es la segunda mejor combinación lineal de variables, sujeta a que es ortogonal al primer factor, se basa en la porción residual de la varianza una vez removido el primero, así sucesivamente.

Los ponderacións de los factores representan la correlación de cada una de las variables y el factor, entre mayores sean, mayor será la representatividad del factor por la variable.

La rotación de los factores más simple es una rotación ortogonal, en la cual se mantienen los ejes a 90 grados. Se pueden rotar los ejes sin mantener los 90 grados entre los ejes de referencia. Cuando no hay restricción de ortogonalidad, el procedimiento de rotación se denomina rotación oblicua.

Fig. 1 Rotación ortogonal de factores (observar la ponderación o ponderación de factores I y II en la variable V2, es más clara cuando se rotan los factores)

En la figura se observan dos conglomerados de variables (V1 y V2) y (V3, V4 y V5), sin embargo con los factores sin rotar no es muy obvia su ponderación o ponderación de los factores I y II. Después de la rotación de los ejes de factores, las variables 3, 4 y 5 tienen una ponderación o ponderación fuerte de factor I, y las variables 1 y2 tienen una ponderación o ponderación fuerte en el factor II. Siendo más obvia la distinción entre conglomerados en dos grupos.

Métodos de rotación ortogonal

En la práctica el objetivo de todos los métodos de rotación es simplificar las filas y columnas de la matriz de factores para facilitar la interpretación. En una matriz de factores las columnas representan factores, con cada renglón correspondiente a la ponderación de las variables a través de los factores. Al simplificar los renglones, se hacen tantos valores en cada fila tan cercanos a cero como sea posible (i.e. maximizando la ponderación de una variable con un factor único). Simplificando las columnas, se hacen tantos valores en las columnas tan cercanos a cero como sea posible (i.e. hacer el máximo número de ponderacións “altas” como sea posible). Se han desarrollado tres métodos para lo anterior como sigue:

Quartimax: para simplificar las filas de la matriz; o sea, que Quartimax se enfoca a rotar los factores iniciales de manera que las variables tengan la mayor ponderación posible de un factor y la mínima de los otros. Aunque este método no ha sido eficiente.

Varimax: se centra en simplificar las columnas de la matriz factorial. La máxima simplificación posible se logra cuando solo hay 1’s y 0’s en la columna. Es decir que VARIMAX maximiza la suma de variancias de ponderacións requeridas de la matriz factorial. Este método ha probado ser un método analítico efectivo para obtener una rotación ortogonal de factores.

Equimax:

Es un compromiso entre las anteriores. Trata de simplificar los renglones y las columnas, no se utiliza frecuentemente.

Métodos de rotación oblicua:

Estos métodos son similares a las rotaciones ortogonales excepto que permiten factores correlacionados en vez de mantener la independencia de los factores rotados.

En general no hay reglas para seleccionar uno de los métodos anteriores.

Criterios para la significancia de ponderación de factores en las variables

De manera práctica si las ponderacións son de  0.30 se considera que cumplen el nivel mínimo; ponderacións de  0.40 son importantes;  0.50 o mayores son significativas en la práctica. Como la ponderación del factor es la correlación de la variable y el factor, la ponderación al cuadrado es la cantidad representada de la varianza total por el factor. De esta forma con  0.3 se tiene un 10% de explicación y un 0.5 de ponderación denota que un 25% de la varianza es representada por el factor.

Evaluando la significancia estadística

Con base en un nivel de significancia de 0.05, un nivel de potencia del 80% y errores estándar asumidos se el doble de los coeficientes de correlación convencionales, se tiene la tabla siguiente:

Ponderación del factor Tamaño de muestra requerida para tener significancia

0.30 350

0.35 300

0.40 250

0.45 200

0.50 150

0.55 100

0.60 85

0.65 70

0.70 60

Resumiendo las guías para la significancia de los factores son:

(1) entre mayor sea el tamaño de muestra, el valor de ponderación significativo se reduce.

(2) Entre más variables sean consideradas en el análisis, más pequeña es la ponderación que se considera significativa.

(3) Entre más factores haya, mayor es la ponderación en los factores adicionales para que sea considerada significativa.

Cada columna de números en la matriz representa un factor por separado. Las columnas de números representan las ponderacións para cada una de las variables. Identificar la más alta ponderación para cada variable. Recordar que para tamaños de muestra similares a 100 se considera significante  0.3. La comunalidad para cada variable representa la cantidad de varianza considerada por la solución factorial para cada variable. Evaluar la comunalidad de las variables, es decir identificar las que tengan más del 50%, ya que las que tengan menos no tienen suficiente explicación. El nombre de los factores se desarrolla de manera intuitiva, con base en las variables con una mayor ponderación se consideran más importantes y tienen una mayor influencia para el nombre seleccionado para representar al factor.

Validación del análisis factorial

Se trata de evaluar el grado de generalización de los resultados en la población y la influencia potencial de casos individuales en los resultados totales.

El alfa de Cronbach es una medida del coeficiente de confiabilidad que evalua la consistencia de toda la escala. Este índice es la relación positiva del número de ítems en la escala, donde 0.7 se considera adecuado.

Ejemplo con datos de HATCO

Prueba de la adecuación del modelo, utilizando Minitab:

1. Stat > Basic statistics > Correlation

2. Variables X1, X2, X3, X4, X6, X7

3. Display p values

4. OK

Correlations: X1, X2, X3, X4, X6, X7

X1 X2 X3 X4 X6

X2 -0.349

0.000

X3 0.476 -0.472

0.000 0.000

X4 0.050 0.272 -0.095

0.618 0.006 0.347

X6 0.077 0.186 -0.015 0.788

0.446 0.064 0.880 0.000

X7 -0.483 0.470 -0.407 0.200 0.177

0.000 0.000 0.000 0.046 0.078

Cell Contents: Pearson correlation

P-Value

De la matriz, 7 de 15 correlaciones son significativas estadísticamente. El valor de MSA de 0.665 cumple con con el criterio para aplicar el análisis factorial.

Análisis factorial con Minitab:

Las instrucciones de Minitab son las siguientes:

1 Cargar los datos de HATCO.

2 Stat > Multivariate > Factor Analysis.

3 En Variables, X1, X2, X3, X4, X6, X7

4 En Number of factors to extract, 2.

5 En Method of Extraction, seleccionar Principal components

6 En Type of Rotation, seleccionar Varimax.

7 Click Graphs y seleccionar Loading plot for first 2 factors y Scree Plot.

8 Click Results y seleccionar Sort loadings. Click OK en cada uno de los cuadros de diálogo.

Los resultados se muestran a continuación:

Factor Analysis: X1, X2, X3, X4, X6, X7

Principal Component Factor Analysis of the Correlation Matrix

Unrotated Factor Loadings and Communalities

Variable Factor1 Factor2 Communality

X1 0.618 -0.517 0.649

X2 -0.763 0.079 0.588

X3 0.695 -0.357 0.610

X4 -0.502 -0.793 0.881

X6 -0.434 -0.827 0.873

X7 -0.761 0.170 0.609

Variance 2.4664 1.7425 4.2089

% Var 0.411 0.290 0.701

El primer factor contiene la mayor parte de la varianza y es un factor general con alta ponderación en cada variable. Las ponderacións para el segundo factor muestra tres variables que también tiene alta ponderación (X1, X4 y X6). La interpretación es sumamente difícil y sin significado, por lo que se debe considerar la rotación de factores como sigue:

Rotated Factor Loadings and Communalities

Varimax Rotation

Variable Factor1 Factor2 Communality

X1 -0.783 0.188 0.649

X2 0.718 0.268 0.588

X3 -0.781 0.010 0.610

X4 0.097 0.934 0.881

X6 0.020 0.934 0.873

X7 0.758 0.186 0.609

Variance 2.3231 1.8858 4.2089

% Var 0.387 0.314 0.701

Las variables X1, X2 y X3 ponderaciónn significativamente al factor 1 y las variables X4 y X6 ponderaciónn significativamente al factor 2.

Si se considera como punto de corte las ponderacións con  0.55 o más, el factor 1 tiene cuatro ponderacións significativas y el factor 2 tiene 2. Para el factor 1, se ven dos grupos de variables. Las primeras son el nivel de precios (X2) y la calidad del producto (X7) ambas con signos positivos y varían como conjunto. Las otras dos, tiempo de entrega (X1) y flexibilidad de precios (X3) tienen signos negativos también varían como conjunto.

En el factor 1, ambos grupos varían en sentido contrario, tal vez este factor sea el valor básico y representa un compromiso entre percepciones de precio o calidad del producto y percepciones de tiempo de entrega y flexibilidad de precios.

En el factor 2, la variable X4 (imagen de fabricación) y X6 (imagen de la fuerza de ventas) tal vez se pueda agrupar en imagen, ambas variables tienen el mismo signo, actuando en la misma dirección.

La variable X5 (servicio en general) no se incluyó en al análisis.

Se tienen ahora dos factores como combinación lineal de las variables para efectos de realización de estudios:

Factor Score Coefficients

Variable Factor1 Factor2

X1 -0.356 0.154

X2 0.297 0.097

X3 -0.343 0.058

X4 -0.020 0.498

X6 -0.054 0.503

X7 0.320 0.050

Para verificar la validez del modelo se pueden hacer dos grupos de 50 observaciones y comparar sus matrices rotadas.

Data 1 – 50: Rotated Factor Loadings and Communalities

Varimax Rotation

Variable Factor1 Factor2 Communality

X1_1 -0.827 0.085 0.691

X2_1 0.603 0.376 0.506

X3_1 -0.686 -0.177 0.502

X4_1 0.156 0.919 0.869

X6_1 0.136 0.924 0.871

X7_1 0.702 0.201 0.533

Variance 2.0548 1.9178 3.9726

% Var 0.342 0.320 0.662

Data 51 – 100: Rotated Factor Loadings and Communalities

Varimax Rotation

Variable Factor1 Factor2 Communality

X1_2 0.741 -0.313 0.647

X2_2 -0.785 -0.190 0.652

X3_2 0.815 -0.154 0.688

X4_2 -0.041 -0.949 0.903

X6_2 0.052 -0.923 0.854

X7_2 -0.824 -0.154 0.703

Variance 2.5127 1.9338 4.4466

% Var 0.419 0.322 0.741

Como se ve las dos rotaciones VARIMAX son comparables en términos de ponderacións y comunalidades para las seis percepciones. Así se puede asegurar que los resultados son estables dentro de la muestra.

De la gráfica Scree Plot con los Eigenvalores de los factores se tiene:

Sólo dos factores serán mantenidos si se toma como referencia el Eigenvalor de 1 o tres si se toma como referencia el criterio Scree.

La gráfica de ponderacións por variables se muestra a continuación, identificando tres grupos de variables:

En resumen se identifican dos dimensiones Valor básico e Imagen, ahora se pueden hacer planes alrededor de estas dos dimensiones en lugar de considerar todas las variables separadas.

Ejemplo con datos del archivo EXH_MVAR

Se registran las siguientes características de 14 regiones censadas: población total (Pop), promedio de escolaridad (School), empleo total (Employ), empleo en servcios de salud (Health), y valor promedio de casa (Home). Se desea investigar que “factores” podrían explicar la mayor parte de la variabilidad. Como primer paso del análisis factorial, se usa el método de extracción de componentes principales y se examina la gráfica de eigenvalores (Scree) para apoyarnos en decidir sobre el número de factores.

Pop School Employ Health

5.935 14.2 2.265 2.27

1.523 13.1 0.597 0.75

2.599 12.7 1.237 1.11

4.009 15.2 1.649 0.81

4.687 14.7 2.312 2.5

8.044 15.6 3.641 4.51

2.766 13.3 1.244 1.03

6.538 17 2.618 2.39

6.451 12.9 3.147 5.52

3.314 12.2 1.606 2.18

3.777 13 2.119 2.83

1.53 13.8 0.798 0.84

2.768 13.6 1.336 1.75

6.585 14.9 2.763 1.91

Las instrucciones de Minitab son las siguientes:

1 Abrir la worksheet EXH_MVAR.MTW.

2 Stat > Multivariate > Factor Analysis.

3 En Variables, poner Pop-Home.

4 Click Graphs y seleccionar Scree plot. Click OK in each dialog box.

Los resultados se muestran a continuación:

Factor Analysis: Pop, School, Employ, Health, Home

Principal Component Factor Analysis of the Correlation Matrix

Unrotated Factor Loadings and Communalities

Variable Factor1 Factor2 Factor3 Factor4 Factor5 Communality

Pop -0.972 -0.149 0.006 0.170 -0.067 1.000

School -0.545 -0.715 -0.415 -0.140 0.001 1.000

Employ -0.989 -0.005 0.089 0.083 0.085 1.000

Health -0.847 0.352 0.344 -0.200 -0.022 1.000

Home 0.303 -0.797 0.523 0.005 0.002 1.000

Variance 3.0289 1.2911 0.5725 0.0954 0.0121 5.0000

% Var 0.606 0.258 0.114 0.019 0.002 1.000

Factor Score Coefficients

Variable Factor1 Factor2 Factor3 Factor4 Factor5

Pop -0.321 -0.116 0.011 1.782 -5.511

School -0.180 -0.553 -0.726 -1.466 0.060

Employ -0.327 -0.004 0.155 0.868 6.988

Health -0.280 0.272 0.601 -2.098 -1.829

Home 0.100 -0.617 0.914 0.049 0.129

Interpretación de resultados

Cinco factores describen estos datos perfectamente, pero la meta es reducir el número de factores requeridos para explicar la variabilidad de los datos. La proporción de la variabilidad explicada por los dos últimos factores es mínima (0.019 y 0.002 respectivamente) y pueden ser eliminadas sin afectar al resultado. Los primeros dos factores juntos representan 86% de la variabilidad mientras que tres factores representan 98% de la variabilidad. La cuestión es si usar dos o tres factores, se requieren otras corridas para decidir si usar dos o tres factores.

Se seleccionan dos factores como el número que representa los datos del censo en base al análisis de componentes principales. Se realiza una extracción de máxima verisimilitud y rotación varimax para interpretar los factores.

Las instrucciones de Minitab son las siguientes:

1 Abrir la worksheet EXH_MVAR.MTW.

2 Stat > Multivariate > Factor Analysis.

3 En Variables, Pop-Home.

4 En Number of factors to extract, 2.

5 En Method of Extraction, seleccionar Maximum likelihood.

6 En Type of Rotation, seleccionar Varimax.

7 Click Graphs y seleccionar Loading plot for first 2 factors.

8 Click Results y seleccionar Sort loadings. Click OK en cada uno de los cuadros de diálogo.

Los resultados se muestran a continuación:

Factor Analysis: Pop, School, Employ, Health, Home

Maximum Likelihood Factor Analysis of the Correlation Matrix

* NOTE * Heywood case

Unrotated Factor Loadings and Communalities

Variable Factor1 Factor2 Communality

Pop 0.971 0.160 0.968

School 0.494 0.833 0.938

Employ 1.000 0.000 1.000

Health 0.848 -0.395 0.875

Home -0.249 0.375 0.202

Variance 2.9678 1.0159 3.9837

% Var 0.594 0.203 0.797

Rotated Factor Loadings and Communalities

Varimax Rotation

Variable Factor1 Factor2 Communality

Pop 0.718 0.673 0.968

School -0.052 0.967 0.938

Employ 0.831 0.556 1.000

Health 0.924 0.143 0.875

Home -0.415 0.173 0.202

Variance 2.2354 1.7483 3.9837

% Var 0.447 0.350 0.797

Sorted Rotated Factor Loadings and Communalities

Variable Factor1 Factor2 Communality

Health 0.924 0.143 0.875

Employ 0.831 0.556 1.000

Pop 0.718 0.673 0.968

Home -0.415 0.173 0.202

School -0.052 0.967 0.938

Variance 2.2354 1.7483 3.9837

% Var 0.447 0.350 0.797

Factor Score Coefficients

Variable Factor1 Factor2

Pop -0.165 0.246

School -0.528 0.789

Employ 1.150 0.080

Health 0.116 -0.173

Home -0.018 0.027

Estos resultados indican un caso Heywood (las varianzas menores al límite de convergencia especificado se ponen a cero y sus comunalidades a 1).

Se tienen tres tablas de ponderaciones y comunalidades: no rotadas, rotadas, ordenadas y rotadas. Los factores no rotados explican el 79.7 de la variabilidad de los datos y los valores de comunalidad indican que todas las variables sin Home están bien representadas por esos dos factores (comunalidad son 0.202 para Home, 0.875 – 1.0 para otras variables). El porcentaje de la variabilidad total representada por los factores no cambia con la rotación, sino después de rotar, pero después de rotar, estos factores son mas claramente balanceados en el porcentaje de variabilidad que ellos representan, siendo 44.7% y 35%, respectivamente.

El ordenamiento es realizado por la ponderación máxima absoluta para cualquier factor. Las variables que tienen la mayor ponderación absoluta en el factor 1 se muestran primero en orden. Después las variables con la ponderación mayor en el factor 2 y así sucesivamente. El factor 1 tiene su ponderación mayor positiva en Health (0.924), Employ (0.831) y Pop (0.718), y -0.415 en Home, mientras que la ponderación en School es baja. El factor 2 tiene una ponderación positiva en School de 0.967 y ponderación de 0.556 y 0.673 en Employ y Pop respectivamente, y una ponderación pequeña en Health y Home.

Se pueden ver las ponderaciones rotadas gráficamente en la gráfica de ponderaciones (load graph). Ahí se muestra para factor 1 con ponderaciones altas en Pop, Emply, y Health y ponderación negativa en Home. School tiene una ponderación alta positiva para el factor 2 y algo menor para Pop y Employ.

De los resultados se puede pensar en que el factor 1 sea un factor relacionado con “Cuidado de la salud – tamaño de la población”. El factor 2 puede ser considerado como un factor relacionado con “educación – tamaño de la población”.

En forma adicional Minitab muestra una tabla de coeficientes del factor. Muestran como se calculan los factores. Minitab calcula los valores multiplicando los coeficientes y los datos después de corregirlos centrándolos al restarle sus medias.

9. ANÁLISIS DE REGRESIÓN MÚLTIPLE

9. ANÁLISIS DE REGRESIÓN MÚLTIPLE

Es una técnica estadística que se puede usar para analizar la relación entre una variable dependiente simple (respuesta, criterio) y varias variables independientes cuyos valores son conocidos para predecir la variable dependiente. Los pesos denotan la contribución relativa de las variables independientes a la predicción general y facilitar la interpretación de la influencia de cada variable en la predicción, lo que se complica si hay correlación de las variables independientes.

El conjunto de variables independientes con sus pesos forma la Variate de regresión, ecuación de regresión o modelo de regresión, que es una combinación lineal de las variables independientes que mejor predicen la variable dependiente.

Los supuestos de un análisis de regresión múltiple son los siguientes:

 Linealidad del fenómeno medido

 Varianza constante de los términos de error

 Independencia de los términos de error

 Normalidad de la distribución de los términos de error.

Términos clave

 Coeficiente ajustado de determinación (R2 ajustada): Es una métrica modificada del coeficiente de determinación que toma en cuenta el número de variables independientes incluidas en la ecuación de regresión y el tamaño de muestra. A pesar de que la adición de variables independientes hace que se incremente el coeficiente de determinación, el coeficiente de determinación ajustado se reduce si las variables independientes tienen poco poder explicativo y/o si los grados de libertad son muy pequeños. Este estadístico es útil para comparar ecuaciones con diferentes números de variables independientes, con diferentes tamaños de muestra, o ambos.

 Regresión con todos los posibles subconjuntos: Método de selección de variables en el modelo que considera todas las combinaciones posibles de las variables independientes. Por ejemplo para cuatro variables, se estiman modelos para una, dos, tres y cuatro variables, identificando el modelo con la mayor capacidad predictiva.

 Eliminación hacia atrás: Método de selección de variables en el modelo que inicia con todas las combinaciones posibles de las variables independientes para ir eliminando las que no tienen una contribución significativa a la predicción.

 Coeficiente beta: Coeficientes estandarizados de la regresión que permite una comparación directa de su potencia relativa explicatoria de la variable dependiente.

 Coeficiente de determinación (R2): Mide la proporción de la varianza de la variable dependiente alrededor de su media que es explicada por las variables predictoras independientes. El coeficiente puede variar entre 0 y 1. Entre mayor sea su valor es mejor la predicción de la variable dependiente.

 Colinealidad: Expresión de la relación entre dos (colinealidad) o entre varias (multicolinealidad) variables independientes. Dos variables independientes tienen colinealidad total si coeficiente de correlación es 1 y no tienen colinealidad si coeficiente de correlación es cero. La multicolinealidad se presenta cuando una variable independiente está muy correlacionada con otras variables independientes.

 Coeficiente de correlación (r.): Coeficiente que indica la fuerza de la asociación entre dos variables medibles. El signo (+) o (-) indica la dirección de la relación. +1 o -1 indica una correlación perfecta positiva (cuando aumenta una variable, aumenta la otra) o negativa (inversa – cuando aumenta una variable, la otra disminuye) y 0 sin correlación.

 Grados de libertad: En una regresión simple se estiman dos parámetros, la intersección (b0) y el coeficiente de la regresión para la variable independiente (b1). Por tanto los grados de libertad proporcionan una medida de cómo se restringen los datos para alcanzar un cierto nivel de predicción (n-2). Si el número de grados de libertad es pequeño, la predicción resultante no puede generalizarse, esta será más robusta con un valor alto de grados de libertad.

 Variable ficticia: Es una variable independiente usada para contabilizar el efecto que tienen diferentes niveles de una variable no medible al predecir la variable dependiente. Para contabilizar los L niveles de una variable independiente no medible, se requieren L-1 variables artificiales. En el caso de Hombre – Mujer se requiere una variable X con valores 0 y 1; para tres niveles se requerirán dos variables X1 y X2.

 Adición hacia delante: Método de selección de variables en el modelo que inicia sin las variables independientes para ir agregándolas con base en su contribución a la predicción.

 Homoestacidad: Descripción de los datos para los cuales la varianza de los términos de error (e ) aparece constante sobre el rango de valores de la variable independiente. Cuando los términos de error tienen varianza incremental o modulada, se dice que los datos tienen Heteroestacidad.

 Observación influyente: Es una observación que tiene una influencia desproporcionada en uno o más aspectos de los estimados de la regresión, puede ser basada en valores extremos de las variables independientes y dependiente o ambas.

 Outlier: Es una observación que tiene una diferencia significativa entre el valor real de la variable dependiente y el valor de predicción. Los casos que son muy diferentes ya sea en sus variables independientes o dependiente. Deben analizarse para poder eliminarlas.

 Coeficiente de correlación parcial: Valor que mide la fuerza de la relación entre la variable dependiente o criterio y una única variable independiente manteniendo constante los efectos de las otras variables independientes. Es útil para identificar la variable independiente con la mayor capacidad predictiva incremental. Se le asocian los estadísticos parciales de F y t así como su gráfica de regresión parcial.

 Potencia: Probabilidad de que se tenga una relación significativa si realmente existe. Complementa el nivel de significancia Alfa.

 Error de predicción: Diferencia entre los valores reales y estimados de la variable dependiente para cada observación en la muestra (residuos).

 Estadístico PRESS: Medida de validación obtenida al eliminar cada observación una a la vez y estimando su valor dependiente con el modelo de regresión estimado con las observaciones remanentes.

 Variable de Regresión (variate): Combinación lineal de variables independientes ponderadas usadas para predecir la variable dependiente.

 Error estándar: El valor t de un coeficiente de regresión se obtiene cuando se divide el valor del coeficiente entre el error estándar.

 Estimación por pasos: Método de seleccionar variables para inclusión en el modelo de regresión que inicia seleccionando el mejor predictor de la variable dependiente. Las variables independientes adicionales se seleccionan con base de su potencia explicatorio incremental que pueden agregar al modelo de regresión (o en base a sus coeficientes de correlación significativos estadísticamente). También se pueden eliminar variables independientes si su potencia predictiva se reduce a niveles no significativos cuando se agrega otra variable independiente al modelo.

 Residuo estudentizado: Para minimizar el efecto de un outlier simple, se calcula la desviación estándar del residuo para la observación i de los estimados de la regresión omitiendo la observación i-ésima.

 Tolerancia: Es una medida de colinealidad y multicolinealidad, es:

es el coeficiente de determinación para la variable de predicción i por las otras variables independientes. Conforme disminuye el valor de la tolerancia la variable es mejor estimada por las otras variables independientes (colinealidad).

 Factor de inflación de varianza (VIF): es un indicador del efecto que las otras variables independientes tienen en el error estándar de un coeficiente de regresión. El factor de inflación de varianza está directamente relacionado al valor de la tolerancia (VIFi = 1 / TOLi). Valores grandes de VIF también indican un alto grado de colinealidad o multicolinealidad entre las variables independientes.

Fórmulas:

La ecuación de regresión simple es:

Donde:

bo = Término de intercepción

b1 = coeficiente de la regresión.

Error de predicción o residuo = diferencia entre valor real y estimado de la variable dependiente.

El error estándar del estimado se determina como:

Con SSE = Suma de cuadrados del error.

n = tamaño de la muestra

El intervalo de confianza de predicción se determina como:

La suma de cuadrados total es:

= promedio de todas las observaciones

= valor de la observación individual i

= valor estimado de la observación i

El coeficiente de determinación se calcula como sigue:

Para el caso de la regresión múltiple se tiene:

Para probar la significancia de la regresión se utiliza el estadístico F:

Cada suma de cuadrados dividida entre sus grados de libertad representa la varianza.

DIAGNÓSTICO AVANZADO

 Índice de condición: Medición de la cantidad de varianza asociada con un Eigenvalor (valor característico) de manera que un índice grande indica un alto grado de colinealidad.

 Distancia de Cook (Di): Medida resumida de la influencia de una observación simple con base en los cambios totales en todos los demás residuos cuando la observación se excluye del proceso de estimación. Los valores mayores a 1 indican influencia significativa de la observación en la estimación de los coeficientes de la regresión.

 COVRATIO (razón de covarianza): Mide la influencia de una observación simple en conjunto completo de coeficientes de la regresión. Un valor cercano a 1 indica poca influencia, si (COVRATIO – 1) >  3 p/n (p es el número de variables independientes +1 y n es el tamaño de muestra), la observación se considera que tiene influencia.

 Residuo excluido (deleted residual): Es el proceso de calcular residuos en los cuales la influencia de cada una de las observaciones se excluye cuando se calcula su residuo. Esto se logra al omitir la i-ésima observación de la ecuación de regresión usada para calcular el valor estimado Y.

 DFBETA: Mide el cambio en un coeficiente de la regresión cuando una observación se omite del análisis de la regresión, se establece en términos del coeficiente mismo, también se puede tener una versión estandarizada SDBETA, donde sus valores son ajustados por sus errores estándar, se definen cortes en 1 o 2 correspondientes a niveles de confianza de 0.10 y 0.05 respectivamente.

 DFFIT: Mide el impacto de una observación en el ajuste general del modelo, con una versión estandarizada DFFIT. La mejor regla práctica es calsificar como influenciables cualquier valor SDFFIT > 2 / raiz(p/n). p es el número de variables independientes +1 y n es el tamaño de muestra.

 Eigenvalor (valor característico): Mide la cantidad de varianza contenida en la matriz de correlación de manera que la suma de los eigenvalores es igual al número de variables. También se conoce como raíz latente o raíz característica.

 Matriz sombrero: Matriz que contiene valores para cada observación en la diagonal conocida como matriz sombrero, que representan el impacto de la variable dependiente observada en su valor estimado por la regresión. Si todas las observaciones tuvieran la misma influencia, tendrían un valor de p/n. Si una observación no tiene influencia, su valor será -1/n, y cuando un valor domina valdrá (n-1)/n. Los valores que exceden a 2p/n para muestra grandes o 3p/n para muestras pequeñas (n<= 30) son candidatos como observaciones influyentes.

 Punto palanca (leverage point): Una observación que tiene un impacto sustancial en los resultados de la regresión dadas sus diferencias con otras observaciones en una o más de las variables independientes. La medida más común de estos puntos es el valor sombrero contenido en la matriz sombrero.

 Distancia de Malahanobis (D2): Medida de la singularidad de una observación simple con base en las diferencias entre los valores de la observación y los valores promedio para todos los otros casos de las variables independientes. La influencia en la regresión por la observación es diferente para una o más variables predictoras, causando un corrimiento en la ecuación de regresión.

 Outlier (punto aberrante o lejano): Es una observación que tiene una diferencia sustancial entre sus valores observados y estimados en la variable dependiente (un residuo grande) o entre sus variables independientes y y los de otras observaciones. El objetivo de identificarlos es que pueden representar de manera inapropiada el comportamiento de la población.

 Matriz de descomposición – varianza de los coeficientes de regresión: Método para determinar la contribución relativa de cada uno de los eigenvalores a cada uno de los coeficientes estimados. Si dos o más coeficientes están muy asociados con un eigenvalor simple (índice de condición) indica que está presente un nivel inaceptable de multicolinealidad.

 Residuo: Medida de la estimación predictiva de una observación simple, calculado como la diferencia del valor observado y el valor estimado de la variable dependiente. Se asume que los residuos tienen media cero y varianza constante. También sirven para identificar outliers y observaciones influenciables.

 Residuos estandarizados: Reescalado de los residuos a una base común dividiendo cada uno de los residuos entre la desviación estándar de los residuos. De esta manera los residuos estandarizados tienen una media de cero y una desviación estándar de uno. Los outliers son identificados como las observaciones que tienen residuos mayores a 1 o 2 para niveles de confianza de 0.10 y 0.05 respectivamente.

 Residuos estudentizados: Difieren del residuo estandarizado en la forma de calcular la desviación estándar. Para minimizar la influencia de un outlier simple, la desviación estándar utilizada para estandarizar el residuo i-ésimo se calcula de los estimados de la regresión excluyendo la observación i-ésima. Esto se hace de manera repetitiva para cada una de las observaciones, cada vez se excluye la observación de los cálculos.

Evaluado la multicolinealidad

Corrida con SPSS – V10

Regression

Variables Entered/Removed(b)

Model Variables Entered Variables Removed Method

1 X7, X5, X6, X3, X2, X4, X1(a) . Enter

a All requested variables entered.

b Dependent Variable: X9

Model Summary

Model R R Square Adjusted R Square Std. Error of the Estimate

1 .879(a) .772 .755 4.4508

a Predictors: (Constant), X7, X5, X6, X3, X2, X4, X1

ANOVA(b)

Model Sum of Squares df Mean Square F Sig.

1 Regression 6177.812 7 882.545 44.552 .000(a)

Residual 1822.444 92 19.809

Total 8000.256 99

a Predictors: (Constant), X7, X5, X6, X3, X2, X4, X1

b Dependent Variable: X9

Coefficients(a)

Unstandardized Coefficients Standardized Coefficients t Sig. Collinearity Statistics

Model B Std. Error Beta

Tolerance VIF

1 (Constant) -9.255 4.949 -1.870 .065

X1 1.956 2.045 .287 .957 .341 .027 36.445

X2 1.280 2.155 .170 .594 .554 .030 33.176

X3 3.270 .406 .507 8.057 .000 .627 1.596

X4 -3.937E-03 .671 .000 -.006 .995 .347 2.884

X5 4.600 4.012 .384 1.147 .255 .022 45.401

X6 1.230 .954 .106 1.290 .200 .370 2.701

X7 .426 .356 .075 1.198 .234 .629 1.589

a Dependent Variable: X9

Collinearity Diagnostics(a)

Eigenvalue Condition Index Variance Proportions

Model Dimension

(Constant) X1 X2 X3 X4 X5 X6 X7

1 1 7.533 1.000 .00 .00 .00 .00 .00 .00 .00 .00

2 .251 5.474 .00 .00 .01 .01 .00 .00 .00 .01

3 .106 8.426 .00 .01 .01 .00 .01 .00 .04 .04

4 6.548E-02 10.726 .01 .00 .00 .04 .03 .00 .18 .09

5 2.463E-02 17.489 .01 .01 .01 .31 .00 .00 .00 .53

6 1.219E-02 24.861 .03 .00 .00 .07 .75 .00 .67 .05

7 6.259E-03 34.692 .86 .00 .00 .52 .17 .00 .10 .28

8 8.354E-04 94.959 .09 .97 .97 .05 .04 .99 .01 .00

a Dependent Variable: X9

Faltan conceptos del capítulo 4 y 4ª.

Ejemplo:

Familia Tarjetas Tamano Ingreso

1 4 2 14

2 6 2 16

3 6 4 14

4 7 4 17

5 8 5 18

6 7 5 21

7 8 6 17

8 10 6 25

Total

Las instrucciones de Minitab para correr el ejemplo son:

1 Cargar datos

2 en Minitab.

2 Stat > Regression > Regression.

3 En Response, seleccionar Tarjetas.

4 En Predictors, seleccionar Tamano e Ingreso.

5 Click Graphs.

6 En Residuals for Plots, seleccionar Standardized.

7 En Residual Plots, seleccionar Individual Plots. Seleccionar Histogram of residuals, Normal plot of residuals, y Residuals versus fits. Click OK.

8 Click Options. en Display, seleccionar PRESS y predicted R-square. Click OK en cada uno de los cuadros de diálogo.

Los resultados se muestran a continuación:

Regression Analysis: Tarjetas versus Tamano, Ingreso

The regression equation is

Tarjetas = 0.48 + 0.632 Tamano + 0.216 Ingreso

Predictor Coef SE Coef T P

Constant 0.482 1.461 0.33 0.755

Tamano 0.6322 0.2523 2.51 0.054

Ingreso 0.2158 0.1080 2.00 0.102

S = 0.780990 R-Sq = 86.1% R-Sq(adj) = 80.6%

PRESS = 8.02177 R-Sq(pred) = 63.54%

Analysis of Variance

Source DF SS MS F P

Regression 2 18.9503 9.4751 15.53 0.007

Residual Error 5 3.0497 0.6099

Total 7 22.0000

Source DF Seq SS

Tamano 1 16.5143

Ingreso 1 2.4360

Interpretación de resultados

Salida de sesión

 El valor P en la tabla de ANOVA (0.000) muestra que el modelo estmado por el procedimiento de regresión es significativo a un alfa de 0.05, indicando que al menos un coeficiente es diferente de cero.

 Los valores P de los coeficientes estimados para tamano es de 0.054 indicando que es significativo a un nivel alfa de 0.054. Sugiriendo que el modelo de regresión simple es adecuado.

 El valor de R cuadrado indica que los predoctores explican el 87.4% de la varianza en Tarjetas. La R cuadrada ajustada es 85.9%, que representa la contribución del número de predictores en el modelo. Ambos valores indican que el ajuste es adecuado.

 El valor pronosticdo R cuadrado es 78.96%, dado que es parecido a R cuadrado y r cuadrado ajustado, el modelo no parece estar sobreajustado y tiene una buena habilidad de predicción

 Las observaciones 4 y 22 se identifican como no usuales dado que el valor estandarizado de los residuos es mayor a 2. Indicando puntos aberantes o outliers.

Salida gráfica

 El histograma de los residuos muestra un patrón consistente con la distribución normal. El histograma es más efectivo para grupos de más de 50 observaciones. La gráfica de probabilidad normal es más fácil de interpretar con pequeñas muestras.

 En la gráfica normal también sobresalen los outliers 4 y 22.

 La gráfica de residuos contra valores de predicción muestra que los residuos son más pequeños conforme conforme los valores ajustados se incrementan, indicando que no tienen varianza constante.

Ejemplo con datos de Hatco

Hacer un estudio de correlación entre las variables independientes:

1 Cargar datos en Minitab.

2 Stat > Basic statistics > Correlation

3 Variables X1 – X7 X9 indicar Show P value

4 OK

Los resultados son los siguientes:

Correlations: X1, X2, X3, X4, X5, X6, X7, X9

X1 X2 X3 X4 X5 X6 X7

X2 -0.349

0.000

X3 0.476 -0.472

0.000 0.000

X4 0.050 0.272 -0.095

0.618 0.006 0.347

X5 0.612 0.513 0.064 0.299

0.000 0.000 0.524 0.003

X6 0.077 0.186 -0.015 0.788 0.241

0.446 0.064 0.880 0.000 0.016

X7 -0.483 0.470 -0.407 0.200 -0.055 0.177

0.000 0.000 0.000 0.046 0.586 0.078

X9 0.676 0.083 0.556 0.225 0.701 0.257 -0.192

0.000 0.412 0.000 0.024 0.000 0.010 0.055

Cell Contents: Pearson correlation

P-Value

La variable X5 (servicio en general) está más correlacionado con la respuesta X9 con r = 0.701. X1 también está correlacionada con la respuesta sin embargo tiene correlación con X5 por lo que el uso de ambas es cuestionable.

Las instrucciones de Minitab para correr el ejemplo son:

1 Cargar datos en Minitab.

2 Stat > Regression > Regression.

3 En Response, seleccionar X9 (utilización del producto).

4 En Predictors, seleccionar X1 – X7.

5 Click Graphs.

6 En Residuals for Plots, seleccionar Standardized.

7 En Residual Plots, seleccionar Individual Plots. Seleccionar Histogram of residuals, Normal plot of residuals, y Residuals versus fits. Click OK.

Regression Analysis: X9 versus X1, X2, X3, X4, X5, X6, X7

The regression equation is

X9 = - 9.25 + 1.96 X1 + 1.28 X2 + 3.27 X3 - 0.004 X4 + 4.60 X5 + 1.23 X6

+ 0.426 X7

Predictor Coef SE Coef T P

Constant -9.255 4.949 -1.87 0.065

X1 1.956 2.045 0.96 0.341

X2 1.280 2.155 0.59 0.554

X3 3.2702 0.4059 8.06 0.000

X4 -0.0039 0.6714 -0.01 0.995

X5 4.600 4.012 1.15 0.255

X6 1.2305 0.9537 1.29 0.200

X7 0.4261 0.3557 1.20 0.234

S = 4.45075 R-Sq = 77.2% R-Sq(adj) = 75.5%

PRESS = 2144.13 R-Sq(pred) = 73.20%

Analysis of Variance

Source DF SS MS F P

Regression 7 6177.81 882.54 44.55 0.000

Residual Error 92 1822.44 19.81

Total 99 8000.26

Source DF Seq SS

X1 1 3659.76

X2 1 927.88

X3 1 1424.10

X4 1 80.48

X5 1 18.20

X6 1 38.97

X7 1 28.43

Unusual Observations

Obs X1 X9 Fit SE Fit Residual St Resid

7 4.60 46.000 58.734 1.379 -12.734 -3.01R

11 2.40 32.000 41.365 1.014 -9.365 -2.16R

14 3.70 38.000 47.833 1.098 -9.833 -2.28R

22 3.40 35.000 34.870 2.711 0.130 0.04 X

55 3.80 39.000 33.433 2.712 5.567 1.58 X

100 2.50 33.000 43.721 1.049 -10.721 -2.48R

R denotes an observation with a large standardized residual.

X denotes an observation whose X value gives it large influence.

Normplot of Residuals for X9

...

Descargar como  txt (145.8 Kb)  
Leer 121 páginas más »
txt