ClubEnsayos.com - Ensayos de Calidad, Tareas y Monografias
Buscar

Análisis Sobre El Valor De La Austeridad


Enviado por   •  21 de Abril de 2013  •  10.851 Palabras (44 Páginas)  •  518 Visitas

Página 1 de 44

INTRODUCCION

¿QUE ES LA ESTADISTICA?

El campo de la estadística tiene que ver con la recopilación, análisis y uso de datos para tomar

decisiones y resolver problemas. En el campo de la ingeniería y la ciencia, la estadística es un elemento

decisivo para describir y comprender la variabilidad.

La variabilidad es el resultado de cambios en las condiciones bajo las que se hacen las observaciones o

debido al sistema de medición utilizado.

El campo de la estadística y la probabilidad consiste en métodos tanto para modelar y describir la

variabilidad , como para tomar decisiones en presencia de ésta.

Existen métodos estadísticos que permiten clasificar la estadística en dos áreas: la estadística descriptiva

y la estadística inferencial. La mayor parte del uso moderno de la estadística, particularmente en la

ciencia y la ingeniería, se dirige más hacia la inferencia que a la descripción.

La computadora se ha convertido en una herramienta importante en la presentación y el análisis de

datos.

La mayor parte del análisis estadístico se realiza utilizando una biblioteca de programas. Los paquetes

estadísticos están disponibles tanto para grandes sistemas como para computadoras personales. Entre

los paquetes más utilizados están SAS (Statistical Analysis System), para grandes sistemas y

Statgraphics para computadoras personales.

ESTADISTICA DESCRIPTIVA:

Permite organizar, sintetizar y analizar la información entregada por los datos. La estadística descriptiva

puede dividirse en dos grandes áreas : métodos numéricos y métodos gráficos.

INFERENCIA ESTADISTICA:

Cuando resulta difícil o muy costoso observar los elementos de una población, es preferible estudiar una

muestra representativa de la misma. Los resultados se tratan de extrapolar a toda la población mediante

la inferencia estadística.

ANALISIS DE REGRESION

Se pretende, mediante un conjunto de técnicas gráficas y analíticas, tratar de encontrar la relación entre

una variable respuesta y una o más variables independientes llamadas variables regresoras. Ello con el

objetivo de describir un conjunto de datos y realizar predicciones a partir del modelo propuesto.

DISEÑO EXPERIMENTAL

Se estudian técnicas para el diseño de experimentos, para probar la robustez del modelo frente al no

cumplimiento de algunas hipótesis y la influencia de la eliminación de algunos factores.

Concepto Básico: ANOVA (o ANDEVA).

Comentario:

La elección de Statgraphics se debe, principalmente, a su sencillez en el manejo y a que cubre todos los

aspectos tratados en la asignatura.

Gonzalo Flores Muñoz Página 2

1. ESTADISTICA DESCRIPTIVA

1.1 Definiciones

POBLACION:

Conjunto de elementos de los cuales interesa estudiar alguna característica común (cualitativa o

cuantitativa). Se refiere a TODOS los elementos del universo con respecto al cual se quieren

obtener conclusiones o tomar decisiones.

MUESTRA:

Subconjunto de elementos de la población.

VARIABLE ESTADISTICA UNIDIMENSIONAL:

Aplicación que asigna a cada elemento de la población un número real.

CAMPO DE LA VARIABLE:

Conjunto de valores que puede tomar la variable estadística.

RECORRIDO o RANGO:

Diferencia entre el mayor valor y el menor.

FRECUENCIA ABSOLUTA (ni):

N° de elementos que poseen la característica Ai.

FRECUENCIA RELATIVA (fi):

Cociente entre la frecuencia absoluta y el tamaño de la población.

FRECUENCIA ABSOLUTA ACUMULADA (Ni):

N° de elementos que poseen la característica Ai o alguna de las anteriores.

FRECUENCIA RELATIVA ACUMULADA (Fi):

Cociente entre la frecuencia relativa acumulada y el tamaño de la población.

DISTRIBUCION DE FRECUENCIAS

Conjunto de valores que toma la variable con sus respectivas frecuencias.

• Sin Agrupar: Se utiliza cuando la variable estadística no puede tomar cualquier valor de un

intervalo y el número diferente de valores no es muy grande, 15 o 20 a lo más (DISCRETAS).

• Agrupadas en intervalos: Se utilizan si el n° de valores distintos en mayor de 20 (DISCRETAS

o CONTINUAS).

PRESENTACION DE LOS DATOS

Para tener una visión resumida de los datos es posible presentar la información obtenida (x1, x2,

...,xn) mediante:

1. Tablas Estadísticas

2. Gráficos Estadísticos

1. TABLAS ESTADISTICAS

Toda Tabla Estadística debe tener un Título que responda a las siguientes interrogantes:

- Qué‚ se representa

- Cómo se representa

- Dónde se obtuvo los datos

- Cuándo se obtuvo los datos

Gonzalo Flores Muñoz Página 3

CONSTRUCCION DE UNA TABLA DE FRECUENCIAS PARA VARIABLES DISCRETAS AGRUPADAS

EN INTERVALOS

En el caso de utilizar intervalos, lo primero es determinar el número de intervalos, este no debe

ser menor de 5 ni mayor de 20. Para ello hay dos criterios generalmente aceptados: n y 1+3.3

log n (el entero más próximo), siendo n el tamaño de la población.

Lo segundo es determinar la amplitud del intervalo que se obtiene dividiendo el rango por el

número de intervalos.

La idea es que el primer intervalo contenga al valor mínimo y el último al valor máximo. La

amplitud de cada intervalo debe ser la misma si la distribución de los datos es homogénea, si no,

debe hacerse intervalos más amplios donde hay menos datos y mas estrechos donde hay más.

Cada intervalo tiene un valor mínimo, un valor máximo y una marca de clase, que generalmente

es el punto medio del intervalo.

CONSTRUCCION DE UNA TABLA DE FRECUENCIAS PARA VARIABLES CONTINUAS

En este caso x R I Î , si tenemos una muestra X1, X2, .., Xn entonces procederemos como sigue:

1. Ordenar los datos de menor a mayor y obtener el menor Xmin y el mayor Xmax

2. Determinar el rango o el recorrido R = Xmax - Xmin

3. Dividir el rango en el número adecuado de intervalos; este número fluctúa entre 5 y 20; y de esta

forma obtener la amplitud A. Algunos autores recomiendan tomar un número de intervalos igual al

entero más próximo a 1+3.3 Log N, siendo N el tamaño de la población. Otros utilizan el criterio de la

raíz de N.

N° intervalos = 1 + 3.3 Log N

A = R / N° intervalos, y se debe aproximar al número de decimales de los datos.

4. Los intervalos o categorías se obtienen de la siguiente forma:

Intervalo 1 : [X’min ; X’min + A]

Intervalo 2 : (X’min + A ; X’min + 2A]

.

.

.

Intervalo m : (X’min+(m-1)A ; X’min+mA]

X’min puede ser Xmin u otro valor un poco menor que sea “cómodo”. El intervalo 1 debe contener a

Xmin y el m debe contener a Xmax.

5. Se obtiene un representante de cada intervalo que llamaremos marca de clase:

= (lim inf(i) + lim sup(i))/2 (no se puede aproximar)

6. COMPLETAR LA TABLA; obtener ni, fi, Ni, Fi

2. REPRESENTACIONES GRAFICAS MAS COMUNES

Diagrama de Barras

Se utiliza para representar distribuciones de frecuencia sin agrupar. En el eje de las abcisas se colocan

los distintos valores de la variable, y sobre cada uno de ellos se levanta una línea o una barra

perpendicular de altura proporcional a la frecuencia absoluta.

Gonzalo Flores Muñoz Página 4

Histograma

Se utilizan para representar distribuciones de frecuencias agrupadas en intervalos.

El histograma es un conjunto de rectángulos que tienen como base los intervalos de clase y cuyas áreas

son proporcionales a las frecuencias absolutas.

Diagramas de sectores y de rectángulos

Se utilizan para representar distribuciones de frecuencias de caracteres cualitativos.

EJEMPLO 1

Una importadora trae a Antofagasta un contenedor con 10000 cajas de vasos. Cada caja contiene dos

docenas de vasos. Se toma una muestra de 25 cajas, las cuales se revisan y se cuentan los vasos rotos.

Los resultados se entregan en la siguiente tabla:

CAJA N° VASOS ROTOS

1 3

2 2

3 1

4 0

5 3

6 2

7 1

8 8

9 3

10 3

11 2

12 2

13 1

14 2

15 0

16 3

17 1

18 3

19 4

20 2

21 2

22 1

23 5

24 1

25 0

Se desea estudiar la cantidad de vasos rotos por caja.

RECOPILACION DE LA INFORMACION

1. TOMA DE LA MUESTRA

Tabla anterior

2. IDENTIFICACION DE ELEMENTOS

POBLACION:

Total de cajas en el contenedor.

TAMAÑO DE LA POBLACION:

N = 10.000

MUESTRA:

Las 25 cajas de vasos.

Gonzalo Flores Muñoz Página 5

TAMAÑO DE LA MUESTRA:

n = 25

VARIABLE ESTADISTICA:

Característica en estudio (N° de vasos rotos por caja).

CAMPO DE LA VARIABLE:

{0,1,2,...,24}

3. PRESENTACION DE LOS DATOS

TABLA ESTADISTICA PARA EL EJEMPLO:

(DISTRIBUCION DE FRECUENCIAS)

Frecuencia de cajas de vasos según el número de vasos rotos. Importadora "Los Chinos". Agosto

1997.

i Xi ni fi Ni Fi

1 0 3 3/25 3 3/25

2 1 6 6/25 9 9/25

3 2 7 7/25 16 16/25

4 3 6 6/25 22 22/25

5 4 1 1/25 23 23/25

6 5 1 1/25 24 24/25

7 6 0 0 24 24/25

8 7 0 0 24 24/25

9 8 1 1/25 25 1

TIPO DE DISTRIBUCION:

Sin agrupar (n° de valores que toma la variable < 20)

EJEMPLO 2: Los siguientes datos representan los tiempos de ignición de ciertos materiales de

tapicería expuestos al fuego, dados a la más cercana centésima de segundo.

1. Construya una tabla de frecuencia completa para estos datos.

2. Interprete : n3; f4; N5; F3

Gonzalo Flores Muñoz Página 6

Clasificación de 80 mediciones de tiempos de ignición de material de tapicería (segundos )

2.58 2.51 4.04 6.43 1.58 4.32 2.20 4.19

4.79 6.20 1.52 1.38 3.87 4.54 5.12 5.15

5.50 5.92 4.56 2.46 6.90 1.47 2.11 2.32

6.75 5.84 8.80 7.40 4.72 3.62 2.46 8.75

2.65 7.86 4.71 6.25 9.45 12.80 1.42 1.92

7.60 8.79 5.92 9.65 5.09 4.11 6.37 5.40

11.25 3.90 5.33 8.64 7.41 7.95 10.60 3.81

3.78 3.75 3.10 6.43 1.70 6.40 3.24 1.79

4.90 3.49 6.77 5.62 9.70 5.11 4.50 2.50

5.21 1.76 9.20 1.20 6.85 2.80 7.35 11.75

Tabla Ordenada:

1,20 2,11 3,10 4,11 5,09 5,92 6,85 8,79

1,38 2,20 3,24 4,19 5,11 5,92 6,90 8,80

1,42 2,32 3,49 4,32 5,12 6,20 7,35 9,20

1,47 2,46 3,62 4,50 5,15 6,25 7,40 9,45

1,52 2,46 3,75 4,54 5,21 6,37 7,41 9,65

1,58 2,50 3,78 4,56 5,33 6,40 7,60 9,70

1,70 2,51 3,81 4,71 5,40 6,43 7,86 10,60

1,76 2,58 3,87 4,72 5,50 6,43 7,95 11,25

1,79 2,65 3,90 4,79 5,62 6,75 8,64 11,75

1,92 2,80 4,04 4,90 5,84 6,77 8,75 12,80

Solución:

1. Xmin= 1,20 ; Xmax= 12,80

2. Xmin’=1,00 ; Xmáx’= 13,00

3. R = 12,00

4. N° Int. = 1 + 3,3 Log 80 = 1 + 6,28 = 7,28 » 8

5. A=(12/8)=1,5

TITULO: DISTRIBUCION DE MATERIALES SEGÚN TIEMPO DE IGNICION

i DIAMETROS m.clase ni fi Ni Fi

1 1,00 – 2,50 1,75 16 0,200 16 0,200

2 2,50 – 4,00 3,25 13 0,163 29 0,363

3 4,00 – 5,50 4,75 19 0,237 48 0,600

4 5,50 – 7,00 6,25 14 0,175 62 0,775

5 7,00 – 8,50 7,75 6 0,075 68 0,850

6 8,50 –10,00 9,25 8 0,100 76 0,950

7 10,00 –11,50 10,75 2 0,025 78 0,975

8 11,50 –13,00 12,25 2 0,025 80 1,000

80

Interpretación:

n3 = 19 ; 19 materiales de tapicería tienen un tiempo de ignición entre 4,00 y 5,50 seg.

f4 = 0.175 ; el 17,5% de los materiales tienen un tiempo de ignición entre 5,50 y 7,00 seg.

N5 = 68 ; 68 materiales tienen tiempos de ignición de a lo más 8,50 segundos

F3 = 0,600 ; el 60% de los tiempos son a lo más 5,50 seg.

(Ingresar datos y hacer histograma con Statgraphics)

Gonzalo Flores Muñoz Página 7

1.2 Medidas De Centralización

Del mismo modo que las gráficas pueden mejorar la presentación de los datos, las descripciones

numéricas también tienen gran valor. Una característica importante de un conjunto de números es su

localización o tendencia central, lo que da una idea de los valores de la variable estadística alrededor

de los cuales se agrupa la distribución.

Media Aritmética

Si las observaciones de una muestra de tamaño n son x1,x2,..,xn, entonces la media muestral es

Mediana

Es el valor del punto donde la muestra, ordenada en orden creciente, se divide en dos partes iguales. Si

el tamaño de la muestra es impar la mediana es el valor central. Si la muestra es de tamaño par, la

mediana es el promedio de los dos valores centrales.

La ventaja de la mediana es que no está muy influenciada por los valores extremos.

Ejemplo : Analizar media y mediana de : 1,3,4,2,7,6,8 y 1,3,4,2,7,2450, 8

Moda

La moda es la observación que se presenta con mayor frecuencia en la muestra. Puede existir más de

una moda.

Ejemplo : Los datos 3,6,9,6,5,8,3,10,4,6,3,1 son bimodales (dos modas : 3 y 6)

Observaciones :

1. Si los datos son simétricos, entonces la moda y la mediana coinciden. Si, además, son unimodales

(una sola moda), entonces la media, la moda y la mediana coinciden.

2. Si los datos están sesgados (esto es, son asimétricos con una larga cola en uno de los extremos),

entonces la media, la moda y la mediana no coinciden.

3. Generalmente se encuentra moda<mediana<media si la distribución está sesgada hacia la derecha,

mientras que moda>mediana>media si lo está hacia la izquierda.

4. Generalmente se prefiere trabajar con la media por las siguientes propiedades : fácil de entender y

fácil de trabajar con ella, además de que es más estable (no cambia mucho de una muestra a otra).

5. No obstante lo anterior, la mediana y la moda se utilizan mucho como medidas descriptivas de los

datos.

1.3 Cuantiles

La mediana, ya sea de una población o de una muestra, divide los datos en dos partes iguales. También

es posible dividir los datos en más de dos partes. Los puntos de división se conocen como cuantiles. Los

siguientes son los cuantiles más usados :

Cuartiles

Son los puntos que dividen los datos ordenados en cuatro partes iguales. El primer cuartil o

cuartil inferior (lower quartil), q1, es un valor que tiene aproximadamente la cuarta parte (25%) de

las observaciones por debajo de él, y el 75% restante, por encima de él. El segundo cuartil, q2,

tiene aproximadamente la mitad (50%) de las observaciones por debajo de él. El segundo cuartil

es exactamente igual a la mediana. El tercer cuartil o cuartil superior (upper quartil),q3, tiene

x = 1/n (x1 + x2 + ... + xn) =

1

1 n

xi

i

n

=



Gonzalo Flores Muñoz Página 8

aproximadamente las tres cuartas partes (75%) de las observaciones por debajo de él. Al igual

que en el caso de la mediana, es posible que los cuartiles no sean únicos. Por simplicidad, si más

de una observación satisface la definición de un cuartil, entonces se utiliza el promedio de ellas

como cuartil.

Deciles

Son los puntos que dividen los datos ordenados en diez partes iguales. Se denotan como d1,d2,...,

d9. Entre decil y decil se encuentra aproximadamente el 10% de las observaciones.

El quinto decil, d5, es exactamente igual a la mediana.

Percentiles

Son los puntos que dividen un conjunto ordenado de datos en cien partes iguales. En términos

generales, el k-ésimo percentil, pk, es un valor tal, que al menos el k% de las observaciones están

en el valor o por debajo de él, y al menos el (100-k)% están en el valor o por encima de él.

Nótese que la mediana, Me=q2=d5=p50.

El procedimiento para encontrar el valor de un percentil pk a partir de datos ordenados, es el

siguiente : 1) encontrar el número de la posición i del percentil mediante el cálculo de nk/100. Si

nk/100 no es un entero, entonces i es el siguiente entero más grande. Si nk/100 es entero, i es

igual a nk/100 + 0.5 ; 2) si i es un entero, cuéntese desde la observación más pequeña hasta

hallar el i-ésimo valor. Si i no es entero, entonces contiene una fracción igual a un medio, con lo

que el valor de pk es el promedio de las observaciones ordenadas nk/100 y nk/100 +1.

1.4 Medidas De Variabilidad

Estas medidas dan una idea de la mayor o menor concentración de los datos alrededor de alguna medida

de tendencia central. Una medida de centralización será tanto más representativa de la distribución

cuanto menor sea su medida de dispersión asociada. Se definen :

Recorrido o Rango

Es la diferencia entre el mayor y el menor valor de la variable

Rango intercuartílico

Es la diferencia entre el tercer y el primer cuartil

Varianza

Si x1, x2, ..., xn es una muestra de n observaciones, entonces la varianza muestral es :

V =

( x x )

n

i

i

n

=

 2

1

Cuasivarianza

La cuasivarianza se define como :

s 2 =

( x x )

n

i

i

n

=

 2

1

1

Desviación típica

Es la raíz cuadrada positiva de la varianza

Cuasidesviación típica

Es la raíz cuadrada positiva de la cuasivarianza

Gonzalo Flores Muñoz Página 9

Desviación media

Se define como :

Dm =

x Me

n

i

i

n −

=



1

Coeficiente de variación de Pearson

Se utiliza cuando se quiere comparar las dispersiones de poblaciones diferentes y se define

como :

CV =

s

x

Coeficiente de variación media

CVM =

Dm

Me

1.5 Medidas De Asimetría

Una distribución es asimétrica si su gráfica (histograma o diagrama de barras) presenta una cola

hacia la derecha o hacia la izquierda.

Si la cola es a la derecha se dice asimétrica a la derecha y si la cola es a la izquierda se dice asimétrica a

la izquierda.

Coeficiente de asimetría de Fisher (Skewness)

3

1

3

1

( )

s



=

=

k

i

i i

N

x x n

g

Si g1 = 0 , la distribución es simétrica; si g1 > 0 , la distribución es asimétrica a la derecha, y si, g1 < 0, la

distribución es asimétrica a la izquierda.

Coeficiente de asimetría de Pearson

dt

x Me

p

3 ( − )

=

Si p = 0 , la distribución es simétrica, la mediana y la media coinciden; si p > 0 , la distribución es

asimétrica a la derecha, y si p < 0 es asimétrica a la izquierda.

Gonzalo Flores Muñoz Página 10

DISTRIBUCIONES Y FUNCIONES DE PROBABILIDAD

Definición :

La variable que asocia un número con el resultado de un experimento aleatorio se conoce como

variable aleatoria.

Las v.a. pueden ser de dos tipos : discretas y continuas.

Definición :

Una v.a. discreta es una v.a. con un rango finito (o infinito contable).

Definición:

La función fx(x) = P(X = x) que va del conjunto de los valores posibles de una variable aleatoria

discreta X al intervalo [o,1] recibe el nombre de función de probabilidad.

Para una variable aleatoria X, fx(x) satisface las propiedades siguientes :

1. fx(x) = P(X = x)

2. fx(x) >= 0 para toda x

3. f x x

x

 ( ) = 1

Ejercicio :

Verificar si la siguiente función es una función de probabilidad y calcular las probabilidades

indicadas.

f(x) = (8/7)(1/2)x , x = 1, 2, 3

a) P(X <= 1)

b) P(X > 1 )

c) P(X > 2)

Definición

La función de distribución acumulada de una v.a. discreta X, denotada por Fx(x) , es

Fx(x) = P(X <= x) = f x x

x x

i

i

( )

£



Para una v.a. discreta X, Fx(x) satisface las siguientes propiedades :

1. Fx(x) = P(X <= x) = f x x

x x

i

i

( )

£



2. 0 <= Fx(x) <= 1

3. Si x <= y , entonces Fx(x) <= Fx(y)

Ejercicio :

Determinar la f.d.a. para la variable aleatoria del ejercicio anterior.

Definición :

La media o valor esperado de una v.a. X, denotada por x μ o E(X), es

= = 

x

x x μ E ( X ) x f ( x )

Ejercicio :

Determinar la E(X) para la v.a. del ejercicio anterior

Gonzalo Flores Muñoz Página 11

Ejercicio :

Se compara el diseño de dos nuevos productos sobre la base de las ganancias esperadas para

cada uno de ellos. El departamento de mercadotecnia considera que la ganancia del diseño A puede

estimarse, con bastante exactitud, en tres millones de dólares. La ganancia del diseño B es más difícil de

evaluar. El departamento de mercadotecnia concluye que existe una probabilidad 0.3 de que la ganancia

del diseño B sea de siete millones de dólares, pero existe una probabilidad 0.7 de que sea sólo de dos

millones. ¿Qué diseño es el que debe preferirse ?

Definición :

Supóngase que la media de X es , y que la función de probabilidad de X es fx(x). La varianza

de una v.a. X, denotada por V(X), es :

= = − = −

x

x x x x V(X) E(X ) (X ) f (X) 2 2 2 s μ μ

La varianza de una v.a. aleatoria es semejante a la varianza muestral utilizada en estadística

descriptiva para describir la dispersión de los datos de una muestra.

Ejercicio :

Determinar la varianza de la v.a. de los ejercicios anteriores.

Definición :

La desviación estándar de una v.a. X, denotada por x s , es la raíz cuadrada positiva de

2

x s .

La desviación estándar de una v.a. tiene unidades idénticas a las de la v.a. y difiere de la

desviación estándar muestral debido al promedio ponderado utilizado para calcular la primera.

Algunas de las funciones de distribución discretas más conocidas son : Bernouilli. Binomial, Uniforme,

Geométrica, Binomial negativa, Hipergeométrica, Poisson.

Tarea :

Estudiar las distribuciones Binomial, Uniforme y Poisson.

Definición :

Una función fx(x) es una función de densidad de probabilidad de una v.a. continua X si para

cualquier intervalos de números reales [x1, x2] si:

1. fx(x) >= 0

2. f x d x x ( ) =

− ¥

¥

 1

3. P(x1 <= X <= x2) = f u d u x

x

x

( )

1

2



Ejercicio :

Demuestre que la siguiente función es f.d.p. y calcule las probabilidades pedidas :

fx(x) = 1.5x2 para -1 < x < 1

Gonzalo Flores Muñoz Página 12

a) P(0 < X)

b) P(0.5 < X)

c) P(-0.5 <= X <= 0.5)

d) Calcule el valor de x tal que P(x < X) = 0.05

Ejercicio :

Sea la v.a. X la corriente medida en miliamperes, en un conductor delgado de cobre. Supóngase

que el rango de X es [0,20 mA] y que la f.d.p. de X es fx(x) = 0.05, 0<=x<=20. ¿Cuál es la probabilidad de

que una medición de corriente sea menor que 10 miliamperes ?

Definición :

La función de distribución acumulada de una v.a. continua X es

F x P X x f u d u x x

x

( ) = ( £ ) = ( )

− ¥



Ejemplo :

Para el ejercicio anterior (miliamperes), la f.d.a. de la v.a. X está formada por tres expresiones. Si

x < 0 entonces fx(x) = 0. Por tanto

Fx(x) = 0, para x<0

F x f u d u x x x

x

( ) =  ( ) = .

0

0 0 5 , para 0<= x < 20

Finalmente,

F x f u d u x x

x

( ) =  ( ) =

0

1 , para 20<= x

Por consiguiente,

F x

x

x x

x

x ( ) = .

<

£ £

£



 

 

0 0

0 0 5 0 2 0

1 2 0

(¿Cómo sería la gráfica ?)

Observación :

La f.d.p. de una v.a. continua puede obtenerse a partir de la f.d.a. mediante la operación de

derivación. Esto es, dada Fx(x), entonces

f x

dF x

dx x

x ( )

( )

=

siempre y cuando exista la derivada.

Gonzalo Flores Muñoz Página 13

Definición :

Supóngase que X es una v.a. continua con una f.d.p. fx(x), − ¥ < x < ¥ .

La media de X, denotada por E(X) o μ x , es

E(X) = μ x = x f x d x x ( )

− ¥

¥



Definición :

La varianza de X, denotada por V(X) o s x

2 , es

V(X) = s x

2 = ( ) ( ) x f x dx x x −

− ¥

¥

 μ 2

Asimismo, la desviación estándar de X es s x = [V ( X )] 1 / 2

Algunas de las distribuciones continuas más notables son : Uniforme, Normal, Exponencial, Erlang,

Gamma, Weibull

Tarea : Estudiar la distribución normal y el teorema del límite central. (*)

Gonzalo Flores Muñoz Página 14

ESTIMACION PUNTUAL

La inferencia estadística tiene que ver con la toma de decisiones sobre una población, con base a

la información contenida en una muestra aleatoria de ésta. Habrá pues, tres aspectos fundamentales : la

obtención de los datos, el análisis de los mismos para obtener la información que se desee y las

inferencias sobre el modelo.

Obtención de los datos. Técnicas de muestreo

Se pueden distinguir dos formas de obtención de datos sobre una población :

Censo : cuando se estudia a toda la población (costoso, en algunos casos carece de sentido).

Muestra : cuando se estudia sólo una parte de la población (mayor sentido práctico)

Para que las conclusiones que se tomen a partir de una muestra tengan cierta garantía, hay que

cuidar especialmente dos aspectos :

i. El tamaño de la muestra (suficientemente grande para que las estimaciones sean fiables, pero no en

exceso para no depilfarrar recursos)

ii. El modo de elegirla (la técnica de muestreo depende de cómo es la población, por ejemplo, si la

muestra es homogénea, puede ser muestreo aleatoria simple, si no, muestreo estratificado u otro)

Análisis de los datos

Conocidos los datos de una muestra, se necesita algún método o función que permita obtener la

información que se desea. Por ejemplo, si se tienen los datos (x1, x2, ..., xn) y se quiere obtener

información sobre la media de la población, se puede elegir la función :

G(x1, x2, ..., xn) = (x1+ x2 ...+ xn) / n

para estimarla.

La función anterior representa la idea de estadístico.

Definición :

Dada una m.a.s. (X1, X2, ..., Xn), se llama estadístico T a cualquier v.a. definida como una

función de dicha muestra , T = T(X1, X2, ..., Xn).

Cuando un estadístico se utiliza para estimar un valor determinado de un parámetro q de

una v.a. , se dice que es un estimador de q .

Como cada muestra es distinta de otra, para cada una de ellas se obtendrá una estimación

distinta, por lo cual un estadístico es también una v.a. y tendrá su propia f.d.p.

La f.d.p. de una estadística se conoce como distribución de muestreo

.

Inferencias sobre el modelo

Básicamente, hay dos tipos de inferencia que pueden realizarse una vez obtenida la muestra:

Inferencia paramétrica

Cuando se supone conocido el modelo de distribución y se desea: estimar los parámetros

del modelo (estimación puntual), estimar intervalos (intervalos de confianza) y realizar pruebas de

hipótesis (contrastes paramétricos).

Inferencia no paramétrica

Pretende verificar si las suposiciones hechas son aceptables con cierto grado de incertidumbre.

En adelante se supondrá que la v.a. X sigue una distribución conocida de la que se desconoce el

valor de alguno de sus parámetros.

Gonzalo Flores Muñoz Página 15

Los problemas de estimación se presentan con gran frecuencia en ingeniería. A menudo es

necesario estimar :

• La media μ de una población

• La varianza s 2 (o la desviación estándar s ) de una población

• La proporción p de objetos de una población que pertenecen a cierta

clase de interés

• La diferencia entre medias de dos poblaciones μ μ 1 2 −

• La diferencia entre proporciones de dos poblaciones p1 - p2

Estimadores razonables para estos parámetros son los siguientes :

• Para μ , el estimador es μ$ = x , la media muestral

• Para s 2

, el estimador es s$ 2 2 = s , la varianza muestral

• Para p, el estimador es p$ = x / n, la proporción muestral, donde x es el número de objetos en una

muestra aleatoria de tamaño n que pertenece a la clase de interés

• De la misma manera, para la diferencia de medias y de proporciones, el estimador es la diferencia de

medias y de proporciones muestrales, respectivamente, calculadas a partir de dos m.a.

independientes.

Pueden tenerse varias opciones para el estimador puntual de un parámetro. Por ejemplo, si se

desea estimar la media de una población, pueden considerarse como estimadores puntuales la media

muestral, la mediana muestral, o quizás el promedio de las observaciones más grande y más pequeña,

entre otros. Para decidir cual es el mejor estimador puntual para un parámetro en particular, es necesario

examinar las propiedades estadísticas de éstos y utilizar criterios de comparación de estimadores.

Propiedades deseables de un estimador

• Un estimador debe ser insesgado , esto es, que sea “próximo” en algún sentido al valor verdadero del

parámetro desconocido. De manera formal en estimador $Q es insesgado si el valor esperado de $Q

es igual a q .

• Un estimador debe ser consistente, esto es, que a medida que el tamaño de la muestra aumenta,

nos aproximamos cada vez más al verdadero valor del parámetro.

• Un estimador debe ser de varianza mínima, esto es, debe ser el estimador de menor varianza entre

los estimadores insesgados de q .

• Un estimador debe ser suficiente, esto es, que recoja toda la información que aporta la muestra para

estimar el parámetro.

ESTIMACIÓN DE INTERVALOS (INTERVALOS DE CONFIANZA)

Anteriormente, se han visto las formas de obtención de estimadores puntuales, las propiedades de los

mismos y las diferentes distribuciones en el muestreo. Al ser prácticamente imposible que el valor

obtenido para el estimador coincida con el valor del parámetro estimado, lo que interesa en la práctica es

dar no solamente el valor de la estimación, sino acompañar este de un intervalo en el que con cierta

confianza se pueda afirmar que se encuentra su verdadero valor. El intervalo estimado recibe el nombre

de intervalo de confianza.

Una estimación por intervalos de un parámetro desconocido q es un intervalo de la forma l £q £ u ,

donde los puntos extremos l y u dependen del valor numérico de la estadística $ q para una muestra en

Gonzalo Flores Muñoz Página 16

particular, y de la distribución de muestreo. Puesto que muestras diferentes producen valores distintos de

$ q y, en consecuencia, valores diferentes de los puntos extremos l y u estos puntos son valores de

variables aleatorias, por ejemplo, L y U, respectivamente. De la distribución de muestreo de $ q es

posible determinar los valores de L y U tales que la siguiente proposición de probabilidades es

verdadera :

P ( L £ q £ U ) = 1 − a

donde 0<a <1. Por tanto se tiene una probabilidad de 1-a de seleccionar una muestra que

produzca un intervalo que contiene el verdadero valor de q .

El intervalo resultante

l £ q £ u

se conoce como intervalo de confianza del 100(1-a ) por ciento para el parámetro desconocido

q . Los valores l y u reciben el nombre de límites de confianza inferior y superior, respectivamente

y 1-a es el coeficiente de confianza.

La interpretación de un intervalo de confianza es que, si se recopila un número infinito de

muestras aleatorias y se calcula un intervalo de confianza del 100(1-a ) por ciento para q , para

cada una de las muestras, entonces el 100(1-a ) por ciento de esos intervalos contienen el verdadero

valor de q .

En la práctica se obtiene una sola muestra aleatoria y se calcula el intervalo de confianza. Puesto que

ese intervalo puede o no contener el verdadero valor de q , no es razonable asociar un nivel de

probabilidad a ese evento específico. La proposición adecuada es que el intervalo observado [l,u]

contiene el verdadero valor de q con una confianza de 100(1-a ) por ciento. Esta proposición tiene

una interpretación de frecuencia ; esto es, no se sabe si es correcta para la muestra en particular, pero el

método utilizado para obtener el intervalo [l,u] proporciona proposiciones correctas el 100(1-a ) por

ciento de las veces.

La longitud u - l del intervalo de confianza observado es una medida importante de la calidad de la

información obtenida de la muestra. El semi-intervalo q - l ó u - q se conoce como precisión del

estimador.

Entre más grande sea el intervalo de confianza, mayor es la seguridad de que el intervalo en realidad

contenga el valor verdadero de q . Por otra parte entre más grande sea el intervalo menor información

se tiene acerca del valor verdadero de q . En una situación ideal, se tiene un intervalo relativamente

pequeño con una confianza grande.

En general, para la construcción de un intervalo de confianza para un parámetro desconocido q ,

se realizan los siguientes pasos :

1. Se elige un estadístico T f Xi = (q , ) cuya distribución, dependiente del parámetro y de la muestra,

sea conocida.

2. Se fija el nivel de significación a

3. Se obtienen los valores de a y b tales que :

P(a < T < b) =1−a

(estos valores se buscan en tablas de la distribución apropiada o bien se utiliza Statgraphics con esta

finalidad).

4. Por último, se hacen las operaciones precisas para despejar q y se llega al intervalo.

Gonzalo Flores Muñoz Página 17

Ejemplo :

Intervalo de confianza para media μ de una población normal con varianza desconocida.

El estadístico base de la media poblacional es la media muestral, en este caso se sabe que:

s

X n

T

( − μ )

= ~ tn-1

Fijado el nivel de significación a , se plantea la elección de a y b tal como indica el paso 3.

Se puede demostrar que los intervalos de amplitud mínima se obtienen cuando a=b= a t , con lo que la

obtención de las constantes se reduce a la búsqueda de este a t , que verifica:

P(- a t <tn-1< a t )=1-a

El valor de a t se obtiene a partir de las tablas de la distribución t de Student o bien utilizando

Statgraphics con esta finalidad.

Despejando a continuación el parámetro desconocido, μ , de la expresión

a

μ

a a < = −

− < ) 1

( )

( t

s

X n

P t

se obtiene



− +

n

S

X t

n

S

X t a a ,

Intervalo de confianza para la media μ de una población normal con varianza desconocida.

Gonzalo Flores Muñoz Página 18

PRUEBA O CONTRASTE DE HIPOTESIS

Introducción

Anteriormente se ha analizado como estimar un parámetro a partir de los datos contenidos en una

muestra. Puede encontrarse ya sea un solo número (estimación puntual) o un intervalo de valores

posibles (intervalo de confianza). Sin embargo muchos problemas de ingeniería, ciencia y administración,

requieren que se tome una decisión entre aceptar o rechazar una proposición sobre algún parámetro.

Esta proposición recibe el nombre de hipótesis , y el procedimiento de toma de decisión sobre la

hipótesis se conoce como prueba de hipótesis. Este es uno de los aspectos más útiles de la inferencia

estadística, puesto que muchos problemas de toma de decisiones, pruebas o experimentos en el mundo

de la ingeniería, pueden formularse como problemas de prueba de hipótesis. Por ejemplo, puede

aplicarse este enfoque a problemas como : estudiar si una máquina produce piezas de acuerdo con sus

especificaciones, estudiar si el consumo de tabaco es un factor de riesgo para las enfermedades

coronarias, estudiar si un nuevo medicamento es más efectivo que el utilizado actualmente, etc.

Elementos de un contraste

Para formular prueba de hipótesis, se manejan los siguientes conceptos :

• Hipótesis nula e hipótesis alternativa

• Criterio de rechazo

• Medidas de la bondad de un contraste

Hipótesis nula e hipótesis alternativa

Se llama hipótesis nula (Ho) a la hipótesis que se desea probar. Esta hipótesis se aceptará mientras

que los datos muestrales no reflejen claramente que es más verosímil otra hipótesis denominada

hipótesis alternativa (H1).

En el estudio de la prueba de hipótesis, la hipótesis nula siempre se plantea de modo que especifique un

valor exacto del parámetro (hipótesis simple).

La hipótesis alternativa permite que el parámetro tome varios valores (hipótesis compuesta). En las

hipótesis compuestas, las más comunes son las unilaterales (del tipo q > q q < q 0 0 ; ) y las

bilaterales (q ¹ q0 ).

La prueba de hipótesis involucra la toma de una muestra aleatoria, el cálculo de un estadístico de

prueba a partir de los datos muestrales, y luego el uso de este estadístico para tomar una decisión sobre

la hipótesis nula.

Criterio de rechazo

Una vez planteadas las hipótesis se ha de determinar el criterio a seguir para aceptar o rechazar Ho a

partir de la información que aporta la muestra.

La idea es elegir un estadístico para obtener la información que da la muestra sobre el parámetro, y

determinar para qué valores del mismo se considera aceptable Ho (región de aceptación, RA), o para

que valores se rechaza (región de crítica, RC).

Las fronteras entre las regiones crítica y de aceptación reciben el nombre de valores críticos.

Como conclusión, la decisión es rechazar Ho en favor de H1 si el estadístico de prueba cae en la región

critica, de lo contrario, se acepta Ho.

Medidas de bondad de un contraste

Para evaluar la bondad de una prueba, hay que tener en cuenta que al elegir un determinado criterio de

rechazo se asumen dos tipos de riesgos o posibles errores :

• Error de tipo I : rechazar Ho siendo cierta

• Error de tipo II : aceptar Ho siendo cierta H1

Gonzalo Flores Muñoz Página 19

La probabilidad de cometer un error de tipo I se denomina nivel de significación y se denota con la

letra griega a . Para calcular a , es preciso conocer la distribución del estimador utilizado en el criterio

de rechazo.

La probabilidad de cometer un error de tipo II se denota como b .

El contraste ideal sería aquel en el que tanto a como b sean lo menor posible. Sin embargo, si se varía

un criterio de rechazo para disminuir a , entonces aumenta b , y viceversa. La única forma de disminuir

ambos a la vez será incrementar el tamaño de la muestra.

En general, el rechazo de Ho siempre puede considerarse como una conclusión fuerte, no así su

aceptación, que se considera una conclusión débil, por lo cual se prefiere decir “no se rechaza Ho” en

vez de “se acepta Ho”. La incapacidad de rechazar Ho implica que no se ha encontrado evidencia

suficiente para rechazar Ho, esto es, para hacer una proposición fuerte. La incapacidad de rechazar Ho

no significa necesariamente que exista una probabilidad grande de que Ho sea cierta. Esto significa

simplemente que se necesitan más datos para alcanzar una conclusión fuerte.

Procedimiento general para la prueba de hipótesis

1. Del contexto del problema, identificar el parámetro de interés

2. Establecer la hipótesis nula Ho

3. Especificar una apropiada hipótesis alternativa H1

4. Seleccionar un nivel de significación a

5. Establecer un estadístico de prueba apropiado

6. Establecer la región de rechazo para el estadístico

7. Calcular el valor correspondiente al estadístico de prueba

8. Decidir si debe o no rechazarse Ho y notificar esto en el contexto del problema

Algunas limitaciones de esta metodología

• No permite evaluar la confianza con que se acepta que q = q0 o con la que se rechaza.

• Una pequeña variación en el nivel de significación a puede variar el resultado del contraste

• Cuando se rechaza Ho conviene estimar el valor más adecuado para el parámetro y estudiar si su

diferencia es significativa en términos reales.

Uso de p-valores en pruebas de hipótesis

Cuando en una prueba de hipótesis una leve variación de alfa hace cambiar el resultado de la prueba,

significa que la hipótesis aceptada o rechazada no es muy consistente, sin embargo, si hay que modificar

mucho su valor para cambiar el resultado obtenido, entonces hay buena evidencia de que la hipótesis

aceptada es consistente.

Esta idea permite evaluar en cierta forma el grado de confianza con que se acepta o rechaza una

hipótesis.

Se define el p-valor de un contraste como el mínimo nivel de significación para el que, con los datos de

una muestra concreta, se tendría que rechazar Ho. STATGRAPHICS lo presenta como Significance

Level, ya que puede ser considerado como el nivel de significación alcanzado por esa muestra

concreta.

¿Cómo se interpreta el p-valor de un contraste ?

En general, cuanto más próximo sea p a 1, mayor evidencia hará para aceptar Ho, mientras que

cuanto más cercano sea a 0, con mayor confianza se rechazará Ho. Puede considerarse que si p>0.25

no hay evidencia suficiente para rechazar Ho ; si p<0.05 se rechaza Ho, y si 0.05<p<0.25, habrá que

considerar las consecuencias prácticas de aceptar o rechazar la hipótesis.

Si se ha fijado de antemano alfa, se aceptará Ho si p>a , y se rechazará si p<a .

Los paquetes estadísticos no calculan la región de rechazo, sólo calculan el p-valor (significance

level) y deciden en función del a dado.

Gonzalo Flores Muñoz Página 20

Ejemplos :

1. Se analizan dos catalizadores para determinar la forma en que afectan el rendimiento promedio de un

proceso químico. De manera específica, el catalizador 1 es el que se está empleando en este

momento, pero el catalizador 2 también es aceptable. Debido a que el catalizador 2 es más

económico, este puede emplearse siempre y cuando no cambie el rendimiento del proceso. Se hace

una prueba en una plante piloto ; los resultados obtenidos son los que se muestran en la tabla.

Catalizador 1 91.50 94.18 92.18 95.39 91.79 89.07 94.72 89.21

Catalizador 2 89.19 90.95 90.46 93.21 97.19 97.04 91.07 92.75

Probar la hipótesis que el catalizador 1 1 tiene una media de 90. Probar la

alternativa que la media es mayor. ¿Qué se puede concluir ?

¿Existe alguna diferencia entre los rendimientos promedio ? Utilice a = 0.05.

(Vamos a Statgraphics)

Resultados :

1. Ho : Mean = 90 Computed t statistic = 2.67424

vs Alt : NE Sig. level = 0.0313088

at Alpha = 0.05 So reject Ho

En este caso el Sig. Level (p-valor) es bajo comparado con a . Se rechaza Ho. Significa que el

catalizador 1 está entregando una media distinta de 90, con un nivel de significancia de 0.05.

2. Ho : Mean = 90 Computed t statistic = 2.67424

vs Alt : GT Sig. Level = 0.015919

at Alpha = 0.05 so reject Ho

En este caso el Sig. Level = 0.015919 es menor que a , lo que significa que está a favor de H1, es

decir, hay fuerte evidencia de que la media es MAYOR que 90.

3. Ho : Diff = 0 Computed t statistic = -0.353591

vs Alt : NE Sig. Level = 0.728914

at Alpha = 0.05 so do not reject Ho

Dado que Sig. Level = 0.728914 es mayor que a = 0.05, no es posible rechazar la hipótesis nula, es

decir, con un nivel de significancia 0.05, no se tiene evidencia fuerte que permita concluir que el

catalizador 2 dará como resultado un rendimiento promedio diferente del obtenido con el catalizador 1.

Comentario : Cuando se rechaza la hipótesis nula, es decir, cuando se tiene evidencia que la hipótesis

alternativa debe aceptarse, hay que tener cuidado con las variabilidades, ya que pudiera ser que la

aceptación de la hipótesis alternativa está “disfrazada” debido a la diferencia de variabilidad. En este caso

conviene recurrir a la prueba de razón de varianzas y estimar un intervalo de confianza ; si el 1 está

contenido hay razón para suponer que las varianzas son relativamente iguales y por lo tanto el rechazo

de Ho es aceptable.

Tarea : Realizar los ejercicios anteriores utilizando el estadístico de prueba y las tablas

adecuadas.

Gonzalo Flores Muñoz Página 21

CONTRASTES NO PARAMETRICOS

En inferencia paramétrica (intervalos de confianza, pruebas de hipótesis) para estudiar, por ejemplo, si la

media es igual a un cierto valor o para estudiar igualdad de medias de dos poblaciones, que se dan por

supuestas algunas condiciones sobre la distribución de las poblaciones: normalidad, independencia,

aleatoriedad de las muestras, etc.

El objeto de los denominados contrastes no paramétricos, es estudiar si son aceptables o no dichas

hipótesis. Es decir, las hipótesis podrán ratificarse o nó mediante determinadas técnicas de contraste.

En general si se tiene alguna sospecha de que los datos (a través del histograma de frecuencias por

ejemplo), pertenecen a alguna familia de distribuciones conocida, Normal, Poisson, Binomial, etc., existen

métodos estadísticos que permiten verificar estas conjeturas, denominados Test de Bondad de Ajuste.

También hay otros tests como el test de normalidad, el test de rachas y otros.

Los más conocidos son el test de bondad de ajuste Chi-Cuadrado que sirve para ajustar funciones

discretas y continuas y que requiere de un tamaño de muestra mayor que 30, y el test de bondad de

ajuste de Kolmogorov-Smirnov (K-S) que es útil para distribuciones continuas conocidas.

METODO GENERAL PARA CONTRASTAR LA VALIDEZ DE UN MODELO

El método general se basa en elegir un estadístico, D*, que mida las diferencias entre los valores

observados en la muestra y los valores esperados o teóricos, suponiendo verdadera la distribución que

se supone tiene la población.

En este caso la hipótesis nula será de la forma : ( ) 0 H X » F Q , donde X es una v.a. y F (Q) un

determinado modelo de distribución que dependerá del parámetro (o parámetros) Q . En este tipo de

contrastes la hipótesis alternativa es que X no sigue el modelo supuesto.

El método general es el siguiente:

1. Elección del estadístico D*

2. Elección del nivel de significación a

3. Cálculo de la región crítica, RC, tal que ( *Î / ) =a 0 P D RC H

El criterio de rechazo suele ser si D*>K (se rechaza cuando las diferencias son excesivamente

grande).

También puede interpretarse como:

Ho : D = 0

Ha : D > 0

Donde D es la medida de la discrepancia entre lo observado y lo esperado.

También se define el p-valor para contrastes no paramétricos de la misma forma que para contrastes

paramétricos, es decir, es el mínimo nivel de significación a para el que, con los datos obtenidos en la

muestra, se tendría que rechazar Ho.

Este test se recomienda para modelos discretos. Para modelos continuos, el p-valor depende mucho de

la elección de las clases. En estos casos, se recomienda utilizar el test de Kolmogorov-Smirnov.

Este test se basa en la comparación de funciones de distribución. Se usa para funciones continuas. Es

más conveniente que el test chi-cuadrado y tiene la ventaja de que se puede aplicar con muestras

pequeñas.

El método es el siguiente:

Gonzalo Flores Muñoz Página 22

1. Se ordenan en orden creciente los valores de la muestra

2. Se calcula la función de distribución empírica

3. Se calcula el valor del estadístico D (x ) max( F (x) F(x) ) n i n = −

4. Fijado el nivel de significación a , se busca el valor n,a D . Si n n,a D > D se rechaza Ho.

Para calcular Dn, se calcula para cada valor

Ejemplo test chi cuadrado:

Se quiere contrastar si el número de llamadas que recibe una centralita telefónica en una determinada

hora, sigue una distribución de Poisson.

Se toma una muestra de las llamadas recibidas en 100 días a esa determinada hora . Se obtienen los

siguientes datos:

llamadas

0 1 2 3 4 5 6 7 8

Frecuencia 2 13 18 23 22 16 3 2 1

A partir de estos datos se construye la siguiente tabla, donde las clases adyacentes con frecuencia

menor que 5 deben juntarse:

Número de llamadas

(clases)

Frecuencias

observadas (ni)

i

Prob. Supuesta Ho cierta

(pi)

Frecuencia esperada

(npi)

{0,1} 15 1 0.1635 16.35

2 18 2 0.2040 20.40

3 23 3 0.2217 22.17

4 22 4 0.1807 18.07

5 16 5 0.1178 11.78

>=6 6 6 0.1124 11.24

x = 3.26  ~ x

Ho: X ~ R ( =3.26)

P1 = P (X=0) + P (X=1) = 0.0383884+ 0.125146 = 0.1635

P2 = P (X=2) = 0.2040

Etc.

El estadístico de prueba se calcula de la siguiente forma:



=

=

k

i i

i i

np

n np

D

1

2

* ( ) , el cual se distribuye 2

k − r − 1 c , donde:

k : número de clases agrupadas

r : número de parámetros que se hayan tenido que estimar

luego, k – r – 1 = 6 – 1 – 1 = 4 grados de libertad.

La región crítica o región de rechazo es:

RC : 2

1,

*

a c − − > k r D

* D = 5.234

Gonzalo Flores Muñoz Página 23

= 2

4 , 0 .05 c 9.49

Como 2

4 , 0 .05

* D < c (5.234 < 9.49), no hay evidencia para rechazar que la v.a. siga una distribución de

Poisson, con un nivel de significancia del 5%.

Otra forma de determinarlo, es calculando el p-valor del contraste y comparándolo con el nivel de

significancia a (Statgraphics: p-valor = 0.41365 no es menor que a = 0.05, por lo tanto la misma

conclusión).

Ejemplo test K-S:

Se quiere contrastar si los datos corresponden a una N(0,1)

-1.016 -0.869 -0.465 -0.238 0.056 0.12 0.417 0.561

Existen varias formas de realizar esta prueba, analíticas y gráficas. Lo más sencillo es ingresar los datos

a Statgraphics y aplicar el test K-S (por ser distribución continua) o el test de normalidad.

Por ninguno de estos tests se puede rechazar la hipótesis nula de que los datos entregados siguen una

distribución normal.

Tarea: Comprobarlo

Gonzalo Flores Muñoz Página 24

ANALISIS DE LA VARIANZA

En la estimación de parámetros y contrastes de hipótesis se estudió, por ejemplo, la comparación entre

medias de dos poblaciones. Con esta herramientas se puede decidir, por ejemplo, si la dureza de un

metal templado con cierto tipo de aceite es mayor que la dureza obtenida con otro tipo.

Este problema es un caso particular del estudio de la influencia de un factor o variable explicativa, el tipo

de aceite en la dureza del templado. Para el factor en estudio sólo se han considerado dos niveles

aceite tipo 1 y tipo2. Si se quieren estudiar más niveles, por ejemplo un aceite tipo 3, o bien la influencia

conjunta de dos o más factores, por ejemplo tipo de aceite y temperatura, en una variable respuesta no

se pueden utilizar las técnicas anteriores. El procedimiento a utilizar es el análisis de la varianza

(ANOVA).

A primera vista podría parecer posible abordar estos problemas con las técnicas de regresión anteriores.

Sin embargo, en regresión, las variables explicativas o factores tienen que ser cuantitativas, mientras que

en análisis de la varianza suelen ser cualitativas, como por ejemplo, el tipo de aceite. Además, los

distintos niveles de los factores son generalmente controlables por el experimentador y no pueden tomar

cualquier valor, mientras que en los modelos de regresión suelen ser no controlables.

Estas formas de análisis que permiten la influencia del experimentador en el mejoramiento de los

procesos y diseño de las experiencias se denominan técnicas de diseño experimental.

Las técnicas de diseño experimental basadas en la estadística son particularmente útiles en el mundo de

la ingeniería. Los resultados de estos experimentos pueden conducir a:

1. Mejorar el rendimiento del proceso

2. Reducir la variabilidad del proceso y acercarlo a los requerimientos nominales

3. Disminución del tiempo de diseño y desarrollo

4. Disminución del costo de operación

Algunas aplicaciones representativas de los experimentos diseñados de manera estadística en la

ingeniería de diseño son:

1. Evaluación y comparación de configuraciones de diseño básicas

2. Evaluación de diferentes materiales

3. Selección de parámetros para obtener diseño robusto (que funcione bien bajo una gama amplia

de condiciones)

4. Determinación de los parámetros más importantes que impactan sobre el funcionamiento del

producto

Todo lo anterior está basado en los ANálisis DE VArianza (ANDEVA o ANOVA por su nombre en inglés).

Los conceptos básicos de ANOVA se introducen con el modelo de un factor con varios niveles. Se

contrasta si se producen los mismos resultados de la variable respuesta para los distintos niveles del

factor, y en caso de no ser así, se comparan las medias correspondientes a los distintos niveles del

factor.

ANOVA CON UN FACTOR

El propósito del análisis de varianza con un factor es estudiar el efecto de la aplicación de varios

niveles de un factor en una variable respuesta. Para ello se comparan las medias observadas en las

muestras correspondientes a los distintos niveles del factor. Si están próximas, las diferencias se

atribuyen al azar. En caso contrario, se concluye que los efectos de los tratamientos o niveles son

significativos. El contraste de hipótesis se basa en la comparación de dos estimaciones de la varianza y

de ahí procede el nombre de esta técnica.

Notación:

k : n° de niveles del factor

ni : tamaño de la m.a.s. del nivel i-ésimo

Gonzalo Flores Muñoz Página 25

yij : observación j-ésima de la variable respuesta correspondiente al nivel i-ésimo (i=1, 2, ..., k; j= 1,

2, ...,ni)

n = 

=

k

i

i n

1

: número total de observaciones

i μ : valor medio de la variable respuesta correspondiente al nivel

i-ésimo del factor

Fijado un nivel i, las diferencias entre los valores observados dentro de ese nivel, yij , y su media i μ ,

son el resultado de múltiples factores no controlados que se denominan efectos residuales o errores

residuales eij . Por tanto,

yij = i μ + eij

Para el análisis de los datos se adopta la hipótesis de que los errores residuales, eij , son independientes

y siguen la misma distribución N(0,s ). Esto equivale a decir que la distribución de cada observación Yij

es N( i μ ,s ).

Contraste de igualdad de medias

Se trata de probar si las diferencias observadas n los distintos niveles se deben a que alguno (o todos)

tiene influencia en la variable respuesta o si se deben al azar. La hip{otesis nula es que las diferencias

son debidas al azar, es decir:

Ho : 1 μ = 2 μ =...= k μ

H1: Alguna diferencia existe

Los resultados se ordenan en una tabla como la siguiente:

Variable respuesta Observaciones Media Muestral Media

Poblacional

Nivel 1

Nivel 2

.

.

.

Nivel k

Y1

Y2

.

.

.

Yk

y11 ... y1n1

y21 ... y2n2

.

.

.

yk1 ... yknk

1 y

2 y

.

.

k y

1 μ

2 μ

.

.

k μ

El contrate se basa en la comparación de dos estimaciones independientes de la varianza común 2 s .

Para ello se descompone la variabilidad total de los datos en dos componentes: una que refleja la

variación dentro del nivel y la otra que refleja la variación entre los niveles.

En caso de que Ho sea cierta, la segunda componente es cero, no obstante que se observarán

diferencias en las medias de los distintos niveles. Hay que probar mediante el contraste que esas

diferencias se deben al azar.

En caso de rechazar Ho, se considera que las diferencias se deben a la influencia de los distintos niveles.

El procedimiento práctico, como en todos los test, es el siguiente:

Fijado un nivel de significación a , se busca en la tabla k n k F −1, − ,un valor k tal que P(F > k) = a .

Gonzalo Flores Muñoz Página 26

Se calcula el cuociente 2 2 / e r S S . Si es mayor que k, se rechaza Ho y en caso contrario se acepta.

Observación:

Se puede demostrar que 2 2 / e r S S ~ k n k F −1, − , donde

2

2

( −1)s

=

k

SCE

Se , 2

2

(n k)s

SCD

Sr −

=

y



=

= −

k

i

i i SCE n y y

1

2 ( ) : Suma de cuadrados entre los niveles

 

= =

= −

ni

j

ij i

k

i

SCD y y

1

2

1

( ) : Suma de cuadrados dentro de los niveles

STC = SCE + SCD : Suma de cuadrados total

 

= =

= −

ni

j

ij

k

i

STC y y

1

2

1

( )

Análisis de las diferencias de medias

Si se rechaza Ho, se concluye que alguna diferencia existe, pero no se sabe donde. La solución es

comparar las parejas de las cuales se tenga alguna sospecha de que pueden ser las causantes de las

diferencias (tal vez todas). Esta comparación puede hacerse mediante intervalos de confianza o prueba

de hipótesis para la diferencia de medias.

La diferencia con el método usual, es que debe estimarse 2 s a través de 2

r S ( que contiene los datos de

toda la muestra) y no solamente de los datos de la pareja en estudio.

Para el cálculo del intervalo de confianza y para el contraste de hipótesis se utiliza los mismos

estadísticos conocidos, haciendo la salvedad del estimador de la varianza.

Comparaciones múltiples

Existen varios métodos de comparaciones múltiples, entre los más conocidos están : el test de Tukey, el

test de Scheffe, el test LSD, el test de Bonferroni, el test de Duncan y otros. Todos ellos utilizan

estadísticos de prueba en que se considera la influencia de todas las observaciones y no solamente de

los pares en estudio. Además, entregan p-valores los que se contrastan con el nivel de significación alfa y

se utilizan los criterios clásicos para aceptar o rechazar.

Gonzalo Flores Muñoz Página 27

Ejemplo:

Se mide la temperatura de una mezcla con 4 termómetros obteniéndose los siguientes datos:

Termómetros Observaciones

1 63, 63, 62, 65, 66, 63

2 64, 64, 63, 64, 65

3 58, 59, 59, 68

4 61, 61, 62, 60, 63

ANALISIS DE LA VARIANZA PARA DOS O MAS FACTORES

Un experimento es sólo una prueba o una serie de pruebas. En todas las disciplinas científicas y en

ingeniería se realizan experimentos, y son una parte importante en el aprendizaje de la forma en que

trabajan los sistemas y los procesos. La validez de las conclusiones que se obtienen de un experimento

depende en gran medida de la manera en que éste se efectúe. Por tanto el diseño del experimento tiene

un papel importante en la solución eventual del problema que lo motivó.

En el medio de la ingeniería, las aplicaciones el diseño experimental son numerosas. Algunas áreas de

uso potencial son:

• Detección de fallas en procesos

• Desarrollo y optimización de procesos

• Evaluación de materiales y alternativas

• Confiabilidad y pruebas de duración

• Pruebas de rendimiento

• Configuración del diseño de productos

• Determinación de la tolerancia de los componentes

Los métodos de diseño experimental permiten resolver estos problemas de manera eficiente durante las

primeras etapas del ciclo del producto. Esto ofrece la ventaja de reducir de manera notable tanto el costo

total del producto como el tiempo de desarrollo.

Se estudiará un modelo con dos factores con interacción entre ellos. Las mismas ideas son aplicables a

modelos con más facores, aunque se complican los cálculos. Statgraphics permite incluir hasta 10

factores con interacciones conjuntas de hasta tres factores.

MODELO CON DOS FACTORES E INTERACCION

ijk

y I e ijk i j ij =μ +a +b + + i=1...n ; j=1...r ; k=1...s

donde:

ijk y : Es el valor k-ésimo de la variable respuesta dentro del nivel i

del factor A y del nivel j del factor B

μ : Es la media global

i a

: Mide el efecto del nivel i del factor A

j b : Mide el efecto del nivel j del factor B

ij I :Mide la interacción entre los factores A y B; es decir, la

diferencia entre el valor observado y el previsto con un

modelo que supone efectos aditivos de los factores

ijk e : Es el error o efecto residual. Se adopta la hipótesis de que estos errores son independientes y

se distribuyen N (0, s )

Gonzalo Flores Muñoz Página 28

Los parámetros i

a , j b e ij I miden los efectos diferenciales respecto a la media global μ ; es decir,

miden los incrementos (positivos o negativos) sobre la media global producido por cada uno de los

niveles de los factores y por la interacción. Por tanto se deben compensar los efectos de unos niveles con

los de otros, esto es:

   

= = = =

= = = =

n

i

r

j

ij ij

r

j

j

n

i

i I I

1 1 1 1

a b 0

Contrates a realizar:

1. Ho: ... 0 1 2 = = = = n a a a

H1: Algún i

a es distinto de cero

2. Ho: ... 0 1 2 = = = = r b b b

H1: Algún j b es distinto de cero

3. Ho: = 0 ij I para todo (i,j)

H1: Algún ij I es distinto de cero

De forma análoga a lo estudiado para un factor, se hace una descomposición del tipo :

STC = SCA + SCB + SCI + SCD

Donde:

SCA : Suma de cuadrados entre los niveles de A. Mide la

variabilidad debida al factor A.

SCB : Suma de cuadrados entre los niveles de B. Mide la

variabilidad debida al factor B

SCI : Suma de cuadrados que mide la variabilidad debida a la

interacción de los factores

SCD : Suma de los cuadrados dentro de los niveles. Mide la

variabilidad residual, es decir, la debida a los demás factores

no incluidos en el modelo

Los estadísticos a utilizar en los contrastes son:

1. 2

2

r

A

S

S

~ n−1,nr( s−1) F

2. 2

2

r

B

S

S

~ r−1,nr( s−1) F

3. 2

2

r

I

S

S

~ (n−1)( r−1),nr( s−1) F

Gonzalo Flores Muñoz Página 29

El procedimiento práctico es el mismo que para todos los test estudiados anteriormente.

En caso de rechazar alguna de las hipótesis nulas se puede hacer un estudio comparativo de las

diferencias de medias correspondientes. Los fundamentos teóricos son los mismos que para un factor.

Ejemplo:

Se experimenta en un proceso de fabricación en dos condiciones de funcionamiento, 1 a y 2 a , y tres

tipos de materia prima, 1 b , 2 b y 3 b , obteniéndose los siguientes resultados:

1 b 2 b 3 b

1 a

20 16 30 33 12 8

2 a

36 40 38 44 40 42

El modelo general será:

ijk i j ij ijk Y =μ +a +b +(ab) +e , donde, i=1, 2 ; j=1, 2, 3 ; k=1, 2

donde por ejemplo, 211 y = 36 es la primera observación, del segundo nivel del factor 1.

ij (ab ) es la interacción (si la hay) entre el funcionamiento y el tipo de materia prima.

ijk e es todo lo que no podemos controlar en nuestro experimento (error aleatorio). Se supone

normalidad e independencia de los errores, es decir,

ijk e ~ N(0, 2 s )

Las hipótesis son:

1ra. Ho: En el proceso de fabricación, las dos condiciones

producen el mismo efecto

Ho: 1 2 a =a

2da. Ho: No hay diferencia en las materias primas de nuestro

proceso de fabricación.

Ho: 1 2 3 b = b = b

3ra. Ho: No hay interacción entre el tipo de funcionamiento y el

tipo de materia prima

Ho: ij (ab ) =0 para todo i,j

Gonzalo Flores Muñoz Página 30

Práctica:

Entrar en statgraphics al editor de datos y crear el vector FABRICA y las variables dato, func y matprim

de acuerdo al siguiente esquema:

dato func matprim

20 1 1

16 1 1

30 1 2

33 1 2

12 1 3

8 1 3

36 2 1

40 2 1

38 2 2

44 2 2

40 2 3

42 2 3

Entrar en Análisis de varianza multifactor:

Data: FABRICA.dato

A: FABRICA.func

B: FABRICA.matprim

Gonzalo Flores Muñoz Página 31

ANALISIS DE REGRESION

Conjunto de técnicas, gráficas o analíticas, para tratar de encontrar la relación entre una variable

respuesta Y, y una serie de variables independientes X1,X2,...,Xk, llamadas variables regresoras.

Se pretende con ello describir un conjunto de datos y realizar predicciones sobre Y a partir del modelo

propuesto.

MODELO DE REGRESION SIMPLE

Yi = b0 + b1 xi + ei , i=1,..,n1

X : variable regresora

xi : observación i-ésima de la variable regresora

Y : observaciones hechas a la variable respuesta

ei : errores aleatorios cometidos en cada estimación

0 1 b ,b : constantes a determinar

HIPOTESIS HABITUALES PARA EL MODELO

1. E[ei] = 0, i=1,..,n (la media de los errores es cero)

2. V(ei) = 2 s , i=1,..,n (varianza constante)

3. E[eiej] = 0, i ¹ j (los errores son no correlacionados)

4. i

2 e ~ N(0,s ) (normalidad de los errores)

QUE SE DESEA OBTENER CON EL MODELO

1. Estimación de los parámetros 0 1

2 b ,b ,s

2. Cálculo de intervalos de confianza y contrastes de hipótesis para estos parámetros.

3. Diagnóstico del modelo (a posteriori); es decir, ver si el modelo propuesto se ajusta a los datos y ver si

las hipótesis que se han hecho son correctas.

METODO DE LOS MINIMOS CUADRADOS

Método de estimación más importante. Se desea minimizar la expresión:

i=1

n

i 0 1 i

2  ( Y - b - b x ) (1)

Ecuaciones Normales (se obtienen de derivar e igualar a cero):

n + x = Y 0 1 i i b b  

0 i 1

2

b x +b xi =xiYi

Gonzalo Flores Muñoz Página 32

Estimadores de 0 b y 1 b (proporcionan un mínimo para (1) ):

0

*

1

b = Y - b * x

1

* i i

i

2 =

Y ( x - x )

( x - x )

b





Recta de valores ajustados:

i

*

0

*

1

*

Y = b + b x i

Estimador para la varianza de los errores (varianza residual):

*2 i i

* 2

=

(Y -Y )

n-2

s



EL COEFICIENTE DE DETERMINACION

Se verifica que este coeficiente toma valores entre 0 y 1 y que cuanto más cercano a 1 se encuentre, mejor es

el ajuste de la recta de regresión a la nube de puntos.

EL COEFICIENTE DE CORRELACION

El coeficiente de correlación lineal entre las variables X e Y es la raíz cuadrada del coeficiente de determinación.

Este coeficiente toma valores entre –1 y 1. Valores negativos implican correlación inversa (si la variable

regresora aumenta, la variable respuesta disminuye). En términos gráficos, significa recta con pendiente

negativa. Lo contrario ocurre si el valor es positivo.

EL MODELO LINEAL GENERAL

Las hipótesis que se establecen son:

1. E(ei )=0 , i=1,..,n

2. V( ei )=

2 s , i=1,..,n

3. La distribución de los errores es normal y los errores se consideran independientes de a dos.

El análisis del modelo bajo las hipótesis anteriores lleva a resultados similares para el coeficiente de

determinación que para regresión simple.

2

2

i

*

i

2 R = 1 -

e

( Y - Y )





i

j= 1

k

Y =  x i j b j + e i

Gonzalo Flores Muñoz Página 33

EJEMPLOS:

1. Se desea explicar la variable respuesta Y en función de las variables regresoras X, Z y T

Y 0.9 -0.1 3.4 0.3 1.1 0.1 -0.2 1.6 0.9 -1.2 -1.8 3.0 1.7

X -1.1 1.2 -0.2 0.1 0.5 -2.1 -0.6 -0.4 0.5 -0.6 0.0 0.4 -1.6

Z 0.0 -1.0 -0.1 -0.5 -1.0 0.3 -0.3 -0.1 -0.6 -0.7 -1.2 -0.2 0.3

T 4.0 7.1 -3.2 6.2 5.4 4.2 0.0 7.3 8.1 -4.0 2.9 9.0 2.5

a) Ajustar un modelo lineal simple con Y y X. Determinar los parámetros y el valor de R2. Interprete el

signo de R.

b) Dibujar la línea ajustada. A la vista del diagrama de dispersión que aparece en el gráfico, ¿es

razonable la hipótesis de linealidad simple? ¿cómo podría modificarse?

c) Obtenga el mejor modelo que ajuste los datos considerando las demás variables regresoras

incorporándolas de una en una hasta que Ud. lo considere razonable. Explique su decisión.

d) Obtenga intervalos de confianza del 95% para los parámetros del modelo propuesto. Interprete.

e) Obtenga Y a través del modelo considerando los siguientes valores: X= 0.5; Z= -1.0; T= 5.4 .

Analice las diferencias.

2. Se efectúa un estudio sobre el desgaste de un nuevo compuesto de goma de neumáticos y su

relación con la viscosidad del caucho empleado y la presión que se ejerce sobre él al rodar. Se

obtienen los siguientes datos :

DESGASTE VIZCOSIDAD PRESION

193

230

172

91

113

125

1.6

15.5

22.0

43.0

33.0

40.0

851

816

1058

1201

1357

1115

a) De acuerdo al diagrama de dispersión, ¿es razonable un modelo de regresión simple con alguna de

las variables ? Justifique.

b) Ajuste un modelo de regresión múltiple a los datos. Indique claramente el modelo y sus parámetros.

Analice R2 .

c) Ajuste un modelo de regresión con un término de interacción entre viscosidad y presión.

d) De acuerdo al estudio de los puntos anteriores, ¿qué modelo recomendaría Ud. ? Justifique.

e) Utilice el modelo recomendado por Ud. para predecir el desgaste cuando la viscosidad es 25 y la

presión 1000.

f) Encuentre intervalos de confianza del 95% para los parámetros del modelo. ¿Qué significan ?

Gonzalo Flores Muñoz Página 34

REGRESION POLINOMIAL

Un caso particular del modelo lineal general que se utiliza con cierta frecuencia es la regresión

polinomial. El modelo es :

Y x x x k

= b + b + b + +b k 0 1 2

2 ...

Ante un problema determinado se suelen incluir potencias hasta un grado a partir del cual la inclusión de

nuevas potencias no mejora el ajuste del modelo a la nube de puntos de manera sustancial. En la

práctica la mejora que se consigue es despreciable para exponentes mayores que 3.

Ejemplo regresión polinomial

Los paneles de las paredes del interior de un aeroplano se forman en una prensa de 1500 toneladas. El

costo de fabricación de cada unidad cambia con el tamaño del lote de producción. La tabla que aparece a

continuación proporciona el costo promedio por unidad (en cientos de dólares) para esta producto (y) y el

tamaño del lote de producción (x).

y 1.81 1.70 1.65 1.55 1.48 1.40 1.30 1.26 1.24 1.21 1.20 1.18

x 20 25 30 35 40 50 60 65 70 75 80 90

Ajustar el modelo polinomial que mejor represente a los datos. Haga todos los análisis necesarios.

Comente.

Ejemplo:

Un distribuidor de cerveza está estudiando el sistema de reparto de su producto. Específicamente, el

distribuidor está interesado en predecir el tiempo de servicio a un expendio al menudeo. El ingeniero

industrial a cargo del estudio ha sugerido que los dos factores más importantes que podría estar

interviniendo en el tiempo de reparto son el número de cajas de cerveza que se entregan y la máxima

distancia que debe recorrer el repartidor. El ingeniero recopiló la muestra de tiempos de reparto

siguiente :

Número

de

Cajas

Distancia

(kms.)

Tiempo

(min.)

10

15

10

20

25

18

12

14

16

22

24

17

13

30

24

30

25

40

18

22

31

26

34

29

37

20

25

27

23

33

24

27

29

31

25

33

26

28

31

39

33

30

25

42

40

a) Ajuste un modelo de regresión simple con cada uno de los factores. ¿Es razonable un modelo de

regresión simple ? Justifique.

b) Proponga el mejor modelo de regresión de acuerdo a los datos y estime los parámetros

correspondientes. Escriba claramente el modelo propuesto y sus parámetros estimados.

c) Dé un intervalo de confianza del 95% para los parámetros estimados. ¿Que significan estos

intervalos ?.

d) ¿Qué puede concluir respecto del problema?. ¿Es razonable la creencia del ingeniero?. Justifique.

Gonzalo Flores Muñoz Página 35

Comentarios sobre el problema de construcción de modelos

Un problema importante en muchas aplicaciones del análisis de regresión es el que involucra la

selección de un conjunto de variables independientes o de regresión para su uso en el modelo. A veces,

la experiencia o las consideraciones de índole teórica pueden ayudar al analista a especificar el conjunto

de variables de regresión que deben emplearse en un situación particular. Sin embargo, usualmente el

problema consiste en seleccionar un conjunto apropiado de variables de regresión a partir de otro que es

muy probable que incluya todas las variables importantes, pero seguramente no todas ellas son

necesarias para modelar de manera adecuada la respuesta Y.

En tal situación, el interés se centra en detectar las variables candidatas para obtener un modelo

de regresión que contenga “el mejor” subconjunto de las variables de regresión. También es deseable

que el modelo final contenga suficientes variables de regresión para que el uso que se pretende dar

(predicción por ejemplo) sea satisfactorio. Por otra parte, para mantener los costos de mantenimiento del

modelo a un mínimo y hacerlo de fácil uso, sería deseable usar el menor número posible de variables de

regresión. El compromiso entre estos objetivos en conflicto a menudo se traduce en la búsqueda de “la

mejor” ecuación de regresión posible. Sin embargo, en muchos problemas no hay un solo modelo de

regresión que sea el “mejor” posible en términos de los distintos criterios propuestos para la evaluación

de los modelos. En general es necesario tener mucho juicio y experiencia con el sistema que se está

modelando para seleccionar un conjunto apropiado de variables de regresión para la ecuación de

regresión.

Ningún algoritmo produce siempre una buena solución para el problema de la selección de

variables. Muchos de los procedimientos disponibles en la actualidad son técnicas de búsqueda, y para

realizar ésta de manera satisfactoria, se requiere la interacción con el analista y el juicio de éste.

Algunas de las técnicas antes mencionadas son, por ejemplo, la de todas las regresiones posibles,

la de regresión por pasos o la de selección directa, entre otras. Para algunas de ellas existen

procedimientos computacionales para su utilización. (Ver Montgomery y Runger, Probabilidad y

estadística aplicadas a la Ingeniería).

...

Descargar como  txt (69.1 Kb)  
Leer 43 páginas más »
txt