ClubEnsayos.com - Ensayos de Calidad, Tareas y Monografias
Buscar

La Estadística es la ciencia que se encarga de recolectar datos


Enviado por   •  18 de Septiembre de 2013  •  3.464 Palabras (14 Páginas)  •  568 Visitas

Página 1 de 14

La Estadística es la ciencia que se encarga de recolectar datos de una población o muestra. Los conceptos estadísticos se han trabajado intuitivamente desde la antigüedad, las primeras culturas recopilaban datos poblacionales por medio de censos como los realizados Egipto y por Moisés (según consta la Biblia) y el empadronamiento que fue efectuado por los romanos en Judea, solo a partir del siglo pasado Adolfo Quetelec(1796-1874) creo diferentes métodos para realizar observaciones con el fin de determinar el tipo de datos que regulan algunos fenómenos. Al fin algo nuevo

1.1 estadística descriptiva e inferencial.

Estadística descriptiva es la disciplina de describir cuantitativamente las características principales de una colección de datos , o la propia descripción cuantitativa. Estadística descriptiva se distinguen de la estadística inferencial (o estadísticas inductivas ), en que las estadísticas descriptivas pretenden resumir una muestra , en lugar de utilizar los datos para conocer la población que se considera que la muestra de datos a representar. Esto generalmente significa que las estadísticas descriptivas, a diferencia de la estadística inferencial, no se desarrollaron sobre la base de la teoría de la probabilidad . Aun cuando un análisis de los datos señala a sus principales conclusiones utilizando la estadística inferencial, son generalmente también presenta estadísticas descriptivas. Por ejemplo, en un artículo que informa sobre un estudio en seres humanos, no suele aparecer un cuadro en el que el conjunto del tamaño de la muestra , el tamaño de la muestra en subgrupos importantes (por ejemplo, para cada grupo de tratamiento o de exposición) y demográficas o características clínicas como la edad media , la proporción de sujetos de ambos sexos, y la proporción de sujetos con relacionados con comorbilidades .

Algunas de las medidas que se utilizan comúnmente para describir un conjunto de datos son medidas de tendencia central y medidas de la variabilidad o dispersión . Medidas de tendencia central incluyen la media , la mediana y el modo , mientras que las medidas de la variabilidad incluyen la desviación estándar (o la varianza ), los valores mínimo y máximo de las variables, curtosis y asimetría.

La estadística inferencial es una parte de la estadística que comprende los métodos y procedimientos que por medio de la inducción determina propiedades de una población estadística, a partir de una pequeña parte de la misma. La estadística inferencial comprende como aspectos importantes:

• La toma de muestras o muestreo.

• La estimación de parámetros o variables estadísticas.

• El contraste de hipótesis.

• El diseño experimental.

• La inferencia bayesiana.

• Los métodos no paramétricos

Todos estos puntos los podemos desglosar como:

Planteamiento del problema

Un problema de inferencia estadística suele iniciarse con una fijación de objetivos o algunas preguntas del tipo:

¿cuál será la media de esta población respecto a tal característica?

¿Se parecen estas dos poblaciones?

¿Hay alguna relación entre...?

En el planteamiento se definen con precisión la población, la característica a estudiar, las variables, etc.

Elaboración de un modelo

Se establece un modelo teórico de comportamiento de la variable de estudio. En ocasiones no es posible diseñar el modelo hasta realizar un estudio previo.

Los posibles modelos son distribuciones de probabilidad.

Extracción de la muestra

Se usa alguna técnica de muestreo o un diseño experimental para obtener información de una pequeña parte de la población.

Tratamiento de los datos

En esta fase se eliminan posibles errores, se depura la muestra, se tabulan los datos y se calculan los valores que serán necesarios en pasos posteriores, como la media muestral, la varianza muestral

Los métodos de esta etapa están definidos por la estadística descriptiva.

Estimación de los parámetros

Con determinadas técnicas se realiza una predicción sobre cuáles podrían ser los parámetros de la población

Contraste de hipótesis

Los contrastes de hipótesis son técnicas que permiten simplificar el modelo matemático bajo análisis. Frecuentemente el contraste de hipótesis recurre al uso de estadísticos muestrales.

Conclusiones

Se critica el modelo y se hace un balance. Las conclusiones obtenidas en este punto pueden servir para tomar decisiones o hacer predicciones.

El estudio puede comenzar de nuevo a partir de este momento, en un proceso cíclico que permite conocer cada vez mejor la población y características de estudio.

2.2 estadística paramétrica y no paramétrica

Estadístico Jacob Wolfowitz acuñó el término estadístico "paramétrica" con el fin de definir su contrario en 1942:

"La mayoría de estos desarrollos tienen esta característica en común, que las funciones de distribución de los distintos estocásticosvariables que entran en sus problemas se asumen de forma funcional conocida, y las teorías de la estimación y pruebas de hipótesis son las teorías de la estimación de y de probar hipótesis acerca de, uno o más parámetros ..., el conocimiento de lo que determinaría por completo las distintas funciones de distribución afectadas. Nos referiremos a esta situación ... como el caso paramétrico, y denotan el caso contrario, cuando las formas funcionales de las distribuciones son desconocidos, como el caso no paramétrico.

Paramétrico estadísticas es una rama de las estadísticas que supone que los datos ha llegado a partir de un tipo de distribución de probabilidad y hace inferencias acerca de los parámetros de la distribución. [ 1 ] La mayoría de los métodos estadísticos elementales conocidas son paramétricos. [ 2 ]

En términos generales los métodos paramétricos hacer más supuestos que los métodos no paramétricos . [ 3 ] Si esas suposiciones adicionales son correctos, métodos paramétricos pueden producir estimaciones más exactas y precisas. Se dice que tienen máspoder estadístico . Sin embargo, si las suposiciones son incorrectas, los métodos paramétricos pueden ser muy engañosas. Por esa razón, no se considera robusta . Por otro lado, paramétrica fórmulas son a menudo más simple para escribir y más rápido de calcular.En algunos, pero definitivamente no todos los casos, su simplicidad hace que para su no-robustez , especialmente si se tiene cuidado para examinar las estadísticas de diagnóstico.

Ejemplo:

Supongamos que tenemos una muestra de 99 resultados de las pruebas con una media de 100 y una desviación estándar de 1. Si suponemos que todos los 99 resultados de las pruebas son muestras aleatorias de una distribución normal, podemos predecir que hay un 1% de probabilidad de que la calificación de la prueba número 100 será superior a 102.365 (es decir, la media más 2,365 desviaciones estándar), suponiendo que la calificación de la prueba número 100 proviene de la misma distribución que los otros. La familia normal de las distribuciones todos tienen la misma forma y se parametriza mediante media y desviación estándar. Esto significa que si usted sabe la media y desviación estándar, y que la distribución es normal, ya sabes la probabilidad de cualquier observación de futuro. Métodos estadísticos paramétricos se utilizan para calcular el valor por encima de 2.365, determinado 99independientes observaciones a partir de la misma distribución normal.

A no paramétrico estimación del mismo es el máximo de los primeros 99 resultados. No necesitamos suponer nada acerca de la distribución de los resultados de las pruebas a la razón de que antes de que nos dimos a la prueba era igualmente probable que el puntaje más alto sería una de las primeras 100. Por lo tanto hay un 1% de probabilidad de que el número 100 es mayor que cualquiera de los 99 que lo precedieron.

La estadística no paramétrica es una rama de la estadística que estudia las pruebas y modelos estadísticos cuya distribución subyacente no se ajusta a los llamados criterios paramétricos. Su distribución no puede ser definida a priori, pues son los datos observados los que la determinan. La utilización de estos métodos se hace recomendable cuando no se puede asumir que los datos se ajusten a una distribución conocida, cuando el nivel de medida empleado no sea, como mínimo, de intervalo.

Las principales pruebas no paramétricas son las siguientes:

• Prueba χ² de Pearson

• Prueba binomial

• Prueba de Anderson-Darling

• Prueba de Cochran

• Prueba de Cohen kappa

• Prueba de Fisher

• Prueba de Friedman

• Prueba de Kendall

• Prueba de Kolmogórov-Smirnov

• Prueba de Kruskal-Wallis

• Prueba de Kuiper

• Prueba de Mann-Whitney o prueba de Wilcoxon

• Prueba de McNemar

• Prueba de la mediana

• Prueba de Siegel-Tukey

• Prueba de los signos

• Coeficiente de correlación de Spearman

• Tablas de contingencia

• Prueba de Wald-Wolfowitz

• Prueba de los rangos con signo de Wilcoxon

La mayoría de estos test estadísticos están programados en los paquetes estadísticos más frecuentes, quedando para el investigador, simplemente, la tarea de decidir por cuál de todos ellos guiarse o qué hacer en caso de que dos test nos den resultados opuestos. Hay que decir que, para poder aplicar cada uno existen diversas hipótesis nulas y condiciones que deben cumplir nuestros datos para que los resultados de aplicar el test sean fiables. Esto es, no se puede aplicar todos los test y quedarse con el que mejor convenga para la investigación sin verificar si se cumplen las hipótesis y condiciones necesarias pues, si se violan, invalidan cualquier resultado posterior y son una de las causas más frecuentes de que un estudio sea estadísticamente incorrecto. Esto ocurre sobre todo cuando el investigador desconoce la naturaleza interna de los test y se limita a aplicarlos sistemáticamente.

Es importante mencionar que si la distribución de los datos se ajusta a un tipo de distribución conocida, existen otras [pruebas] que, en la práctica, son más aconsejables pero que así mismo requieren otros supuestos. En este caso, la estadística a emplear es la estadística paramétrica, dentro de la cual muchas veces podemos encontrar equivalencias entre pruebas pero con diferencias en la potencia entre ambas siendo siempre la potencia de las pruebas no paramétricas menor que la potencia de las pruebas paramétricas equivalentes. Aun así, el uso adecuado de los tamaños muéstrales disminuye la posibilidad de cometer un [error tipo II], puesto que aumenta al mismo tiempo la eficacia de la prueba. Es decir, a medida que se amenta el tamaño de la muestra, disminuye la posibilidad de cometer un error tipo II (un falso negativo: No rechazar la hipótesis nula cuando ésta en realidad es falsa).

3.3 coeficiente de correlación.

En estadística, el coeficiente de correlación de Pearson es una medida de la relación lineal entre dos variables aleatorias cuantitativas. A diferencia de la covarianza, la correlación de Pearson es independiente de la escala de medida de las variables.

De manera menos formal, podemos definir el coeficiente de correlación de Pearson como un índice que puede utilizarse para medir el grado de relación de dos variables siempre y cuando ambas sean cuantitativas.

En el caso de que se esté estudiando dos variables aleatorias x e y sobre una población estadística; el coeficiente de correlación de Pearson se simboliza con la letra , siendo la expresión que nos permite calcularlo:

Dónde:

• es la covarianza de

• es la desviación típica de la variable

• es la desviación típica de la variable

De manera análoga podemos calcular este coeficiente sobre un estadístico muestral, denotado como a:

Interpretación:

El valor del índice de correlación varía en el intervalo [-1,1]:

• Si r = 1, existe una correlación positiva perfecta. El índice indica una dependencia total entre las dos variables denominada relación directa: cuando una de ellas aumenta, la otra también lo hace en proporción constante.

• Si 0 < r < 1, existe una correlación positiva.

• Si r = 0, no existe relación lineal. Pero esto no necesariamente implica que las variables son independientes: pueden existir todavía relaciones no lineales entre las dos variables.

• Si -1 < r < 0, existe una correlación negativa.

• Si r = -1, existe una correlación negativa perfecta. El índice indica una dependencia total entre las dos variables llamada relación inversa: cuando una de ellas aumenta, la otra disminuye en proporción constante.

4.1 técnicas de predicción

El análisis de series temporales como método de predicción

Entenderemos por técnica de predicción a todo proceso que integre desde la recogida de la información relevante para predecir una variable hasta la obtención de la predicción tras su procesamiento. Por tanto, los elementos fundamentales de toda técnica de predicción son: a) La forma en la que se elabora la base informativa y b) El procedimiento seguido para procesar la información.

En función de la forma en la que se combinen ambos elementos se irán definiendo las diferentes técnicas predictivas existentes. En la literatura especializada existen muchas clasificaciones de las técnicas predictivas. Así,

por ejemplo, Wood y Fildes (1976) optan por clasificarlas en métodos causales y no causales, en función de si el procedimiento utiliza los factores que determinan el nivel de la variable. Por su parte, tanto O'Donovan (1983) como Abraham y Ledolter (1983), distinguen entre técnicas cualitativas y cuantitativas, estando las primeras basadas en información subjetiva (expertos) de forma que no pueden ser reproducidas por otro agente, mientras que las segundas se cimentarán en modelos matemáticos o estadísticos, de forma que cualquier agente, partiendo de la misma información, llegaría a idénticas conclusiones. Para estos últimos, las técnicas cuantitativas se clasificarían a su vez en modelos deterministas y modelos estocásticos.

No obstante, la mayor parte de los autores como Chambers, Mullick y Smith (1971) o Pulido

(1989), coinciden en clasificar las técnicas de predicción en tres grandes grupos: a) Técnicas de información subjetiva, b) Técnicas de información de series temporales y c) Técnicas de información causal o de relación. Una variación razonable, sobre todo si se tienen en cuenta los elementos de toda técnica predictiva, sería agregar los grupos b) y c) y distinguir entre situaciones con historia, en las que se dispone de información sobre el fenómeno estudiado, o situaciones sin historia, en las que la base informativa ha de ser generada antes de acometer el proceso de predicción.

Las técnicas de información subjetiva se utilizan en situaciones en las que no existe ni puede existir base informativa objetiva sobre el fenómeno a estudiar, por lo que suponen que toda la información relevante es poseída por un conjunto de agentes de cuyas experiencia, opiniones y expectativas trata de extraerse la máxima información. Es el caso de las encuestas de opinión, consultas a expertos, etc.... Dentro de éste grupo destacan la elaboración de índices de opinión empresarial, las encuestas de actitudes o sentimientos, el consenso de grupos o brainstorming, los métodos de panel de expertos DELPHI, las matrices de impacto cruzado y la predicción tecnológica.

Estas técnicas, cuyo análisis no es objeto del presente curso, han sido estudiadas por el alumno parcialmente en otras asignaturas. Una descripción detallada y una valoración comparada de las mismas puede verse en Pulido (1989).

Las técnicas sustentadas en la información proporcionada por series temporales constituyen el eje fundamental del presente curso de predicción. Su característica principal es el estudio de un fenómeno a través de su evolución temporal. Entre otras, cabe distinguir las formulas "ad hoc" (medias móviles, alisado exponencial, modelos naïve,...), los métodos de descomposición de series temporales (análisis de tendencias, curvas en S, desestacionalización, X-11, etc..), análisis frecuencial de procesos estocásticos (análisis espectral), el análisis temporal de procesos estocásticos (enfoque BoxJenkins o modelos ARIMA univariantes), y los modelos probabilísticos (Cadenas de Markov, modelos de difusión de un producto). Posteriormente volveremos sobre esta clasificación, dado que la mayoría de las técnicas mencionadas serán analizadas en profundidad a lo largo de este curso.

Finalmente, las técnicas de información causal se sustentan en las relaciones existentes en el comportamiento de diferentes fenómenos. Entre ellas destacan los modelos de simulación deterministas (Tablas Input-output, Dinámica de Sistemas de Forrester) y los modelos econométricos (modelos uni y multiecuacionales, modelos de función de transferencia, simulación, etc...). Algunas de estas técnicas también serán analizadas a lo largo del presente curso, si bien son conocidas en parte por el alumno.

A la hora de seleccionar una técnica predictiva debe prestarse atención a dos grupos o categorías de criterios. En primer lugar ha de atenderse a aspectos relacionados con las propiedades intuitivas sobre cómo debe ser una predicción ideal que, siguiendo a Aznar y Trívez (1993), son las siguientes:

• ƒ Informativa y exacta.

• ƒ Comprensible y de fácil incorporación al proceso de toma de decisiones.

• ƒ Barata.

• ƒ Debe estar disponible con la urgencia y frecuencia requeridas.

• ƒ Debe proporcionar el detalle adecuado al nivel que se toma la decisión.

De estos enunciados sólo el primero requiere algún tipo de aclaración adicional. El predictor puede considerarse como una variable aleatoria (estadístico), de forma que para cada muestra diferente tendremos una estimación puntual o predicción. Si bien la predicción es importante, no lo es menos la región de valores entre los que con mayor probabilidad pueda encontrarse dicha estimación puntual.

Cuando dicha región es muy pequeña se dice que la predicción es informativa. Una predicción será tanto más exacta cuando el grado de discrepancia entre el verdadero valor de la variable, una vez observado, y la predicción sea pequeño. La métrica utilizada variará según el caso analizado.

El segundo grupo de criterios responde al entorno en el cuál se adopta la predicción y la decisión relacionada con ésta y, en particular, se refieren

• ƒ Al tipo de variable que va a ser objeto de predicción y sus componentes.

• ƒ Al horizonte de predicción.

• ƒ A los recursos disponibles.

• ƒ A la información disponible

4.2 muestreo aleatorio.

Consideremos una población finita, de la que deseamos extraer una muestra. Cuando el proceso de extracción es tal que garantiza a cada uno de los elementos de la población la misma oportunidad de ser incluidos en dicha muestra, denominamos al proceso de selección muestreo aleatorio.

El muestreo aleatorio se puede plantear bajo dos puntos de vista:

1.- Muestreo aleatorio sin reposición

Consideremos una población E formada por N elementos. Si observamos un elemento particular, , en un muestreo aleatorio sin reposición se da la siguiente circunstancia:

• La probabilidad de que e sea elegido en primer lugar es ;

• Si no ha sido elegido en primer lugar (lo que ocurre con una probabilidad de ), la probabilidad de que sea elegido en el segundo intento es de .

• en el (i+1)-ésimo intento, la población consta de N-i elementos, con lo cual si e no ha sido seleccionado previamente, la probabilidad de que lo sea en este momento es de .

Si consideramos una muestra de elementos, donde el orden en la elección de los mismos tiene importancia, la probabilidad de elección de una muestra cualquiera es

lo que corresponde en el sentido de la definición de probabilidad de Laplace a un caso posible entre las VN,n posibles n-uplas de N elementos de la población.

Si el orden no interviene, la probabilidad de que una muestra

sea elegida es la suma de las probabilidades de elegir una cualquiera de sus n-uplas, tantas veces como permutaciones en el orden de sus elementos sea posible, es decir

Muestreo aleatorio con reposición

Sobre una población E de tamaño N podemos realizar extracciones de n elementos, pero de modo que cada vez el elemento extraído es repuesto al total de la población. De esta forma un elemento puede ser extraído varias veces. Si el orden en la extracción de la muestra interviene, la probabilidad de una cualquiera de ellas, formada por n elementos es:

Si el orden no interviene, la probabilidad de una muestra cualquiera, será la suma de la anterior, repitiéndola tantas veces como manera de combinar sus elementos sea posible. Es decir,

sea n1 el número de veces que se repite cierto elemento e1 en la muestra;

sea n2 el número de veces que se repite cierto elemento e2;

sea nk el número de veces que se repite cierto elemento ek,

de modo que . Entonces la probabilidad de obtener la muestra

es

Es decir,

El muestreo aleatorio con reposición es también denominado muestreo aleatorio simple, que como hemos mencionado se caracteriza por que

• cada elemento de la población tiene la misma probabilidad de ser elegido, y

• las observaciones se realizan con reemplazamiento. De este modo, cada observación es realizada sobre la misma población (no disminuye con las extracciones sucesivas).

Sea X una v.a. definida sobre la población E, y f(x) su ley de probabilidad.

En una muestra aleatoria simple, cada observación tiene la distribución de probabilidad de la población:

Además todos las observaciones de la v.a. son independientes, es decir .

Tablas de números aleatorios: Lotería Nacional

Un ejemplo de una tabla de números aleatorios consiste en la lista de los números de Lotería Nacional premiados a lo largo de su historia, pues se caracterizan por que cada dígito tiene la misma probabilidad de ser elegido, y su elección es independiente de las demás extracciones.

Un modo de hacerlo es el siguiente. Supongamos que tenemos una lista de números aleatorios de k=5 cifras (00000-99.999), una población de N=600individuos, y deseamos extraer una muestra de n=6 de ellos. En este caso ordenamos a toda la población (usando cualquier criterio) de modo que a cada uno de sus elementos le corresponda un número del 1 al 600. En segundo lugar nos dirigimos a la tabla de números aleatorios, y comenzando en cualquier punto extraemos un número t, y tomamos como primer elemento de la muestra al elemento de la población:

El proceso se repite tomando los siguientes números de la tabla de números aleatorios, hasta obtener la muestra de 10 individuos.

Las cantidades

pueden ser consideradas como observaciones de una v.a. U, que sigue una distribución uniforme en el intervalo [0,1]

...

Descargar como  txt (22.7 Kb)  
Leer 13 páginas más »
txt