Estadística inferencial
De Wikipedia, la enciclopedia libre
La inferencia estadística o estadística inferencial es una parte
de la Estadística que comprende los métodos y procedimientos para
deducir propiedades (hacer inferencias) de una población, a partir de
una pequeña parte de la misma (muestra).
La bondad de estas deducciones se mide en términos
probabilísticos, es decir, toda inferencia se acompaña de su
probabilidad de acierto.
La estadística inferencial comprende:
* La Teoría de muestras.
* La estimación de parametros.
* El Contraste de hipótesis.
* El Diseño experimental.
* La Inferencia bayesiana.
* Los métodos no paramétricos
Método
* Un estudio estadístico comprende los siguientes pasos
Planteamiento del problema
Suele iniciarse con una fijación de objetivos o algunas preguntas como ¿cual
sera la media de esta población respecto a tal
característica?, ¿se parecen estas dos poblaciones?, ¿hay
alguna relación entre ?
En el planteamiento se definen con precisión la población, la
característica a estudiar, las variables, etcétera.bb
Se analizan también en este punto los medios de los que se dispone y el
procedimiento a seguir.
Elaboración de un modelo [editar
Se establece un modelo teórico de comportamiento de la variable de
estudio. En ocasiones no es posible diseñar el modelo hasta realizar un estudio previo.
Los posibles modelos son distribuciones de probabilidad.
Extracción de la muestra [editar
Se usa
alguna técnica de muestreo o un diseño experimental para obtener
información de unapequeña parte de la población.
Tratamiento de los datos
En esta fase se eliminan posibles errores, se depura la muestra, se tabulan los
datos y se calculan los valores que seran necesarios en pasos
posteriores, como la media muestral, la varianza muestral
Los métodos de esta etapa estan definidos por la
estadística descriptiva.
Estimación de los parametros [editar
Con determinadas técnicas se realiza una predicción sobre
cuales podrían ser los parametros de la población.
Contraste de hipótesis [editar
Artículo principal: contraste de hipótesis
Los contrastes de hipótesis son técnicas que permiten simplificar
el modelo matematico bajo analisis. Frecuentemente el contraste
de hipótesis recurre al uso de
estadísticos muestrales.
Conclusiones [editar
Se critica el modelo y se hace un balance. Las conclusiones obtenidas en este punto pueden servir para tomar decisiones o hacer
predicciones.
El estudio puede comenzar de nuevo a partir de este
momento, en un proceso cíclico que permite conocer cada vez mejor la
población y características de estudio.
Distribución de probabilidad
La distribución Normal suele conocerse como la
'campana de Gauss'.
En teoría de la probabilidad y estadística, la
distribución de probabilidad de una variable aleatoria es una
función que asigna a cada suceso definido sobre la variable aleatoria la
probabilidad de que dicho suceso ocurra. La distribución de
probabilidad esta definida sobre el conjunto de todos los eventos rango
de valores de la variable aleatoria.
Cuando la variable aleatoria toma valores en el conjunto delos números
reales, la distribución de probabilidad esta completamente
especificada por la función de distribución, cuyo valor en cada
real x es la probabilidad de que la variable aleatoria sea menor o igual que x.
Definición de función de distribución
Dada una variable aleatoria todos son puntos X, su función de
distribución, FX(x), es
Por simplicidad, cuando no hay lugar a confusión, suele omitirse el
subíndice X y se escribe, simplemente, F(x).
Propiedades [editar
Como
consecuencia casi inmediata de la definición, la función de
distribucion:
* Es una función continua por la derecha.
* Es una función monótona no decreciente.
Ademas, cumple
y
Para dos números reales cualesquiera a y b tal que (a < b), los
sucesos y son mutuamente excluyentes y su unión es el suceso
, por lo que tenemos entonces que:
y finalmente
Por lo tanto una vez conocida la función de distribución F(x)
para todos los valores de la variable aleatoria x conoceremos completamente la
distribución de probabilidad de la variable.
Para realizar calculos es mas
cómodo conocer la distribución de probabilidad, y sin embargo
para ver una representación grafica de la probabilidad es
mas practico el uso de la función
de densidad.
Distribuciones de variable discreta [editar
Distribución binomial.
Se denomina distribución de variable discreta a aquella cuya
función de probabilidad sólo toma valores positivos en un conjunto de valores de X finito o infinito numerable. A dicha función se le llama función de masa de
probabilidad. En este caso la distribución deprobabilidad es el
sumatorio de la función de masa, por lo que tenemos entonces que:
Y, tal como corresponde a la definición de distribución de
probabilidad, esta expresión representa la suma de todas las
probabilidades desde hasta el valor x.
Distribuciones de variable discreta mas importantes
Las distribuciones de variable discreta mas importantes son las
siguientes:
* Distribución binomial
* Distribución binomial negativa
* Distribución Poisson
* Distribución geométrica
* Distribución hipergeométrica
* Distribución de Bernoulli
* Distribución Rademacher, que toma el valor 1 con probabilidad 1 / 2 y
el valor -1 con probabilidad 1 / 2.
* Distribución uniforme discreta, donde todos los elementos de un conjunto finito son equiprobables.
Distribuciones de variable continua [editar
Distribución normal.
Se denomina variable continua a aquella que puede tomar cualquiera de los
infinitos valores existentes dentro de un intervalo.
En el caso de variable continua la distribución de probabilidad es la
integral de la función de densidad, por lo que tenemos entonces que:
Distribuciones de variable continua mas importantes
* Distribución ji cuadrado
* Distribución exponencial
* Distribución de T Student
* Distribución normal
* Distribución Gamma
* Distribución Beta
* Distribución F
* Distribución uniforme (continua)
En estadística, la distribución binomial es una
distribución de probabilidad discreta que mide el número de
éxitos en una secuencia de n ensayos independientes de Bernoullicon una
probabilidad fija p de ocurrencia del éxito entre los ensayos. Un experimento de Bernoulli se caracteriza por ser
dicotómico, esto es, sólo son posibles dos resultados. A uno de
estos se denomina éxito y tiene una probabilidad de ocurrencia p y al
otro, fracaso, con una probabilidad q = 1 - p. En la distribución
binomial el anterior experimento se repite n veces, de forma independiente, y
se trata de calcular la probabilidad de un determinado
número de éxitos. Para n = 1, la
binomial se convierte, de hecho, en una distribución de Bernoulli. Para
representar que una variable aleatoria X sigue una distribución binomial
de parametros n y p, se escribe:
En estadística la distribución binomial negativa es una
distribución de probabilidad discreta que incluye a la
distribución de Pascal.El número de experimentos de Bernoulli de
parametro θ independientes realizados hasta la consecución
del k-ésimo éxito es una variable aleatoria que tiene una
distribución binomial negativa con parametros k y θ. La
distribución geométrica es el caso concreto de la binomial negativa
cuando k = 1.
En teoría de probabilidad y estadística, la
distribución de Poisson es una distribución de probabilidad
discreta. Expresa la probabilidad de un
número k de eventos ocurriendo en un tiempo fijo si estos eventos
ocurren con una frecuencia media conocida y son independientes del tiempo discurrido
desde el último evento.
En teoría de probabilidad y estadística, la distribución
geométrica es cualquiera de las dos distribuciones de probabilidad
discretas siguientes: la distribución deprobabilidad del número X
del ensayo de Bernoulli necesaria para obtener un éxito, contenido en el
conjunto o la distribución de
probabilidad del número Y = X − 1 de fallos
antes del primer éxito, contenido en el conjunto . Cual de éstas es la que uno llama 'la'
distribución geométrica, es una cuestión de
convención y conveniencia.
En teoría de la probabilidad la distribución
hipergeométrica es una distribución discreta relacionada con
muestreos aleatorios y sin reemplazo. Supóngase que se tiene una
población de N elementos de los cuales, d pertenecen a la
categoría A y N-d a la B. La distribución hipergeométrica
mide la probabilidad de obtener x () elementos de la categoría A en una
muestra de n elementos de la población original. La distribución
hipergeométrica es aplicable a muestreos sin reemplazo y la binomial a
muestreos con reemplazo. En situaciones en las que el
número esperado de repeticiones en el muestreo es presumiblemente bajo,
puede aproximarse la primera por la segunda. Esto es
así cuando N es grande y el tamaño relativo de la muestra
extraída, n/N, es pequeño.
En teoría de probabilidad y estadística, la distribución
de Bernoulli (o distribución dicotómica), nombrada así por
el matematico y científico suizo Jakob Bernoulli, es una
distribución de probabilidad discreta, que toma valor 1 para la
probabilidad de éxito (p) y valor 0 para la probabilidad de fracaso (q =
1 − p).
Distribución Rademacher, que toma el valor 1 con probabilidad 1 / 2 y el
valor -1 con probabilidad 1 / 2
En teoría de la probabilidad, la distribuciónuniforme discreta es
una distribución de probabilidad que asume un
número finito de valores con la misma probabilidad. Para
un dado perfecto, todos los resultados tienen la misma
probabilidad 1/6. Luego, la probabilidad de que al lanzarlo
caiga 4 es 1/6. Para una moneda perfecta, todos los resultados tienen la misma
probabilidad 1/2. Luego, la probabilidad de que al lanzarla caiga cara es 1/2.
En estadística, la distribución χ² (de Pearson) es una
distribución de probabilidad continua con un parametro k que representa
los grados de libertad de la variable aleatoria
donde Zi son variables de distribución normal, de media cero y varianza
uno. El que la variable aleatoria X tenga esta distribución se
representa habitualmente así
Es conveniente tener en cuenta que la letra griega χ se transcribe al
latín como chi[1]
y se pronuncia en castellano como ji.[ ][]La
distribución χ² tiene muchas aplicaciones en inferencia
estadística, por ejemplo en la denominada prueba χ² utilizada como prueba de independencia y como prueba de bondad de ajuste y en la
estimación de varianzas. También esta involucrada en el
problema de estimar la media de una población normalmente distribuida y
en el problema de estimar la pendiente de una recta de regresión lineal,
a través de su papel en la distribución t de Student, y participa
en todos los problemas de analisis de varianza, por su papel en la
distribución F de Snedecor, que es la distribución del cociente
de dos variables aleatorias independientes con distribución
χ².
Ejemplos para la distribución normal son los tiempos dentroaccidentes
con probabilidad invariable. Se pueden calcular una variable aleatoria de
distribución exponencial x por medio de una variable aleatoria de
distribución uniforme u = U(0,1):
La suma de k variables aleatorias independientes de distribución
exponencial con parametro λ es una variable aleatoria de
distribución gamma.
En estadística y probabilidad se llama distribución normal,
distribución de Gauss o distribución gaussiana, a una de las
distribuciones de probabilidad de variable continua que con mas
frecuencia aparece en fenómenos reales.
La importancia de esta distribución radica en que permite modelar
numerosos fenómenos naturales, sociales y psicológicos. Mientras
que los mecanismos que subyacen a gran parte de este
tipo de fenómenos son desconocidos, por la enorme cantidad de variables
incontrolables que en ellos intervienen, el uso del
modelo normal puede justificarse asumiendo que cada observación se
obtiene como la
suma de unas pocas causas independientes.
La distribución normal también es importante por su
relación con la estimación por mínimos cuadrados, uno de
los métodos de estimación mas simples y antiguos.
En teoría de probabilidad y estadística, la distribución
uniforme continua es una familia de distribuciones de probabilidad para
variables aleatorias continuas, tales que cada miembro de la familia, todos los
intervalos de igual longitud en la distribución en su rango son
igualmente probables. El dominio esta definido por dos
parametros, a y b, que son sus valores mínimo y maximo.
La distribución es a menudo escrita en forma abreviada como U(a,b).