El Método Científico es un proceso mediante el cual se obtienen conocimientos para
acrecentar el acervo de una disciplina científica. Los aspectos mas
importantes del método son
FORMULACIÓN DE HIPÓTESIS: La parte mas difícil del trabajo
científico. Sir Francis Bacon (1561-1626) fundador del método
inductivo moderno pensaba que la mera organización de los datos
debería sugerir la hipótesis obvia. Sin
embargo, esto pasa raras veces y las técnicas de la E.
DESCRIPTIVA pueden sugerir hipótesis adecuadas.
OBTENCIÓN DE DATOS: En este
aspecto del Método el papel de la Estadística es crucial. Se
trata de adquirir información de manera que: 1) La información
sea relevante al problema y
2) Las conclusiones que de ella se extraigan tengan
cierto grado de confiabilidad.
La cantidad de información necesaria, la forma de recolección y
las técnicas para adquirirla, de manera que se cumplan los dos objetivos
anotados, son todos problemas en el dominio de los métodos
estadísticos. DISEÑOS EXPERIMENTALES y MUESTREO
ESTADÍSTICO.
CONFRONTACIÓN DE LA INFORMACIÓN OBTENIDA CON
LAS CONSECUENCIAS DE LAS HIPÓTESIS POSTULADAS: Una vez
obtenidos los datos, el papel de la Estadística se vuelve mas
importante puesto que llega el momento de analizarlos. 1°:
organización, presentación tabular o grafica y
descripción resaltando sus aspectos mas característicos,
es decir, uso de las técnicas de la E. DESCRIPTIVA. 2°: Generalizar esos aspectos
característicos de la información y examinar su compatibilidad
con las consecuencias de la (s) hipótesis que se sustentan. Puesto que
la información es incompleta o reflejara lavariabilidad del
fenómeno que se observa, la generalización ira acompañada
de un grado de incertidumbre que es cuantificable mediante principios
probabilísticos. INFERENCIA ESTADÍSTICA o
ESTADÍSTICA INDUCTIVA.
Estadística
Rama de las matematicas que se ocupa de reunir, organizar describir y
analizar datos numéricos y que ayuda a resolver problemas como
el diseño de experimentos y la toma de decisiones, de manera que las
conclusiones obtenidas tengan un grado de confiabilidad especificado.
POBLACIÓN, INDIVIDUO, CARACTER
El primer campo de actuación de la estadística, como se ha visto, es la demografía. De
esta ciencia ha tomado la nomenclatura (población, individuo…).
Se llama población al conjunto de todos los elementos
cuyo conocimiento interesa. Cada uno de esos elementos es un individuo. Si se esta estudiando el resultado de
ciertos experimentos químicos, cada uno de esos experimentos sera
un individuo estadístico y el conjunto de todos
los posibles experimentos en esas condiciones sera la población.
Cada individuo puede ser descrito mediante uno o varios
caracteres. Por ejemplo, si los individuos son
personas, el sexo, el estado civil, el número de hermanos o su estatura
son caracteres. Y si el individuo es una
reacción química, el tiempo de reacción, la cantidad de
producto obtenido o si éste es acido o basico seran
posibles caracteres que pueden analizarse.
Un caracter puede ser cuantitativo si es
mensurable numéricamente o cualitativo si no admite medición
numérica. El número de hermanos y la estatura
son caracteres cuantitativos mientras que el sexo y el estado civil son
caracteres cualitativos.
Los distintos valoresque puede tomar un
caracter cuantitativo configuran una variable estadística. La
variable estatura, en cierta población estadística, toma valores
en el intervalo 147-205; y la variable número de hermanos toma los
valores 0, 1, 2, 3, 4, 5, 6, 7 y 8. Una variable estadística como
esta última es discreta, ya que sólo admite valores aislados. Una
variable estadística es continua si admite todos los valores de un intervalo, como
ocurre con la estatura.
estadísticos de tendencia central
Las medidas de tendencia central son parametros estadísticos
alrededor de los cuales se distribuyen los datos de la distribución y se
toman como el
centro de la misma. Las mas importantes son la media,
la mediana y la moda.
Media (): número estimado mediante ciertas operaciones a partir de
los elementos de un conjunto de números, x1, x2,…,xn, y que sirve para representar a éste. Hay
distintos tipos de medias: media aritmética,
media geométrica y media armónica.
La media aritmética es el resultado de sumar todos los elementos del conjunto y dividir
entre el número de ellos
= = / n
/ n
Donde:
= sumatoria tomada sobre todas las observaciones.
Xi = i-ésima observación.
n = Tamaño de la muestra.
Se llama media de una distribución estadística
a la media o promedio aritmético de los valores de los distintos
individuos que la componen.
Con la media muestral X se estima la poblacional (, la cual
generalmente es desconocida.
Nota: La media es sensible a valores extremos.
Mediana (ME): es una de las medidas de tendenciacentral. Colocando
todos los valores en orden creciente, la mediana es aquél que ocupa la
posición central.
Moda (MO), es el valor que aparece con mas frecuencia en un conjunto dado de números. Es una
de las medidas de tendencia central. En el conjunto la moda es 7. Si son dos los
números que se repiten con la misma frecuencia, el conjunto tiene dos
modas (bimodal), si son tres, trimodal. Otros conjuntos no tienen moda.
Ejemplo 1.
Se registró el peso en gramos (g) de 11 ratones de una cepa de
laboratorio a los 30 días de edad, para estimar la media (),
mediana (ME) y moda (MO) del peso vivo.
120, 116, 106, 106, 108, 122, 108, 116, 122, 102, 110
Desarrollo:
Media: = /n
120+116+106+106+108+122+108+116+122+102+110 / 11=
1236/11=112.36 g
Es decir, el peso promedio o la media del peso de los ratones a los 30
días de edad es de 112.36 g.
Mediana
ME = 102, 106, 106, 108, 108, 110, 116, 116, 120, 122, 122
Es decir, la mediana del
peso = 110 g
Moda:
MO =106, 108, 116 y 122 gramos son los pesos mas frecuentes
La distribución es tetramodal.
ESTADÍSTICOS DE DISPERSIÓN
Las medidas de dispersión son parametros estadísticos que
indican cuanto se alejan del centro los valores de la
distribución. Las mas importantes son la
desviación estandar y la varianza.
Medidas de dispersión, parametros estadísticos que miden
cuan diseminados se encuentran los datos de una distribución. Los mas utilizados se refieren al grado de lejanía de
los datos respecto a la media y son la varianza, la desviación
estandar y el coeficiente de variación.
Varianza (): Es el promedio delos cuadrados de las desviaciones,
(xi - )2, de cada elemento, xi, respecto a la media,
La fórmula anterior es equivalente a esta otra:
que resulta mas cómoda de aplicar, sobre todo cuando la media,
no es un número entero.
Ejemplo 2. En la distribución 4, 6, 6, 7, 9,
11, 13 (tamaño de camada en cerdos), con media 8, la varianza es:
Aplicando la segunda fórmula se obtiene, obviamente, el mismo
resultado:
=
La desviación típica o desviación estandar, Sx, es
la raíz cuadrada de la varianza:
En el ejemplo 2 la desviación estandar es igual con:
crías/parto
Este parametro se expresa junto con la media en términos de
± o sea 8 ± 3.162 crías
Lo que significa que con 1 desviación estandar que incluye al 68
% de datos analizados el tamaño de camada en cerdas es de 4.8 a 11.2
crías al parto. Es decir:
8 – 3.162 = 4.834 ≈ 4.8 crías/parto
8 + 3.162 = 11.162 ≈ 11.2 crías/parto
La razón de ser de este parametro es conseguir que la medida de
dispersión se exprese en las mismas unidades que los datos a los que se
refieren. Por ejemplo, en una distribución de pesos en
la que los datos estan dados en gramos (g), la media viene dada en
gramos, pero la varianza en gramos cuadrados (g2). Para
evitar este inconveniente se estima su raíz
cuadrada, obteniéndose así la desviación típica en
gramos.
El par de parametros formado por la media y la
desviación estandar (, Sx) aporta una información
suficientemente confiable sobre la forma de la distribución.
El coeficiente de variación, CV, es el cocienteentre la
desviación estandar y la media de la distribución
Este parametro sirve para relativizar el valor de la desviación
típica y así poder comparar la dispersión de dos
poblaciones estadísticas con gamas de valores muy discretas. Por
ejemplo, si en una compañía mexicana los salarios de los
empleados tienen una media X1 = 7000 pesos y una desviación
estandar S1 = 500 pesos y en otra empresa española la
media de los salarios es X2 = 200 000 pesetas y la desviación
estandar S2 = 40000 pesetas, para comparar la dispersión de
salarios se recurre al coeficiente de variación:
CV1 = 500 / 7000 (100) = 7.14 %
CV2 = 40000 / 200000 (100) = 20 %
Se aprecia así que en la primera compañía los salarios
tienen menor dispersión que en la segunda, es decir, los salarios en
México son mas homogeneos.
NATURALEZA DE LA VARIABLE: Por la frecuencia de los
valores con respecto a la media
UNIFORMES
Insesgadas o NORMALES
Sesgadas
INTERVALO o RANGO
Es la diferencia entre los valores mayor y menor de la distribución.
Indica, pues, la longitud del tramo en el que se hallan los
datos. También se llama rango.
Ejemplo: El gerente de una cadena de supermercados desea investigar la
relación entre el número de empleados (X) y las ventas semanales
en miles de pesos (Y). Para ello toma una
muestra de 15 tiendas con características semejantes, obteniendo la
siguiente información
# de empleados Ventas $
Tienda No. X Y XY
1 19 9 171
2 17 6 102
3 30 12 360
4 17 5 85
5 10 4 40
6 248 192
7 48 20 960
8 41 16 656
9 24 12 288
10 17 6 102
11 32 11 352
12 43 17 731
13 32 13 416
14 40 16 640
15 36 15 540
Datos: ( Xi = 430 ( Yi = 170
= 28.67 = $11.33 (miles)
( Xi2 = 14158 ( Yi2 = 2262
( Xi Yi = 5635
Varianza y Desviación Estandar.
[pic]= [pic
= =130.81
Sx = (130.81 = 11.44 empleados
El número promedio de empleados es de 28.67 con una desviación
estandar de 11.44 empleados
=
= 23.95
Sy = (23.95 = 4.89 ventas en miles de $
Las ventas promedio de las tiendas son de 11.33 miles de pesos con una
desviación estandar de 4.89 ventas.
ESTADÍSTICOS CON DOS VARIABLES
Covarianza
Coeficiente de Correlación
=
=
=
El coeficiente de correlación del 97.2% indica una correlación
positiva alta (casi perfecta) entre las variables en estudio, es decir, las
ventas aumentan a medida que aumenta el número de vendedores.
Coeficiente de Determinación
R2 = (rxy)2 = (.972)2 = .9448
El coeficiente de Determinación es .9448, es decir, que en este caso el
94.48% de las variaciones en las ventas es explicado por la variación en
el número de vendedores; el 5.52% de variaciones en ventas es explicado
por otras causas.
Coeficiente de Regresión Lineal Simple
=
=
Este coeficiente indica que por cada empleado adicional, en una tienda, existe
un incremento de .416 miles de $ en ventas.
Ordenada al Origen
= 11.33 -11.92 = - .59
Este dato señala el punto en el cual se corta el eje vertical.
Ecuación de Predicción
¿Cuantas ventas se esperarían si existiesen 52 empleados?
[pic]
[pic]
Es decir, se espera que las ventas en una tienda sean
de 21.04 miles de pesos cuando tuviera 52 vendedores.
DISEÑOS EXPERIMENTALES
Cuando se desee conocer el efecto de mas de dos tratamientos, es
necesario usar los Diseños Experimentales el mas simple de todos
es el conocido como
DISEÑO COMPLETAMENTE AL AZAR (DCA).
|ANDEVA |
|Fuentes de Variación |Grados de Libertad |
|FV |GL |Suma de Cuadrados |Cuadrado |F |Ft |
|SC |Medio |Calculada |de Tablas |
CM |Fc |.05 .01 |
| - FC |
|tratamiento |t-1 ||SCt /GLt |CMt /CME |
|Error |t (r-1) |SCT - SCt |SCE /GLE
|-FC |
|Total |t r –1
Modelo Estadístico
Yij = μ + Ti + ξij
Donde: i = 1, 2, 3, …t tratamientos
j = 1, 2, 3, …r repeticiones
Ejemplo: Se desea evaluar el efecto del tiempo de almacenamiento en el
porcentaje de incubabilidad de huevo fértil.
Observaciones Días de almacenaje (tratamientos
(repeticiones) 12 10 8 6 4
1 77.2 77.5 76.0 81.5 83.5
2 73.5 73.2 83.0 80.0 82.0
3 78.0 81.0 82.0 81.0 86.0
4 76.0 80.0 78.0 85.0 82.5
5 79.0 77.0 81.0 78.0 80.0
= 383.7 388.7 400.0 405.5 414.0
76.74 77.74 80.0 81.1 82.8
Gran Total= 1991.9 Gran Media= 79.676
Estadísticos.
Factor de Corrección (FC
Y2.. (1991.9)2 3967665.61
FC = --------- = ------------ = ----- ----- -------- = 158706.6244
t r (5) (5) 25
Suma de Cuadrados Total (SCT)
SCT = - FC
= 77.22 + 73.52 + 78.02 + . . . + 80.02 - FC
= 158962.33 - 158706.6244 = 255.7056
Suma de Cuadrados de tratamiento (SCt)
SCt = - FC
= 383.72 + 388.72 + 4002 + 405.52 + 4142
5
= 158827.926 - 158706.6244 = 121.3016
Suma de Cuadrados del Error (SCE)
SCE = SCT - SCt
= 255.7056 - 121.3016 = 134.404
Cuadrado Medio de tratamiento (CMt)
CMt = SCt / GLt = 121.3016 / 4 = 30.3254
Cuadrado Medio del Error (CME)
CME = SCE / GLE = 134.404 / 20 = 6.7202
Con ésos datos se construye el cuadro de Analisis de Varianza
(ANDEVA)
FC = CMt /CME
A N D E V A
Ft
FV GL SC CM Fc .05 .01
tratamiento 4 121.3016 30.3254 4.51 > 2.87 4.43
Error 20 134.404 6.7202
Total 24 255.7056
Regla de decisión: Si Fc ( Ft ( RH0
Como F calculada fue mayor que F de tablas entonces se RECHAZA la
Hipótesis Nula, es decir, se acepta la Hipótesis Alterna y se
concluye que existen diferenciasaltamente significativas en el porcentaje de
incubabilidad por efecto del tiempo de almacenamiento. Sin
embargo, ¿Entre cuales tratamientos existe diferencia y
ésta es significativa o altamente significativa?
Para responder esta cuestión se necesita hacer una prueba de
comparación de medias; como DUNCAN, SCHEFFE, DMS, SND,
DUNNET y TUKEY entre otras.
Prueba de comparación de medias de TUKEY
TUKEY = W
W es la diferencia mínima significativa entre dos medias
W= q( Sy
q( = (GLE , N° de tratamientos),
Es decir (20, 5) valor de tablas con nivel de significancia de .05 y .01, en
este caso 4.24 y 5.29 respectivamente.
Sy = es la desviación media
Sy = 1.16
W.05 = (4.24) (1.16) = 4.92 y
W.01 = (5.29) (1.16) = 6.14
Pasos para la comparación de medias:
1° ordenar las medias de mayor a menor
X1 = 82.8 (4d), X2 = 81.1 (6d), X3 = 80.0 (8d), X4 = 77.74 (10d) y X5 = 76.74
(12d).
2° plantear las comparaciones posibles, estimar las
diferencias y si es mayor o igual que W entonces existira DIFERENCIA
estadística.
W
.05 .01
4.91 6.14
X1 - X2 = 1.7 NS
X1 - X3 = 2.8 NS
X1 - X4 = 5.06 Significativa
X1 - X5 = 6.06 *
X2 -X3 = 1.1 NS
X2 - X4 = 3.36 NS
X2 - X5 = 4.36 NS
X3 - X4 = 2.26 NS
X3 - X5 = 3.26 NS
X4 - X5 = 1.0 NS
----- ----- -------------
Y11
Y51
Y21
Y52
Y12
Y22
Y53
Yij
Y13
Y23
Y54
Y14
Y24
Y55
Y15
Y25