Buscar, dentro de la información
contenida en anuarios, revistas, etc., tres series de datos: una nominal, otra
ordinal y otra de intervalo. Especificar la referencia de la fuente incluyendo
fotocopia del
documento.
Medida nominal
Población: Películas pertenecientes a una saga.
Caracter a estudio: Saga a la que pertenecen.
Cuantificación del caracter
Serie resultante: 11111122233333344444455556666777888
Fuente: Revista Cinemanía. https://www.cinemania.es/
Medida ordinal
(Varios ejemplos)
Población: Personas encuestadas para una revista de salud.
Caracter a estudio: Nivel de estudios
Cuantificación del caracter:
Estudios
Analfabeto | 1 |
Inferior | 2 |
Medio | 3 |
Superior | 4 |
Serie resultante: 1..119..1,2..5836..2,3..1556..3,4..598..4
Fuente: https://scielo.isciii.es/scielo.php?pid=S1135-57272004000400010&script=sci_arttext
Medida de Intervalo:
Países según usuarios de internet:
EE.UU. | 166 Mill. |
Japón | 47 Mill. |
Gran Bretaña | 33 Mill. |
Alemania | 28 Mill. |
China
| 26 Mill. |
Corea del Sur | 22 Mill. |
Italia | 19 Mill. |
Canada | 14 Mill. |
Brasil | 11 Mill. |
Francia | 11 Mill. |
Taiwan | 11 Mill. |
Australia
| 10 Mill. |
Rusia | 9 Mill. |
Países Bajos | 8 Mill. |
España | 7 Mill. |
Suecia | 5 Mill. |
India
| 5 Mill. |
Malasia | 4 Mill. |
Turquía | 4 Mill. |
Argentina
| 3 Mill. |
Población: Países delmundo.
Caracter a estudio: nº de usuarios de internet
Serie resultante: 3.9, 4.0, 4.1, 5.0, 5.6, 7.4, 8.7, 9.2, 10.0, 11.6, 11.7,
11.9, 14.4, 19.2, 22.2, 26.5, 28.6, 33.0, 47.1, 166.0
Fuente: https://www.pro-tran.com/es/Sprachen-Daten/Sprachen-Daten.html
II)Sobre una variable estadística
multidimensional, se propone:
Describir graficamente ese conjunto de datos multidimensionales. Conclusiones.
CLUSTERS
Podemos dividir los clústers o agrupaciones en dos tipos; en estrellas
grandes o en estrellas pequeñas. A su vez cada grupo
lo podemos dividir en estrellas regulares o estrellas irregulares.
Así podemos ver en el grafico de los primeros veinticinco
valores, podemos ver que los valores del
uno al cinco son estrellas pequeñas y regulares, al igual que los
valores del
veintiuno al veinticinco. Así que por su regularidad podemos deducir que
tanto su densidad, como
su extensión, como
su porcentaje de producción y su renta per capita estan
equilibrados e igualados a un pequeño nivel. Por otro lado podemos
observar que las estrellas de la diez a la catorce, y de la dieciseis a la
veinte son estrellas regulares con un tamaño grande respecto al resto,
con lo que podemos deducir lo mismo que antes solo que ahora en un mayor
tamaño/cantidad tanto en renta per capita, como en
extensión, densidad y porcentaje de producción. El resto de estrellas son grandes e irregulares y tienden a ser
irregulares en la relación de extensión, densidad y porcentaje de
producción, siendo directamente proporcional.
La extensión en este caso no tiene mucha
relación, siendo ésta arbitraria a veces grande como
en la estrella número trece y a veces pequeña como en la estrella número ocho y
siete.
A su vez podemos hacerla misma relación con las veinticinco estrellas
siguienes; Todas tienden a ser todas irregulares, con la misma irregularidad
que hemos explicado antes, solo que en este caso todas
tienden a ser pequeñas, exceptuando las estrellas cuarenta y cuarenta y
ocho que son grandes.
Por la grafica de puntos podemos ver que la
relación entre la extensión y la densidad es inversamente
proporcional en una relación cuadratica.
La relación entre la extensión y el porcentaje de
producción y la relación entre la extensión y la renta per
capita es una nube de puntos sin mucha relación entre ellos.
La relación entre la densidad y el porcentaje de producción y la
relación entre la densidad y la renta per capita es directamente
proporcional y sigue una relación cuadratica.
Por último la relación entre el porcentaje de
producción y la renta per capita es directamente proporcional
siguiendo una relación lineal.
Poner un ejemplo de una distribución marginal y
de otra condicionada, dando una interpretación a las mismas.
Tabla de Frecuencias para RPC_1 por SSECUND_1
| 2 | 3 | 4 | 5 | 7 | Total por Fila |
1 | 5 | 6 | 0 | 0 | 0 | 11 |
| 10,00% | 12,00% | 0,00% | 0,00% | 0,00% | 22,00% |
2 | 0 | 8 | 6 | 0 | 0 | 14 |
| 0,00% | 16,00% | 12,00% | 0,00% | 0,00% | 28,00% |
3 | 0 | 4 | 5 | 1 | 0 | 10 |
| 0,00% | 8,00% | 10,00% | 2,00% | 0,00% | 20,00% |
4 | 0 | 0 | 3 | 4 | 0 | 7 |
| 0,00% | 0,00% | 6,00% | 8,00% | 0,00% | 14,00% |
5 | 0 | 0 | 1| 2 | 0 | 3 |
| 0,00% | 0,00% | 2,00% | 4,00% | 0,00% | 6,00% |
6 | 0 | 0 | 0 | 1 | 4 | 5 |
| 0,00% | 0,00% | 0,00% | 2,00% | 8,00% | 10,00% |
Total por Columna | 5 | 18 | 15 | 8 | 4 | 50 |
| 10,00% | 36,00% | 30,00% | 16,00% | 8,00% | 100,00% |
Contenido de las celdas:
Frecuencia Observada
Porcentaje de la Tabla
El StatAdvisor
Esta tabla muestra con qué frecuencia se presentan los 6 valores de
RPC_1 junto con cada uno de los 5 valores de SSECUND_1. El
primer número de cada celda en la tabla es el recuento o frecuencia.
El segundo número muestra el porcentaje de toda la
tabla que representa esa celda. Por ejemplo, hubo 5
veces en las que RPC_1 es igual a 1 y SSECUND_1 es igual a 2. Esto
representa el 10 % del total de las 50 observaciones.
Distribuciones marginales:
X (RPC) | Frecuencia absoluta | Frecuencia relativa |
[210,0 - 281,429) | 11 | 22 |
[281,429 - 352,857) | 14 | 28 |
[352,857 - 424,286) | 10 | 20 |
[424,286 - 495,714) | 7 | 14 |
[495,714 - 567,143) | 3 | 6 |
[567,143 - 638,571) | 4 | 10 |
[638,571 - 710,0) | 0 | 0 |
TOTAL | 50 | 100 |
Y (SSECUND) | Frecuencia absoluta | Frecuencia relativa |
[0,0 - 8571,43) | 0 | 0 |
[8571,43 - 17142,9) | 5 | 10 |
[17142,9 - 25714,3) | 18 | 36 |
[25714,3 - 34285,7) | 15 | 30 |
[34285,7 - 42857,1) | 8 | 16 |
[42857,1 - 51428,6) | 0 | 0 |
[51428,6 - 60000,0)| 4 | 8 |
TOTAL | 50 | 100 |
Distribución condicionada:
X/Y = 3 | Frecuencia absoluta | Frecuencia relativa |
[0,0 - 8571,43) | 6 | 12 |
[8571,43 - 17142,9) | 8 | 16 |
[17142,9 - 25714,3) | 4 | 8 |
[25714,3 - 34285,7) | 0 | 0 |
[34285,7 - 42857,1) | 0 | 0 |
[42857,1 - 51428,6) | 0 | 0 |
[51428,6 - 60000,0) | 0 | 0 |
TOTAL | 18 | 36 |
Histogramas tridimensionales
Realizar el siguiente estudio sobre dos de las variables unidimensionales de
las que se compone la variable del apartado II:
Variables: Densidad, RCP:
Realizar una tabulación de frecuencia de los datos
Tabla de Frecuencias para DENSIDAD
| Límite | Límite | Frecuencia | Frecuencia | Frecuencia |
Clase | Inferior | Superior | Punto Medio | Frecuencia | Relativa | Acumulada |
Rel. Acum. |
| menor o igual | 10199,0 0 | 0,0000 | 0 | 0,0000 |
1 | 10199,0 | 91370,7 | 50784,9 | 34 | 0,6800 | 34 | 0,6800 |
2 | 91370,7 | 172542, | 131957, | 6 | 0,1200 | 40 | 0,8000 |
3 | 172542, | 253714, | 213128, | 4 | 0,0800 | 44 | 0,8800 |
4 | 253714, | 334886, | 294300, | 2 | 0,0400 | 46 | 0,9200 |
5 | 334886, | 416058, | 375472, | 1 | 0,0200 | 47 | 0,9400 |
6 | 416058, | 497229, | 456643, | 0 | 0,0000 | 47 | 0,9400 |
7 | 497229, | 578401, | 537815, | 3 | 0,0600| 50 | 1,0000 |
| mayor de | 578401, 0 | 0,0000 | 50 | 1,0000 |
Media = 107320, Desviación Estandar = 139456,
Tabla de Frecuencias para RPC
| Límite | Límite | Frecuencia | Frecuencia | Frecuencia |
Clase | Inferior | Superior | Punto Medio | Frecuencia | Relativa | Acumulada |
Rel. Acum. |
| menor o igual | 230,0 0 | 0,0000 | 0 | 0,0000 |
1 | 230,0 | 288,143 | 259,071 | 12 | 0,2400 | 12 | 0,2400 |
2 | 288,143 | 346,286 | 317,214 | 11 | 0,2200 | 23 | 0,4600 |
3 | 346,286 | 404,429 | 375,357 | 8 | 0,1600 | 31 | 0,6200 |
4 | 404,429 | 462,571 | 433,5 | 9 | 0,1800 | 40 | 0,8000 |
5 | 462,571 | 520,714 | 491,643 | 3 | 0,0600 | 43 | 0,8600 |
6 | 520,714 | 578,857 | 549,786 | 2 | 0,0400 | 45 | 0,9000 |
7 | 578,857 | 637,0 | 607,929 | 5 | 0,1000 | 50 | 1,0000 |
| mayor de | 637,0 0 | 0,0000 | 50 | 1,0000 |
Media = 381,402 Desviación Estandar = 111,818
Se divide el rango de las variables en intervalos uniforme y se cuenta el
número de valores de los datos que se encuentran en cada intervalo. La
frecuecia absoluta muestra el número de valores que hay en el intervalo
y la frecuencia relativa la concentración de valores de cada intervalo.
RPC: Se observa somo disminuye la frecuencia de datos cuando crecen los valores
del
intervalo. El intervalo 1 es el que mas
concentraciónde datos tiene (24%). En el intervalo 7 crece un poco respecto a los anteriores.
DENSIDAD: Disminuye la frecuencia cuando crecen los valores del intervalo. La
mayor concentración de datos esta en el intervalo 1 (68%), con
mucha diferencia respecto a los demas. En el intervalo
6 no hay ningún dato.
Representar graficamente dichos datos. Utilizar para ello representaciones diferenciales, histogramas o
diagrama de barras, y representaciones integrales, curvas de frecuencias
relativas acumuladas. En el caso de una v.a.
continua, justificar la elección de un número concreto de clases;
para ello jugar con diferentes números de éstas.
DENSIDAD: La agrupación de datos es totalmente asimétrica, la
mayoría estan en la primera y segunda clase, y en el resto es
casi inexistente, por lo que tendra mas valores atípicos.
RPC: Se nota una cierta simetría, a iferencia del histograma de
DENSIDAD, aunque no es totalmente simétrica.
Curvas de frecuencia acumulada
Se observa en la curva de frecuencia relativa acumulada de RPC tiene los datos
mucho mas repartidos que DENSIDAD, que empieza en 0,68.
Representar esas dos variables mediante un diagrama
tallo-hoja.Interpretaciones.
Diagrama de Tallo y Hoja para DENSIDAD: unidad = 10000
1|2 representa 120000,
(26) 0|11111222222222222333444444
24 0|555677799
15 1|0222
11 1|57779
ALTO|288700, 322200, 354100, 538800, 555700, 578400,
Diagrama de Tallo y Hoja para RPC: unidad = 10,0 1|2 representa 120,0
5 2|33333
12 2|6677778
25 3|0011122223344
25 3|557789
19 4|011234
13 4|55669
8 5|02
6 5|688
3 6|123
El rango de los datos esta dividido en intervalos (llamados tallos), cada uno
representado por un renglónen la tabla. Los tallos se etiquetan
utilizando uno ó mas dígitos indicadores para los valores
que caen
dentro de ese intervalo. En cada renglón, los valores individuales se
representan por un dígito (llamado hoja) a la
derecha de la línea vertical. Si hay algunos puntos muy alejados del
resto (llamados puntos lejanos), se colocan en tallos alto y bajo separados.La
columna de números de la extrema izquierda contiene los recuentos
acumulados desde el inicio y desde el fondo de la tabla, deteniéndose en
el renglón que contiene a la mediana. En el caso de
densidad, hay 6 puntos alejados. Los puntos alejados
se muestran graficamente en la grafica de caja y bigote. También se observa que en el caso de rpc los elementos
estan mucho mas repartidos y no hay puntos alejados.
Dar e interpretar los valores numéricos que resumen
esos conjuntos de datos.
Resumen Estadístico para RPC
Recuento | 50 |
Promedio | 381,402 |
Mediana | 351,35 |
Moda | 235,5 |
Varianza | 12503,3 |
Desviación Estandar | 111,818 |
Coeficiente de Variación | 29,3177% |
Mínimo | 231,0 |
Maximo | 636,8 |
Rango | 405,8 |
Cuartil Inferior | 306,6 |
Cuartil Superior | 451,3 |
Rango Intercuartílico | 144,7 |
Sesgo Estandarizado | 2,13222 |
Curtosis | -0,276844 |
Curtosis Estandarizada | -0,399589 |
Suma | 19070,1 |
Observando el sesgo estandarizado y la curtosis estandar, se puede
observar que los datos son bastante simétricos y pueden provenir de una
distribución normal (para ello los valores deben estar entre 2 y -2).
Resumen Estadístico para DENSIDAD
Recuento | 50|
Promedio | 107320, |
Mediana | 48500,0 |
Moda
Varianza | 1,94478E10 |
Desviación Estandar | 139456, |
Coeficiente de Variación | 129,944% |
Mínimo | 10200,0 |
Maximo | 578400, |
Rango | 568200, |
Cuartil Inferior | 24200,0 |
Cuartil Superior | 124000, |
Rango Intercuartílico | 99800,0 |
Sesgo Estandarizado | 6,63818 |
Curtosis | 4,89138 |
Curtosis Estandarizada | 7,0601 |
Suma | 5,366E6 |
Aquí se puede observar que la distribución de los datos es
mas asimétrica y no provendrían de una distribución
normal.
El recuento son la cantidad de datos que tenemos, en este
caso cincuenta datos.
El promedio es el valor medio es decir, la suma de todos los
datos dividido entre todos los datos.
La mediana es el valor intermedio de los datos.
La moda es el valor que mas se repite.
Los valores maximos y mínimos en este caso se corresponden con
636 y con 231,0 respectivamente. (en
el caso del
RPC).
Los cuartiles quedan reflejados en el grafico de caja
y bigotes.
Reconocimiento de valores atípicos mediante el
diagrama de cajas.
Los bigotes representan el espcio entre el primer y el seguno
cuartil. El rectangulo indica el rango
intercuantil y encierra los datos típicos. En
el grafico de caja y bigotes de RPC podemos observar que no hay valores
atípicos en él. Por otro lado en el grafico de caja
y bigotes de DENSIDAD podemos observar valores atípicos alrededor del
tres y también entre el cinco y el seis.
Se observa que el grafico de DSP esta
mas equilibrado que el de DENSIDAD, y la media y la mediana estan
mas cerca una de la otra.