Consultar ensayos de calidad


Estadistica - Quantes components creieu que val la pena retenir? Per quin motiu?



Enunciat

Disposem d’una mostra de 474 treballadors/res amb les variables (fitxer PAC4.MTW) :

nivell_educ | Nombre d’anys de formació |
sal_actual | Salari actual en milers d’euros a l’any |
temps_emp | Nombre de mesos a l’empresa |
ex_pre | Nombre de mesos d’experiència prèvia |
gènere | 1= home; 2 = dona |

1.
a) Quin objecte tindria realitzar una anàlisi de components principals amb les dades quantitatives d’aquest fitxer? (Màxim 4 línies)

L’anàlisi de components principals (ACP) té la finalitat de sintetitzar la informació per mitjà de la selecció de variables. L’elecció dels factors es útil quan a partir de la matriu de correlacions, s’observa l’existència d’elevades correlacions entre variables, i així podem evitar informació redundant. Els components principals que resulten son una combinació lineal i independent de les variables originals.



b) Presenteu els resultats de realitzar aquesta anàlisi amb minitab per a les variables quantitatives del fitxer (no indiqueu res a l’espai Number of components to compute

Atès que es demanen les variables quantitatives, i que la variable gènere es de tipus qualitatiu, he exclòs “gènere” de l’ACP.

-------- ----- ------ ----- ----- ------
Principal Component Analysis: nivell_educ; sal_actual; temps_emp; ex_pre
-------- ----- ------ ----- ----- ------

-------- ----- ------ ----- ----- ------
Eigenanalysis of the Correlation Matrix
-------- ----- ------ ----- ----- ------

-------- ----- ------ ----- ----- ------
Eigenvalue 1,7537 1,0090 0,9175 0,3198
-------- ----- ------ ----- ----- ------
Proportion 0,438 0,252 0,229 0,080
-------- ----- ------ ----- ----- ------
Cumulative 0,438 0,691 0,920 1,000
-------- ----- ------ ----- ----- ------

-------- ----- ------ ----- ----- ------
Variable PC1 PC2 PC3 PC4
-------- ----- ------ ----- ----- ------
nivell_educ 0,682 0,046 -0,137 0,717
-------- ----- ------ ----- ----- ------
sal_actual 0,651 -0,105 -0,329 -0,676
-------- ----- ------ ----- ----- ------
temps_emp 0,114-0,888 0,443 0,033
-------- ----- ------ ----- ----- ------
ex_pre -0,312 -0,444 -0,823 0,169

c) Quantes components creieu que val la pena retenir? Per quin motiu? (Màxim 4 línies)

L’elecció dels factors ha de conjugar la major proporció possible de la variabilitat original, i l’objectiu de sintetitzar la informació. Atès que es pretén reduir el nombre de variables inicials (4), i que la variància explicada de PC2 es 25 % i PC3 22,9% (les respectives acumulades de 69,1% i 92,0%), retindria els dos primers components per reduir raonablement el nombre de variables inicials.

d) Feu una interpretació del primer i segon component (Màxim 5 línies

S’observa que per la component PC1 existeix una major correlació positiva amb la variable “Nombre d’anys de formació” i “Salari actual en milers d’euros a l’any”, mentre que per la component PC2 la correlació es majoritàriament negativa, mes elevada per la variable “Nombre de mesos a l’empresa”, seguit de la variable “Nombre de mesos d’experiència prèvia”. Per tant, la 1a component esta molt relacionada amb la qualificació i la 2a component amb l’experiència.

2.
e) Una persona proposa realitzar una anàlisi cluster amb les variables del fitxer. Quin profit creieu que s’obtindrà de fer aquesta anàlisi? (Màxim 4 línies)

L’anàlisi clúster agrupa elements que tenen propietats semblants, en base a la distància que existeix entre els elements analitzats, distància que serà el mes petita possible entre els elements del mateix grup, i la major distància possible entre els elements de diferent grup. Es dir, forma grups (clústers) que son homogenis interiorment, i el màxim de diferents entre si.

f) És correcte utilitzar totes les variables del fitxer per realitzar aquesta anàlisi? Argumenteu la vostra resposta en un màxim de 3 línies.

Les variables de la mostra son de tipus qualitatiu nominal (gènere) i quantitatiu, la qual cosa ens porta a elegir les variables adequades per presentar grups homogenis. Farem servir les variables quantitatives “nivell_educ”, “sal_actual”, “temps_emp” i “ex_pre”, i no utilitzarem la variable “gènere”.

g) Realitzeu una anàlisi cluster amb minitab d’acord amb la resposta anterior. Seleccioneu a LinkageMethod: Ward, a Distance Method: Euclidean, i a Number of Clusters: 3. (No cal presentar el resultat: Amalgamation Steps). És realment necessari, en aquest cas, procedir a la estandarització de les variables? (Màxim 3 línies sense comptar els resultats de Minitab).

Atès que les variables “temps_emp” i “ex_pre”, determinaran la distància temps en mesos, la variable “nivell_educ” la distància temps en anys, i “sal_actual” la distància de retribució anyal, cal estandarditzar-les per evitar la distorsió en el càlcul de les dissimilituds.

-------- ----- ------ ----- ----- ------
Cluster Analysis of Observations: nivell_educ; sal_actual; temps_emp; ex_pre
-------- ----- ------ ----- ----- ------

-------- ----- ------ ----- ----- ------
Standardized Variables, Euclidean Distance, Ward Linkage
-------- ----- ------ ----- ----- ------
Amalgamation Steps
-------- ----- ------ ----- ----- ------
Average Maximum
-------- ----- ------ ----- ----- ------
Within distance distance
-------- ----- ------ ----- ----- ------
Number of cluster sum from from
-------- ----- ------ ----- ----- ------
observations of squares centroid centroid
-------- ----- ------ ----- ----- ------
Cluster1 192 572,194 1,57594 5,52782
-------- ----- ------ ----- ----- ------
Cluster2 63 137,883 1,40980 2,26908
-------- ----- ------ ----- ----- ------
Cluster3 219 397,458 1,24183 2,67996
-------- ----- ------ ----- ----- ------

-------- ----- ------ ----- ----- ------
Cluster Centroids
-------- ----- ------ ----- ----- ------

-------- ----- ------ ----- ----- ------
Variable Cluster1 Cluster2 Cluster3 Grand centroid
-------- ----- ------ ----- ----- ------
nivell_educ 0,916463 -0,75913 -0,585095 0,0000000
-------- ----- ------ ----- ----- ------
sal_actual 0,736977 -0,46156 -0,513339 0,0000000
-------- ----- ------ ----- ----- ------
temps_emp 0,289867 0,10269 -0,283671 0,0000000-------- ----- ------ ----- ----- ------
ex_pre -0,277894 2,03762 -0,342533 -0,0000000
-------- ----- ------ ----- ----- ------

-------- ----- ------ ----- ----- ------
Distances Between Cluster Centroids
-------- ----- ------ ----- ----- ------

-------- ----- ------ ----- ----- ------
Cluster1 Cluster2 Cluster3
-------- ----- ------ ----- ----- ------
Cluster1 0,00000 3,10496 2,03742
-------- ----- ------ ----- ----- ------
Cluster2 3,10496 0,00000 2,41814
-------- ----- ------ ----- ----- ------
Cluster3 2,03742 2,41814 0,00000

h) Presenteu el dendograma, i indiqueu quants grups, opcionalment, hauria estat possible formar a partir d’aquesta representació. (Màxim 5 línies)

A partir de la sortida de Minitab (per 4 clústers) i del dendograma, es pot proposar la formació de 4 clústers que mantindrien característiques diferenciades, si bé entre els grups 3er i 4art existirien menys diferències que en els tres primers analitzats, com s’observa gràficament en la representació del dendograma i per la distància menor entre els seus centroides (1 ).

-------- ----- ------ ----- ----- ------
Cluster Analysis of Observations: nivell_educ; sal_actual; temps_emp; ex_pre
-------- ----- ------ ----- ----- ------

-------- ----- ------ ----- ----- ------
Standardized Variables, Euclidean Distance, Ward Linkage
-------- ----- ------ ----- ----- ------
Amalgamation Steps
-------- ----- ------ ----- ----- ------
Number
-------- ----- ------ ----- ----- ------
of obs.
-------- ----- ------ ----- ----- ------
Number of Similarity Distance Clusters New in new
-------- ----- ------ ----- ----- ------
Step clusters level level joined cluster cluster
-------- ----- ------ ----- ----- ------

-------- ----- ------ ----- ----- ------
469 5 -408,54 42,704 1 79 1 138
-------- ----- ------ ----- ----- ------
470 4 -891,5183,261 1 18 1 192
-------- ----- ------ ----- ----- ------
471 3 -993,33 91,811 4 297 4 219
-------- ----- ------ ----- ----- ------
472 2 -1285,26 116,326 3 4 3 282
-------- ----- ------ ----- ----- ------
473 1 -2026,16 178,543 1 3 1 474
-------- ----- ------ ----- ----- ------

-------- ----- ------ ----- ----- ------

-------- ----- ------ ----- ----- ------
Distances Between Cluster Centroids
-------- ----- ------ ----- ----- ------

-------- ----- ------ ----- ----- ------
Cluster1 Cluster2 Cluster3 Cluster4
-------- ----- ------ ----- ----- ------
Cluster1 0,00000 3,10496 2,10295 2,35080
-------- ----- ------ ----- ----- ------
Cluster2 3,10496 0,00000 2,56792 2,57165
-------- ----- ------ ----- ----- ------
Cluster3 2,10295 2,56792 0,00000 1,75142
-------- ----- ------ ----- ----- ------
Cluster4 2,35080 2,57165 1,75142 0,00000















i) Utilitzant els resultats anteriors, indiqueu en què es diferencien els clústers 1 i el 3 (Màxim 6 línies)

El clúster 1 destaca per disposar d’una formació superior a la mitjana, mentre que el clúster 3 estaria situat per sota de la mitjana, força distanciat. Alhora, la retribució te un comportament similar, el clúster 1 te retribucions elevades superiors a la mitjana, i el clúster 3 te retribucions inferiors per sota de la mitjana. Per l’antiguitat en l’empresa, les persones del clúster 1 son mes antigues per damunt la mitjana, mentre que les del clúster 3, tenen menys antiguitat i inferior a la mitjana. L’experiència prèvia en tots dos casos es situa per sota de la mitjana, lleugerament superior pel clúster 1 que pel clúster 3.

3.
j) Indiqueu una situació hipotètica qualsevol en la qual convindria realitzar una anàlisi discriminant (Màxim 5 línies)

L’anàlisi discriminant ens servirà per descriure les diferències entre dos o mes grups definits a priori, i adscriure a aquests grups nous individus en funció dels valors de les seves variables. Així, unexemple on podria ser útil, es per analitzar els grups següents; aficionats al golf i aficionats a la petanca, l’objectiu serà identificar quines son les variables que caracteritzen a cada col·lectiu. Per realitzar-ho, caldrà seleccionar les variables característiques de les diferències entre els dos grups.

k) Per les dades que disposem en aquest fitxer, amb quines variables seria adequat plantejar-se una anàlisi discriminant Quin seria l’objecte d’aquesta anàlisi en aquest cas en concret? (Màxim 5 línies)

Tal i com es desprèn de la pregunta 1.b), el resultat de l’ACP assenyala que la variable salari (sal_actual), la variable formació (nivell_educ) i la variable antiguitat (temps_emp), son les mes rellevants per descriure les diferències entre un grup d’elevada formació i un altre d’inferior. Per tant la variable a explicar seria el salari i les variables explicatives formació i antiguitat, aquest anàlisi ens permetrà observar quines característiques determinen unes retribucions diferenciades.

l) Realitzeu amb minitab l’anàlisi discriminant indicat a l’anterior resposta. No copieu a la resposta la part de Summary of Misclassified Observations.

Prèviament cal estandarditzar les variables i definir els grups pels quals es vol fer l’anàlisi discriminant, de tal manera que a partir de la variable sou estandarditzada, he creat dos grups, grup 0 per les persones que disposen d’una retribució superior a la mitjana i grup 1 per les retribucions inferiors.













-------- ----- ------ ----- ----- ------
Discriminant Analysis: sal_actual_1_1 versus nivell_educ_1; temps_emp_1
-------- ----- ------ ----- ----- ------

-------- ----- ------ ----- ----- ------
Linear Method for Response: sal_actual_1_1
-------- ----- ------ ----- ----- ------

-------- ----- ------ ----- ----- ------
Predictors: nivell_educ_1; temps_emp_1
-------- ----- ------ ----- ----- ------

-------- ----- ------ ----- ----- ------
Group 0 1
-------- ----- ------ ----- ----- ------
Count 145 329
-------- ----- ------ ----- ----- ------

-------- ----- ------ ----- ----- ------
Summary of classification-------- ----- ------ ----- ----- ------

-------- ----- ------ ----- ----- ------
True Group
-------- ----- ------ ----- ----- ------
Put into Group 0 1
-------- ----- ------ ----- ----- ------
0 131 96
-------- ----- ------ ----- ----- ------
1 14 233
-------- ----- ------ ----- ----- ------
Total N 145 329
-------- ----- ------ ----- ----- ------
N correct 131 233
-------- ----- ------ ----- ----- ------
Proportion 0,903 0,708
-------- ----- ------ ----- ----- ------

-------- ----- ------ ----- ----- ------
N = 474 N Correct = 364 Proportion Correct = 0,768
-------- ----- ------ ----- ----- ------

-------- ----- ------ ----- ----- ------
Squared Distance Between Groups
-------- ----- ------ ----- ----- ------

-------- ----- ------ ----- ----- ------
0 1
-------- ----- ------ ----- ----- ------
0 0,00000 2,96474
-------- ----- ------ ----- ----- ------
1 2,96474 0,00000
-------- ----- ------ ----- ----- ------

-------- ----- ------ ----- ----- ------
Linear Discriminant Function for Groups
-------- ----- ------ ----- ----- ------
0 1
-------- ----- ------ ----- ----- ------
Constant -0,7142 -0,1387
-------- ----- ------ ----- ----- ------
nivell_educ_1 1,5101 -0,6656
-------- ----- ------ ----- ----- ------
temps_emp_1 0,1541 -0,0679

m) Quines són les 2 conclusions més destacades de l’anàlisi fet anteriorment? (Màxim 5 línies)

* L’anàlisi de les variables dona el 76,80% dels individus correctament classificats, la qual cosa significa que el resultat de la funció discriminant classifica correctament en aquest percentatge, i deixa fora el 23’20%, índex que es consideraria raonable per utilitzar els predictors per assignar individus a grups. Tal i com s’advertia en els anteriors anàlisis, la variable que discrimina mes clarament es la formació (nivell_educ), quasi deu vegades més que la variable antiguitat (temps_emp).
*


Política de privacidad