Enunciat
Disposem d’una mostra de 474 treballadors/res amb les variables (fitxer
PAC4.MTW) :
nivell_educ | Nombre d’anys de formació |
sal_actual | Salari actual en milers d’euros a l’any |
temps_emp | Nombre de mesos a l’empresa |
ex_pre | Nombre de mesos d’experiència prèvia |
gènere | 1= home; 2 = dona |
1.
a) Quin objecte tindria realitzar una anàlisi de components principals amb les dades quantitatives d’aquest
fitxer? (Màxim 4 línies)
L’anàlisi de components principals (ACP)
té la finalitat de sintetitzar la informació per mitjà de
la selecció de variables. L’elecció
dels factors es útil quan a partir de la matriu de correlacions,
s’observa l’existència d’elevades correlacions entre
variables, i així podem evitar informació redundant. Els components principals que resulten son una combinació
lineal i independent de les variables originals.
b) Presenteu els resultats de realitzar aquesta anàlisi amb minitab per
a les variables quantitatives del
fitxer (no indiqueu res a l’espai Number of components to compute
Atès que es demanen les variables quantitatives, i que la variable
gènere es de tipus qualitatiu, he exclòs
“gènere” de l’ACP.
-------- ----- ------ ----- ----- ------
Principal Component Analysis: nivell_educ; sal_actual; temps_emp; ex_pre
-------- ----- ------ ----- ----- ------
-------- ----- ------ ----- ----- ------
Eigenanalysis of the Correlation Matrix
-------- ----- ------ ----- ----- ------
-------- ----- ------ ----- ----- ------
Eigenvalue 1,7537 1,0090 0,9175 0,3198
-------- ----- ------ ----- ----- ------
Proportion 0,438 0,252 0,229 0,080
-------- ----- ------ ----- ----- ------
Cumulative 0,438 0,691 0,920 1,000
-------- ----- ------ ----- ----- ------
-------- ----- ------ ----- ----- ------
Variable PC1 PC2 PC3 PC4
-------- ----- ------ ----- ----- ------
nivell_educ 0,682 0,046 -0,137 0,717
-------- ----- ------ ----- ----- ------
sal_actual 0,651 -0,105 -0,329 -0,676
-------- ----- ------ ----- ----- ------
temps_emp 0,114-0,888 0,443 0,033
-------- ----- ------ ----- ----- ------
ex_pre -0,312 -0,444 -0,823 0,169
c) Quantes components creieu que val la pena retenir? Per
quin motiu? (Màxim 4 línies)
L’elecció dels factors ha de conjugar la major proporció
possible de la variabilitat original, i l’objectiu de sintetitzar la
informació. Atès que es pretén reduir el nombre de
variables inicials (4), i que la variància explicada de PC2 es 25 % i PC3 22,9% (les respectives acumulades de 69,1% i
92,0%), retindria els dos primers components per reduir raonablement el nombre
de variables inicials.
d) Feu una interpretació del primer i segon component (Màxim 5
línies
S’observa que per la component PC1 existeix una major correlació
positiva amb la variable “Nombre d’anys de formació” i
“Salari actual en milers d’euros a l’any”, mentre que
per la component PC2 la correlació es majoritàriament negativa,
mes elevada per la variable “Nombre de mesos a l’empresa”,
seguit de la variable “Nombre de mesos d’experiència
prèvia”. Per tant, la 1a component esta molt
relacionada amb la qualificació i la 2a component amb
l’experiència.
2.
e) Una persona proposa realitzar una anàlisi
cluster amb les variables del
fitxer. Quin profit creieu que s’obtindrà de fer
aquesta anàlisi? (Màxim 4 línies)
L’anàlisi clúster agrupa elements que tenen propietats
semblants, en base a la distància que existeix entre els elements
analitzats, distància que serà el mes petita possible entre els
elements del
mateix grup, i la major distància possible entre els elements de
diferent grup. Es dir, forma grups (clústers) que son
homogenis interiorment, i el màxim de diferents entre si.
f) És correcte utilitzar totes les variables del fitxer per
realitzar aquesta anàlisi? Argumenteu la vostra resposta en un màxim de 3 línies.
Les variables de la mostra son de tipus qualitatiu nominal (gènere) i
quantitatiu, la qual cosa ens porta a elegir les
variables adequades per presentar grups homogenis. Farem
servir les variables quantitatives “nivell_educ”,
“sal_actual”, “temps_emp” i “ex_pre”, i no
utilitzarem la variable “gènere”.
g) Realitzeu una anàlisi cluster amb minitab d’acord amb la
resposta anterior. Seleccioneu a LinkageMethod: Ward, a Distance Method:
Euclidean, i a Number of Clusters: 3. (No cal presentar el resultat:
Amalgamation Steps). És realment necessari, en aquest cas,
procedir a la estandarització de les variables? (Màxim
3 línies sense comptar els resultats de Minitab).
Atès que les variables “temps_emp” i “ex_pre”,
determinaran la distància temps en mesos, la variable
“nivell_educ” la distància temps en anys, i
“sal_actual” la distància de retribució anyal, cal
estandarditzar-les per evitar la distorsió en el càlcul de les
dissimilituds.
-------- ----- ------ ----- ----- ------
Cluster Analysis of Observations: nivell_educ; sal_actual; temps_emp; ex_pre
-------- ----- ------ ----- ----- ------
-------- ----- ------ ----- ----- ------
Standardized Variables, Euclidean Distance, Ward Linkage
-------- ----- ------ ----- ----- ------
Amalgamation Steps
-------- ----- ------ ----- ----- ------
Average Maximum
-------- ----- ------ ----- ----- ------
Within distance distance
-------- ----- ------ ----- ----- ------
Number of cluster sum from from
-------- ----- ------ ----- ----- ------
observations of squares centroid centroid
-------- ----- ------ ----- ----- ------
Cluster1 192 572,194 1,57594 5,52782
-------- ----- ------ ----- ----- ------
Cluster2 63 137,883 1,40980 2,26908
-------- ----- ------ ----- ----- ------
Cluster3 219 397,458 1,24183 2,67996
-------- ----- ------ ----- ----- ------
-------- ----- ------ ----- ----- ------
Cluster Centroids
-------- ----- ------ ----- ----- ------
-------- ----- ------ ----- ----- ------
Variable Cluster1 Cluster2 Cluster3 Grand centroid
-------- ----- ------ ----- ----- ------
nivell_educ 0,916463 -0,75913 -0,585095 0,0000000
-------- ----- ------ ----- ----- ------
sal_actual 0,736977 -0,46156 -0,513339 0,0000000
-------- ----- ------ ----- ----- ------
temps_emp 0,289867 0,10269 -0,283671
0,0000000-------- ----- ------ ----- ----- ------
ex_pre -0,277894 2,03762 -0,342533 -0,0000000
-------- ----- ------ ----- ----- ------
-------- ----- ------ ----- ----- ------
Distances Between Cluster Centroids
-------- ----- ------ ----- ----- ------
-------- ----- ------ ----- ----- ------
Cluster1 Cluster2 Cluster3
-------- ----- ------ ----- ----- ------
Cluster1 0,00000 3,10496 2,03742
-------- ----- ------ ----- ----- ------
Cluster2 3,10496 0,00000 2,41814
-------- ----- ------ ----- ----- ------
Cluster3 2,03742 2,41814 0,00000
h) Presenteu el dendograma, i indiqueu quants grups, opcionalment, hauria estat
possible formar a partir d’aquesta representació. (Màxim 5
línies)
A partir de la sortida de Minitab (per 4 clústers) i del
dendograma, es pot proposar la formació de 4 clústers que
mantindrien característiques diferenciades, si bé entre els grups
3er i 4art existirien menys diferències que en els tres primers
analitzats, com s’observa gràficament en la representació del dendograma i per la
distància menor entre els seus centroides (1 ).
-------- ----- ------ ----- ----- ------
Cluster Analysis of Observations: nivell_educ; sal_actual; temps_emp; ex_pre
-------- ----- ------ ----- ----- ------
-------- ----- ------ ----- ----- ------
Standardized Variables, Euclidean Distance, Ward Linkage
-------- ----- ------ ----- ----- ------
Amalgamation Steps
-------- ----- ------ ----- ----- ------
Number
-------- ----- ------ ----- ----- ------
of obs.
-------- ----- ------ ----- ----- ------
Number of Similarity Distance Clusters New in new
-------- ----- ------ ----- ----- ------
Step clusters level level joined cluster cluster
-------- ----- ------ ----- ----- ------
-------- ----- ------ ----- ----- ------
469 5 -408,54 42,704 1 79 1 138
-------- ----- ------ ----- ----- ------
470 4 -891,5183,261 1 18 1 192
-------- ----- ------ ----- ----- ------
471 3 -993,33 91,811 4 297 4 219
-------- ----- ------ ----- ----- ------
472 2 -1285,26 116,326 3 4 3 282
-------- ----- ------ ----- ----- ------
473 1 -2026,16 178,543 1 3 1 474
-------- ----- ------ ----- ----- ------
…
-------- ----- ------ ----- ----- ------
-------- ----- ------ ----- ----- ------
Distances Between Cluster Centroids
-------- ----- ------ ----- ----- ------
-------- ----- ------ ----- ----- ------
Cluster1 Cluster2 Cluster3 Cluster4
-------- ----- ------ ----- ----- ------
Cluster1 0,00000 3,10496 2,10295 2,35080
-------- ----- ------ ----- ----- ------
Cluster2 3,10496 0,00000 2,56792 2,57165
-------- ----- ------ ----- ----- ------
Cluster3 2,10295 2,56792 0,00000 1,75142
-------- ----- ------ ----- ----- ------
Cluster4 2,35080 2,57165 1,75142 0,00000
i) Utilitzant els resultats anteriors, indiqueu en què es diferencien
els clústers 1 i el 3 (Màxim 6 línies)
El clúster 1 destaca per disposar d’una formació superior a
la mitjana, mentre que el clúster 3 estaria situat per sota de la
mitjana, força distanciat. Alhora, la retribució te un comportament similar, el clúster 1 te
retribucions elevades superiors a la mitjana, i el clúster 3 te
retribucions inferiors per sota de la mitjana. Per l’antiguitat en
l’empresa, les persones del
clúster 1 son mes antigues per damunt la mitjana, mentre que les del clúster 3,
tenen menys antiguitat i inferior a la mitjana. L’experiència
prèvia en tots dos casos es situa per sota de la mitjana, lleugerament
superior pel clúster 1 que pel clúster 3.
3.
j) Indiqueu una situació hipotètica
qualsevol en la qual convindria realitzar una anàlisi discriminant
(Màxim 5 línies)
L’anàlisi discriminant ens servirà per descriure les
diferències entre dos o mes grups definits a priori, i adscriure a
aquests grups nous individus en funció dels valors de les seves
variables. Així, unexemple on podria ser útil,
es per analitzar els grups següents; aficionats al golf i aficionats a la
petanca, l’objectiu serà identificar quines son les variables que
caracteritzen a cada col·lectiu. Per
realitzar-ho, caldrà seleccionar les variables característiques
de les diferències entre els dos grups.
k) Per les dades que disposem en aquest fitxer, amb quines variables seria
adequat plantejar-se una anàlisi discriminant
Quin seria l’objecte d’aquesta anàlisi en aquest cas en concret? (Màxim 5 línies)
Tal i com es desprèn de la pregunta 1.b), el resultat de l’ACP
assenyala que la variable salari (sal_actual), la variable formació
(nivell_educ) i la variable antiguitat (temps_emp), son les mes rellevants per
descriure les diferències entre un grup
d’elevada formació i un altre d’inferior. Per tant la
variable a explicar seria el salari i les variables explicatives
formació i antiguitat, aquest anàlisi ens
permetrà observar quines característiques determinen unes
retribucions diferenciades.
l) Realitzeu amb minitab l’anàlisi discriminant indicat a l’anterior resposta. No copieu a la resposta la part
de Summary of Misclassified Observations.
Prèviament cal estandarditzar les variables i definir els grups pels
quals es vol fer l’anàlisi discriminant, de tal manera que a
partir de la variable sou estandarditzada, he creat dos grups, grup 0 per les
persones que disposen d’una retribució superior a la mitjana i
grup 1 per les retribucions inferiors.
-------- ----- ------ ----- ----- ------
Discriminant Analysis: sal_actual_1_1 versus nivell_educ_1; temps_emp_1
-------- ----- ------ ----- ----- ------
-------- ----- ------ ----- ----- ------
Linear Method for Response: sal_actual_1_1
-------- ----- ------ ----- ----- ------
-------- ----- ------ ----- ----- ------
Predictors: nivell_educ_1; temps_emp_1
-------- ----- ------ ----- ----- ------
-------- ----- ------ ----- ----- ------
Group 0 1
-------- ----- ------ ----- ----- ------
Count 145 329
-------- ----- ------ ----- ----- ------
-------- ----- ------ ----- ----- ------
Summary of classification-------- ----- ------ ----- ----- ------
-------- ----- ------ ----- ----- ------
True Group
-------- ----- ------ ----- ----- ------
Put into Group 0 1
-------- ----- ------ ----- ----- ------
0 131 96
-------- ----- ------ ----- ----- ------
1 14 233
-------- ----- ------ ----- ----- ------
Total N 145 329
-------- ----- ------ ----- ----- ------
N correct 131 233
-------- ----- ------ ----- ----- ------
Proportion 0,903 0,708
-------- ----- ------ ----- ----- ------
-------- ----- ------ ----- ----- ------
N = 474 N Correct = 364 Proportion Correct = 0,768
-------- ----- ------ ----- ----- ------
-------- ----- ------ ----- ----- ------
Squared Distance Between Groups
-------- ----- ------ ----- ----- ------
-------- ----- ------ ----- ----- ------
0 1
-------- ----- ------ ----- ----- ------
0 0,00000 2,96474
-------- ----- ------ ----- ----- ------
1 2,96474 0,00000
-------- ----- ------ ----- ----- ------
-------- ----- ------ ----- ----- ------
Linear Discriminant Function for Groups
-------- ----- ------ ----- ----- ------
0 1
-------- ----- ------ ----- ----- ------
Constant -0,7142 -0,1387
-------- ----- ------ ----- ----- ------
nivell_educ_1 1,5101 -0,6656
-------- ----- ------ ----- ----- ------
temps_emp_1 0,1541 -0,0679
m) Quines són les 2 conclusions més destacades de
l’anàlisi fet anteriorment? (Màxim 5 línies)
* L’anàlisi de les variables dona el 76,80% dels individus correctament
classificats, la qual cosa significa que el resultat de la funció
discriminant classifica correctament en aquest percentatge, i deixa fora el
23’20%, índex que es consideraria raonable per utilitzar els
predictors per assignar individus a grups. Tal i com
s’advertia en els anteriors anàlisis, la variable que discrimina
mes clarament es la formació (nivell_educ), quasi deu vegades més
que la variable antiguitat (temps_emp).
*