Példa klaszteranalízisre
Nyissuk meg a verd1985.sav állományt (72. ábra). A következő feladatban különböző életkori (age) kategóriákba tartozó és különböző családi állapotú (marital) egyedek adathalmazait szeretnénk csoportba rendezni matematikai (math) és nyelvi tesztjeiknek (language) megfelelően. Az adatbázisban egyéb változók is szerepelnek: pet (hány háziállatot tart), news (milyen újságot olvas), music (milyen zenét szeret), live (milyen típusú településen lakik), amelyeket most figyelmen kívül hagyhatunk (73. ábra).
72. ábra
73. ábra
Mint láthatjuk, a math és language tesztpontszáma eltérő skálájú (a matematika hármas, míg a nyelv négyes skálás), ezért standardizálásra van szükségünk.
Válasszuk az Analyze/Classify/Hierarchical Cluster parancsot (74. ábra).
74. ábra
A Variable(s) alá mozgassuk át a vizsgálni kívánt Math test score és Languge test score változókat, majd kattintsunk a Method gombra (75. ábra).
75. ábra
A megjelenő ablakban válasszuk a Ward’s methodot és Z score-nál a by variables mezőket (76. ábra).
76. ábra
29. táblázat
30. táblázat
A korrelációs vizsgálathoz válasszuk ki a már tanult Analyze/Correlate/Bivariate parancsot (77.ábra).
77. ábra
78. ábra
Correlations
|
|
Math test score |
Language test score |
Math test score |
Pearson Correlation |
1 |
,615(*) |
Sig. (2-tailed) |
|
,015 |
|
N |
15 |
15 |
|
Language test score |
Pearson Correlation |
,615(*) |
1 |
Sig. (2-tailed) |
,015 |
|
|
N |
15 |
15 |
* Correlation is significant at the 0.05 level (2-tailed).
31. táblázat
A korrelációs analízisből látszik, hogy közepesen erős a korreláció a két változó között (31. táblázat). Így több érték fog egybeesni. Ennek ellenére most vizsgáljuk meg, hogy ha ez a feltétel nem teljesül, akkor mi történik.
Vizsgáljuk meg a továbbiakban pontfelhődiagram segítségével, hogy van-e kiugró érték az adatbázisban. Ehhez válasszuk a Graps/Legacy Dialogs/Scatter/Dot menüpontot (79. ábra).
79. ábra
Az előugró panelben válasszuk ki a Simple Clustert az esetleges kiugró értékek szemléltetéséhez, majd nyomjuk meg a Define gombot (80. ábra).
80. ábra
Ezután vigyük át a vizsgálandó változókat (Math test score and language test score) az Y Axis és X Axis alá. Amennyiben van egyedi azonosítóval rendelkező változónk, akkor a még jobb szemléltetés érdekében a Label Cases by (a pontok mellé írja az azonosítókat) vagy a Set Markers by (a pontokat színekkel látja el, majd az egyes színeket az azonosítóval párosítja) helyekre tehetjük (81. ábra).
81. ábra
82. ábra
A pontfelhődiagram (82. ábra) azt mutatja, hogy van kiugró érték. Mivel viszonylag magas volt a korreláció és alacsonyak a skálák, így látható, hogy több érték is egybe esett.
Hogy szemléletesebbé tegyük a pontfelhődiagramot, hozzunk létre egyedi azonosítót (id) az egyes egyedeknek. Ennek érdekében váltsunk Variable View nézetre, majd írjuk be a név oszlopába az id változót, a tizedesvessző utáni értéket (decimals) csökkentsük 0-ra (83.ábra).
83. ábra
Ezután váltsunk vissza Data View nézetre, és gépeljük be az id változóhoz a sorok azonosítóit (84. ábra).
84. ábra
Ismét menjünk a Graphs/Legacy Dialogs/Scatter/Dot menüponthoz, majd válasszuk a Simple Scatter-t és kattintsunk a Define gombra. A létrehozott azonosítónkat vigyük a Set Markers by mezőnévhez (85. ábra).
85. ábra
86. ábra
A szórásdiagramdiagram (86. ábra) jól szemlélteti, hogy nem mind a 15 elem esik más kategóriába, mivel egyes eredmények egybe esnek (ez a magasabb korreláció miatt lehetséges).
A kiugró érték megjelenítésének legalkalmasabb formája a dendrogram. Ehhez válasszuk az Analyze/Classify/Hierarchical Cluster paranancsnál (87. ábra) a Plots gombra (88. ábra) kattintva a dendrogramot és kattintsunk a Continue gombra.
87. ábra
88. ábra
89. ábra
A Statistics gombra kattintva a proxy mátrixot és az Agglomeration schedule ábrát szeretnénk-e megjeleníteni (89. ábra), majd ismét a Continue gombra kattintsunk.
90. ábra
A Method gomra kattintva válasszuk Nearest neighbor (Legközelebbi szomszéd) módszert (90. ábra).
A klaszterek számának végső meghatározásában három szempontot vehetünk figyelembe. A hierarchikus klaszterelemzés során kapott összevonási táblázat (Agglomeration Schedule) (32. táblázat) Coefficients (koefficiens) oszlopában található érték ugrásszerű növekedése, másrészt a dendrogram, harmadrészt a lehetséges klaszterek szakmai értelmezhetősége.
32. táblázat
A dendrogrammal együtt kirajzolódik (33. táblázat) a jégcsap diagram (Icicle) különböző tájolással (Vertical/Horizontal), attól függően, hogy mit választottuk a Plots menüpontnál.
33. táblázat
A dendrogram segít eldönteni, hogy hány klasztert érdemes kialakítani. A dendrogramból (33. táblázat) jól látszik, hogy a 11-es a kiugró érték. El kell döntenünk, hogy ez a kiugró érték abnormális megfigyelés, vagy alulreprezentálja az alapsokaságban lévő csoport nagyságát.
91. ábra
Mivel tudjuk, hogy melyik az az egyed (11-es számú), akit ki akarunk zárni, így nincs más dolgunk, mint kiszűrni. Ezért válasszuk a Data/Select Cases parancsát (92. ábra), majd If condition is satisfied alatt található If gombra kattintsunk (93. ábra).
92. ábra
93. ábra
A szelektáláshoz egy tagadást kell alkalmaznunk, hiszen azt az egyedet nem szeretnénk, ha a vizsgálatainkban részt venne. Tehát a következő képletet alkalmazhatjuk: not (id=11). A jelen esetben a zárójel el is hagyható (94. ábra).
94. ábra
Az SPSS áthúzással jelzi, hogy melyik egyed nem fog szerepelni a vizsgálatban (95. ábra).
95. ábra
Ezt követően a Ward-eljárással haladunk tovább. Ez az eljárás akkor előnyös, ha a feltételeink teljesülnek, valamint a csoportok közel azonos szórásúak és minden csoport közel hasonló elemszámmal rendelkezik. Válasszuk az Analyze/Classify/Hierarchical Cluster parancsot (96. ábra).
Majd az előugró panelben válasszuk a Method gombot.
96. ábra
A Cluster Method lenyíló menüjéből válasszuk a Ward’s methodot és a Transform Values lenyíló menüjéből a None-t (97. ábra).
97. ábra
A 34. táblázat egyrészt megmutatja az egyes elemek, klaszterek összevonási sorrendjét (Cluster Combine oszlopok), másrészt segít meghatározni, a megfelelő klaszterszámot. A legnagyobb szakadék megkeresése úgy történik, hogy meghatározzuk az egymást követő koefficiensek különbségét, és a szakadék előtti klasztermegoldást tekintjük a jó klasztermegoldásnak.
34. táblázat
Egy nagy ugrást (5,542-ről 21,429-re) láthatunk az utolsó két klaszter összevonása miatt. Ezt az ugrást megjeleníthetjük úgy, hogy a 4. táblázatra kétszer rákattintunk, majd kijelöljük egér segítségével az utolsó kofficienseket (coefficients) (35. táblázat) és a Formating Toolbarnál a Line diagramot választjuk ki (98. ábra).
35. táblázat
98. ábra
99. ábra
100. ábra
A dendrogram (100. ábra) azt mutatja meg, hogy hány összevonás után hány klaszter maradt. A dendrogram alapján két klasztert célszerű létrehozni. Mentsük el a kétklaszteres javaslatot. Ehhez vissza kell térnünk az Analyze/Classify/Hierarchical Cluster parancsohoz, és ott válasszuk a Save gombot. A megjelenő ablakban a Single Solution (egyetlen megoldás) Number of clusters értékéhez írjunk kettőt (101. ábra). Amennyiben több klasztert sejtünk, akkor a Range of solutions menüpontot válasszuk, ahol a Minimum number of clusters (minimális klaszterszám) értékhez írjuk az általunk vélt legkisebb klaszterszámot, míg a Maximum number of clusters (maximális klaszterszám) értékhez a legnagyobb klaszterszámot.
A legnagyobb távolság a horizontális tengelyt tekintve 3 és 25 között fedezhető fel.
101. ábra
Az Output ablakban megjelenő alábbi ábra mutatja, hogy az egyes egyedek melyik klaszterbe esnek (36. táblázat).
Cluster Membership
Case |
2 Clusters |
1 |
1 |
2 |
1 |
3 |
2 |
4 |
1 |
5 |
2 |
6 |
1 |
7 |
2 |
8 |
2 |
9 |
2 |
10 |
2 |
12 |
1 |
13 |
2 |
14 |
2 |
15 |
1 |
36. táblázat
Az elemzést a klasztercentroidok (átlagok) alapján végezhetjük. Ehhez az átlag, elemszám és szórás értékeire lesz szükségünk. Az Analyze/Compare Means/Means parancsnál (102. ábra) a Dependent list-hez a Math and Language test score változókat, az Independent list-hez válasszuk a két Ward Methodot (103. ábra), majd az Options gombra kattintva keressük ki az átlag (mean), elemszám (number of cases), szórás (standard deviation) vizsgálatot (104. ábra).
102. ábra
103. ábra
104. ábra
A három klaszteres megoldás nem hozott megfelelő eredményt, mert a 3 klaszternél a szórás nagyon csekély (37. táblázat)
Math test score Language test score * Ward Method
Ward Method |
|
Math test score |
Language test score |
1 |
Mean |
2,8333 |
3,3333 |
|
N |
6 |
6 |
|
Std. Deviation |
,40825 |
,51640 |
2 |
Mean |
1,0000 |
1,6000 |
|
N |
5 |
5 |
|
Std. Deviation |
,00000 |
,54772 |
3 |
Mean |
2,0000 |
2,0000 |
|
N |
3 |
3 |
|
Std. Deviation |
,00000 |
,00000 |
Total |
Mean |
2,0000 |
2,4286 |
|
N |
14 |
14 |
|
Std. Deviation |
,87706 |
,93761 |
|
|
|
|
37. táblázat
A két klaszteres megoldás jobb eredményeket hozott (38. táblázat).
Math test score Language test score * Ward Method
Ward Method |
|
Math test score |
Language test score |
1 |
Mean |
2,8333 |
3,3333 |
|
N |
6 |
6 |
|
Std. Deviation |
,40825 |
,51640 |
2 |
Mean |
1,3750 |
1,7500 |
|
N |
8 |
8 |
|
Std. Deviation |
,51755 |
,46291 |
Total |
Mean |
2,0000 |
2,4286 |
|
N |
14 |
14 |
|
Std. Deviation |
,87706 |
,93761 |
38. táblázat
A szórásdiagram segítségével érzékeltethetjük a két klasztert. Ehhez a Graphs/Legacy Dialogs/Scatter/Dot menüpontjában mozgassuk át a 2 klaszteres (Clu2_1) Ward Methodot (105. ábra).
105. ábra
Az ábrán kék és zöld alakzattal jelöltük a kialakult két klasztert (106. ábra). A két klasztert elnevezhetjük (például 1. klaszter: ügyes nyelv és matek tesztet írók, 2. klaszter: gyengébb nyelv és matek tesztet írók.)
106. ábra