Skip navigation

Vizsgálatok

Vizsgáljuk meg, hogy szükség van-e a skálák standardizálásra. Ez akkor fordulhat elő, ha nem egyforma skálákat használunk. A változókon végezzünk korrelációelemzést, hogy kiderítsük, elvégezhető-e az analízis. Ellenőrizzük a minta reprezentativitását. Meg kell vizsgálni, hogy vannak-e kiugró értékek, és amennyiben feltártuk azokat, akkor szüntessük meg. Vizsgálnunk kell a változó skálákat is. Ezeket a továbbiakban részletesebben kifejtjük.

Fontos eldöntenünk, hogy milyen hasonlósági- vagy távolságmértéket válasszunk. Bináris változó esetében mindkét típus fajtáiból választhatunk. Metrikus változó esetében távolságmértékeket alkalmazunk.

Válasszuk ki, hogy milyen a klasztermódszert szeretnénk használni: hierarchikus eljárást, nem hierarchikus eljárást, vagy a kettő kombinációját.

Gondoljuk át, hogy milyen szempontok alapján történik az elemzés, hány csoportot képezzünk, a csoportok számának változtatása hogyan hat az eredményekre.

Állapítsuk meg, hogy miben különböznek egymástól a klaszterek, értelmesen interpretálhatók-e az eredmények, szükség van-e új változók bevonására, és milyen nevet adjunk majd a kialakult klasztereknek.

Az elemzés érvényességének elemzése úgy történik, hogy különböző eljárásokat, vagy távolságmértékeket alkalmazunk és összehasonlítjuk az eredményeket. Az adatokat véletlenszerűen két részre osztjuk. A két almintán külön-külön elvégzett elemzések eredményeit összehasonlítjuk. Az elemzést többször lefuttatjuk az adatok sorrendjének megváltoztatásával.

Mint már említettük, a feltételek vizsgálata során fontos a kiugró értékek feltárása, mivel a klaszteranalízis rendkívül érzékeny az olyan egyedekre, amelyek jelentősen különböznek a többitől. Feltárásuk történhet egyszerű grafikus ábrázolással: pontdiagram, boxplot ábra vagy egyszerű láncmódszer segítségével. Ezek az elemek vagy ténylegesen „abnormális” megfigyelések, amelyek nem jellemzők az alapsokaságra, vagy a mintában szereplő egyedek alulreprezentálják az alapsokaságban lévő csoport nagyságát. Az első esetben tehát érdemes azokat kitörölni az adatbázisból.

Klaszterelemzés során fontos, hogy egyforma szintű metrikus skálákat használjunk. Ha a klaszteranalízis során különböző szintű metrikus skálákat alkalmazunk, teljesen torz összevonási sémát kaphatunk eredményül. A különböző skálák azonos szintre hozásához a standardizálást használjuk, amely során az átlagot kivonjuk az egyes értékekből és a különbséget elosztjuk a szórással. Így azonos szintű skálákat kapunk, lehetővé válik a különböző szintű skálán mért változók összehasonlítása. A standardizált skála szórása 1, az átlaga 0, a pozitív értékek átlag felettiek, a negatívak átlag alattiak

Szükséges a korrelációelemzés, mert a klaszterelemzés minden változót azonos súllyal kezel. Ha tehát két változó, vagy egy változócsoport tagjai egymással szoros korrelációs kapcsolatban vannak, akkor nagyobb szerepet kaphatnak az eredményekben. Ilyen esetben célszerű a változók valamilyen módon történő redukálása.

Bináris és metrikus változók esetén mind a távolságmértékeknél, mind a hasonlósági mértékeknél használatos az euklideszi távolság.