Adatok elemzése csoportosítással; összehasonlítás

A sokaság elemeinek valamilyen megkülönböztető ismérv szerinti rendezésével statisztikai csoportokat nyerünk. E csoportok (vagy osztályok) lehetséges köre, száma sokszor adott (pl. az iskolázottság nemenkénti megoszlása esetén kettő), de még többször választható. A központi statisztikákban a leggyakrabban egyezményesen kialakult csoportokat használnak. A csoportosítás ismérveinek tartalma azonban gyakran eltérő lehet (pl. a különböző országokban az iskolázottság adatai), vagy idővel változhat. Ez utóbbi könnyen belátható az ár- vagy jövedelmi jellegű változások, eltolódások esetében, de ennél lényegesebb az a változás, amikor egy csoportképző ismérv belső tartalma változik meg, mint ahogyan a foglalkozási csoportok alakultak át hihetetlen gyorsasággal a nyolcvanas évek második felétől.

A csoportok számának megválasztása a statisztikai elemzések egyik alapvető döntése, hiszen ezen múlik az egy csoportba tartozó részsokaság nagysága. Túl kevés csoport esetében előfordulhat, hogy nem mutatkoznak kellően a csoportok különbségei, de gyakoribb probléma a túl sok csoport képzése: ez egyrészt áttekinthetetlenné teheti az adathalmazt, másrészt a túl sok csoport elfedheti a lényeges különbségeket a sokaság osztályai között.

A csoportosítás fő szempontját - kissé leegyszerűsítve - az ismérveknek az alapsokaságban előforduló arányai kell, hogy megszabják. A felmérés célja fontos mind a kategóriák, mind a csoportosítás „finomságának" megválasztásában.

A statisztikai sokaság vagy a választott mintasokaság egyidejűleg több ismérv szerint is csoportosítható. Ez végezhető egymástól függetlenül, de kombinatív módon is. Ez biztosítja, hogy a két ismérv sorrendje felcserélhető legyen, s így - ismételt technikai osztályozás nélkül - egyidejűleg több elemzési szempontot is figyelembe lehessen venni. Két iskola vagy egy iskola két tanévének összehasonlításakor például a tanulók nemének és az évismétlők számának kombinálásával képzett csoportosítással könnyen megállapítható, hogy egy kiemelkedő nagyságrendű évismétlés inkább valamelyik nemhez köthető, vagy az adott év - vagy adott iskola - „eredménye". (A kombinatív csoportosítás manuálisan nehézkes munka, de az úgynevezett kereszttáblákat a különböző számítógépes programok könnyedén előállítják.)

A fent ismertetett esetben a statisztikai jellegű elemzések közül a leggyakoribb, egyszerű és igen hatékony eljárással, az összehasonlítással éltünk. Az összehasonlítás az élet egyik leginkább magától értetődő tevékenysége; módszertani kérdéseire éppen ezért érdemes kitérni. Az összehasonlítás egyazon jelenség időben vagy térben elkülönített adatainak, értékeinek egybevetése az azonosságok vagy eltérések megállapítása céljából. Összehasonlítani csak azonos nemű dolgokat, jelenségeket lehet: ez a művelet alapfeltétele. Ezért szükséges a pontos definíció: a jelenség tartalmának ismerete, tisztázása, s az összehasonlításra kerülő ismérvek megjelenésének módja (mutatója, mérőszáma, mértékegysége). Az összehasonlítás fajtáinak gazdag köréből a statisztikai sorokat és a statisztikai táblák készítését tekintjük át röviden a következőkben.

A statisztikai sorok a sokaságra vonatkozó ismérv(ek) fogalmi megnevezését és konkrét adatait tartalmazzák. Tartalmuk szerint vagy egy meghatározott jelenségre vonatkozó, különbözőfajta adatokból álló úgynevezett leíró, vagy azonosfajta adatokból álló sorok lehetnek. Ez utóbbiak keletkezésük módja szerint vagy csoportosító (ezek a fősokaságon belül részsokaságok nagyságát adják meg, tehát „összesen" rovatot mindig tartalmaznak), vagy összehasonlító sorok (különböző időből vagy eltérő térségből egyazon jelenségre tartalmaznak adatokat, ilyenkor ezek egymáshoz való viszonyát vizsgáljuk).

A mennyiségi és az idősorok adatainak kumulálása azt mutatja meg, hogy egy adott értéknél kisebb értékek előfordulásának mi a gyakorisága. Ennek fordítottja, a lefelé kumulált gyakorisági sor is értelmezhető. Kumulált adatokra gyakran a „legalább" vagy „legfeljebb" típusú elemzési igény esetében van szükség: az oktatásban ilyen lehet például a népesség vagy a település megoszlása iskolai végzettség szerint.