Wissen: Datenauswertung

Eine Umfrage ist oft der erste Schritt, um Daten für sozialwissenschaftliche Untersuchungen zu bekommen. Dann aber folgt die Auswertung. Sie ist das eigentliche Herzstück und natürlich auch dann wichtig, wenn die Daten aus anderen Quellen als einer Umfrage stammen. Ein paar wichtige Hinweise in aller Kürze.

Wo kommen meine Daten her?

Daten müssen natürlich nicht immer aus Umfragen kommen. In vielen Fachbereichen ist das sogar die Ausnahme. In den Naturwissenschaften, auch bei Humanwissenschaften wie der Medizin, werden oft Experimente durchgeführt. Teilweise lässt sich auch auf Prozessdaten zurückgreifen. Bei den Daten zur Arbeitslosigkeit in Deutschland gibt es eine Zweiteilung. Die Daten zur Erwerbslosigkeit nach den Kriterien der Internationalen Arbeitsorganisation (ILO) werden durch eine Umfrage erhoben, die Arbeitslosenzahlen nach den nationalen, im Dritten Buch Sozialgesetzbuch festgeschriebenen Kriterien stammen von der Bundesagentur für Arbeit und basieren auf Prozessdaten. Früher zählte man Karteikarten, heute erfolgt die Zählung elektronisch.

Codieren

Weil ich mich im ersten Teil mit Umfragen beschäftigt habe, bleibe ich noch etwas bei dem Thema. Wer Daten auf diese Weise erhoben hat, muss nämlich in einem zweiten Schritt die Informationen so aufbereiten, dass sie sich gut auswerten lassen. Mit anderen Worten, er muss die Inhalte der Fragebögen in eine Tabelle bringen.

Idealerweise werden dazu die Fragebögen codiert. Das bedeutet, dass jede Frage eine Nummer bekommt. Oft bietet es sich an, der Übersichtlichkeit halber auch die einzelnen Kapiteln wie „Demographische Daten“ oder „Fragen zum Einkommen“ zu kennzeichnen. Beispielsweise indem der erste Themenblock mit „A“ bezeichnet wird und die Fragen dann durchnummeriert werden. Der zweite Block ist dann natürlich „B“, die erste Frage im zweiten Block also „B1“.

Das macht es leichter, die Tabelle zu beschriften, statt der kompletten Fragestellung schreibt man in die Spalte nur noch A1.

	A1	A2	A3	B1	B2
1	0	1	1	0	3
2	0	0	3	1	2
3	1	1	4	99	3
4	0	0	2	1	4
5	0	0	5	0	3

In den Zeilen stehen die Fragebögen, diese erhalten alle eine Nummer. Ist Anonymität gewünscht, werden die Fragebögen natürlich erst später und alle gemeinsam nummeriert. Wenn sie vor oder sofort nach der Abgabe nummeriert werden wüsste man ja „Fragebogen 3, das war doch der…“.

Das wichtigste ist, dass auch jede Antwort eine Nummer erhält. Nehmen wir an, Frage A1 lautet „Sind Sie Mitglied einer politischen Partei“, dann könnte 0 nein heißen und 1 ja. Wenn es sich bei Frage A2 ebenfalls um eine Ja/Nein-Frage handelt, muss die Bedeutung der Zahlen auch hier wieder gleich sein, also nicht plötzlich 1 als nein und 0 als ja.

Was nicht heißt, dass in Frage A3 die 1 nicht etwas anderes bedeuten kann. Vielleicht lautet die Frage „Als welchem Bundesland kommen Sie?“ und 1 ist dann Schleswig-Holstein (weil das die Länderkennziffer 1 hat).

Auswanderung nach Polen — Aus welchem Land kommt der Befragte? Statt den Namen des Landes in die Tabelle zu schreiben ist es schneller, für jede Nation eine Zahl zu vergeben. Beispielsweise eine 3 für Polen (im Bild Tschenstochau). Foto: Waldemar Jan, Flickr.de

Bei der Vergabe der Nummern ist man ziemlich frei. Außerdem sollte man ein paar Nummern für „Kein Antwort“ oder „Weiß nicht“ reservieren. Hier bieten sich Zahlen an, die sonst nie zum Einsatz kommen. Etwa die 98 für „Weiß nicht“ und die 99 für eine fehlende Antwort.

Der Vorteil des Codieren liegt klar auf der Hand, man erhält eine übersichtliche Tabelle, mit der man auch arbeiten kann. Beispielsweise indem man prüft, ob Mitglieder einer Partei besonders oft an der letzten Bundestagswahl teilgenommen haben. Dazu muss man nur alle Fälle suchen, in den bei A1 die Ziffer 1 steht und dann auszählen lassen, wie viele davon bei der Frage „Haben Sie bei der letzten Bundestagswahl gewählt?“ ebenfalls eine 1 stehen haben und wie viele eine 0.

Die deskriptive Analyse

Am einfachsten sind deskriptive Analysen der Daten. Dazu werden auch keine besonderen Softwarekenntnisse benötigt, Tabellenkalkulationsprogramme wie Excel oder kostenlose Alternative wie OpenOffice Calc (früher StarCalc) reichen aus.

Eine Möglichkeit wurde ja bereits angeschnitten, die reine zahlenmäßige Auszählung. Dafür gibt es auch einen relativ einfachen Wert, nämlich das Kreuzproduktverhältnis. Das Verfahren stammt eigentlich aus der Medizin, lässt sich aber in anderen Gebieten einsetzen und ist verhältnismäßig einfach.

Haben wir beispielsweise fünf Parteimitglieder und elf Nichtparteimitglieder. Von den fünf Parteimitgliedern haben vier gewählt, von den Parteilosen ebenfalls sogar acht. Logischerweise haben dann ein Parteimitglied und drei Nichtmitglieder nicht gewählt.

	Wählt	Wählt nicht
Parteimitglied	4	1
Kein Mitglied einer Partei	8	3

Das Kreuzproduktverhältnis, auch Quotenverhältnis oder Odds Ratio, kann man berechnen, indem man die beiden Relationen durcheinander teilt. Bei den Wählern gibt es vier Parteimitglieder und acht Nichtmitglieder. Bei den Nichtwählern gibt es dagegen dreimal so viele Nichtparteimitglieder.

Unser Kreuzproduktverhältnis ist also (4/8)/(1/3) = 1/2/(1/3) = 1 1/2.

Einfacher geht es aber, wenn wir von vorneherein die Kreuzprodukt nehmen, also das Produkt der jeweils über Kreuz stehenden Daten. Wählende Parteimitglied werden mit nicht wählenden Nichtparteimitgliedern multipliziert und nicht wählende Parteimitglieder mit wählenden Nichtparteimitgliedern. Dann werden beide Kreuzprodukte durcheinander geteilt. Warum? Weil das Ergebnis das gleiche ist wie oben, man es aber einfacher rechnen kann.

In unserem Fall nehmen wir also 4 * 3 und teilen das durch 8 * 1. Das ergibt dann 12 geteilt durch acht, also ebenfalls 1,5. Das lässt sich so interpretieren, dass auf eine gleiche Anzahl von Wählern bei den Parteilosen 1,5 Mal so viele Nichtwähler kommen.

Weitere Möglichkeiten

Das Kreuzproduktverhältnis ist eine relativ einfache Möglichkeit, Zusammenhänge auszuwerten. Es gibt noch zahlreiche andere, von denen ich nur die wichtigsten kurz vorstellen will:

Mittelwerte,
Streuungen,
Korrelationen.

Mittelwerte

Mittelwerte sind eine ebenso beliebte wie umstrittene Form der Analyse. Der bekannteste ist das arithmetische Mittel, oft auch Durchschnitt genannt. Ebenfalls beliebt ist der Median.

Mittelwerte haben natürlich nur eine eingeschränkte Aussagekraft, wenn die Streuung sehr stark ist. Ein gutes Beispiel dafür ist das Bruttoinlandsprodukt des Landes Äquatorial-Guinea. Es liegt mit 31.800 US-Dollar höher als das in Tschechien, Portugal oder Polen. Ist das Land also wohlhabend? Die Mehrheit der Bevölkerung nicht, denn das Geld stammt aus dem Erdölgeschäft und fließt überwiegend in die Taschen des seit 1979 regierenden Präsidenten und seiner Familie.

Auch wenn in den meisten Ländern die Unterschiede nicht so drastisch sind, gibt es natürlich auch in Deutschland beim Thema Einkommen große Differenzen. Und nicht nur dort, auch bei der Lebenserwartung, der Zahl der Kinder, der Zufriedenheit oder der Verwicklung in Straftaten gibt es Unterschiede.

Unwichtig sind die Mittelwerte deshalb nicht. Trotz aller innerstaatlicher Unterschiede lässt sich beispielsweise aus den Daten zum Pro-Kopf-Einkommen einiges über die wirtschaftliche Situation von Menschen in den einzelnen Ländern aussagen.

Streuungsmaße

Oft lassen sich Mittelwerte besser interpretieren, wenn dazu Streuungsmaße angegeben werden. Relativ einfach ist die Spannweite, die Differenz zwischen dem größten und dem kleinsten Wert. Allerdings ist die Aussagekraft eingeschränkt, weil nur zwei Werte betrachtet werden.

Öfter kommt die Standardabweichung zum Einsatz. Dabei wird die Differenz jedes einzelnen Beobachtungswertes zum Mittelwert (oder zu einem Erwartungswert) berechnet und dann quadriert. Daraus wird ein Durchschnitt errechnet, die durchschnittliche quadrierte Abweichung oder Varianz, deren Wurzel wiederum die Standardabweichung ist.

Vor allem bei Einkommen kommt auch der Gini-Koeffizient oft zum Einsatz. 0 bedeutet dabei eine völlige Gleichverteilung (beispielsweise alle verdienen genau 1.500,00 Euro pro Monat), je näher sich der Wert der eins nähert, desto ungleicher ist die Verteilung.

Mit diesen Werten lassen sich Aussagen darüber treffen, wie gleich Verteilungen sind.

Korrelationsmaße

Sehr beliebt sind auch Korrelationen. Der Korrelationskoeffizient von Bravais-Pearson nimmt immer Werte zwischen -1 und +1 an. Je näher der Wert an +1 herankommt, desto stärker entwickeln sich zwei Datenreihen in die gleiche Richtung. Die Reihen 1,2,3 und 2,3,4 haben etwa ein Korrelation von 1,0. Der Wert 0 bedeutet keine Korrelation, bei -1 entwickeln sich beide Datenreihen in unterschiedliche Richtung, etwa die Reihen 1,2,3 und 3,2,1.

Korrelationen sind eine beliebte Ursache von Fehlinterpretationen. Denn eine Korrelation bedeutet noch keinen kausalen Zusammenhang. Wenn beispielsweise im 19. Jahrhundert in Gegenden mit mehr Störchen auch mehr Kinder geboren wurden, dann kann das drei Gründe haben:

Mehr Störche bedeuten mehr Kinder,
mehr Kinder bedeuten mehr Störche oder
es gibt eine dritte Ursache, beispielsweise die Tatsache, dass Störche oft auf dem Land leben und dort früher (und auch heute noch in vielen Ländern) mehr Kinder geboren wurden.

Welche der der Möglichkeiten richtig ist, sagt uns der Korrelationskoeffizient leider nicht, dafür brauchen wir schon unseren Verstand.

Mitdenken und interpretieren

Bei der Auswertung gilt es also mitzudenken und die Daten zu interpretieren. Üblicherweise fordert der klassische Rationalismus deshalb, zunächst ein logisch schlüssige Theorie aufzustellen und die Empirie nur heranzuziehen, um diese These zu prüfen.

Auch wer Theorien auf Basis der Empirie bildet, sollte aber immer kritisch fragen, ob die Ergebnisse auch logisch begründbar sind. Im Zweifelsfall lässt sich vielleicht eine andere Betrachtungsweise hinzuziehen. Wenn Arme öfter krank sind, macht Armut dann krank oder werden Kranke öfter arm? Zur Beantwortung dieser Frage lassen sich beispielsweise Kohorten über einen längeren Zeitraum beobachten um festzustellen, ob erst die Armut oder erst die Krankheit kam. Oder man beobachtet Kinder. Hier ist Krankheit meist nicht der Grund für Armut, außer es handelt sich um eine so schwere Erkrankung, dass ein Elternteil deshalb weniger arbeitet. Werden arme Kinder also öfter krank, scheint Armut krank zu machen.

Fazit

Zahlen und Statistiken sind wichtig zum Verstehen von Zusammenhängen. Sonst bleibt nur leeres und nicht zielführendes Theoretisieren. Und man kann davon ausgehen, dass jeder schon eine Theorie finden wird um seine Meinung zu untermauern. Klar, oft lassen sich auch die passenden Zahlen finden, wenn man eine Theorie unbedingt „belegen“ will. Doch das ist schwieriger, vor allem wenn die Beobachter ihren Verstand nicht ausschalten, sondern kritisch mitdenken.

Vor allem sollten Forscher natürlich selbst immer mitdenken, egal ob sie einen Forschungsbericht verfassen, Daten für einen Zeitungsartikel recherchieren, eine Master-, Bachelor- oder eine Hausarbeit schreiben.

Wer mehr wissen will und seine Statistik-Kenntnisse verbessern will, findet zahlreiche Statistik-Kurse bei unserem Partner Statistik-Nachhilfe.de und bei Mentorium. Neben Kursen in Statistik werden dort auch Software-Schulungen angeboten, beispielsweise in SPSS, R oder Stata.