Trau keiner Statistik, die Du nicht selbst gefälscht hast – sagt ein Sprichwort. Wie aber kann sich der statistische Laie bei Themen um Arbeit und Gesundheit orientieren? Für die meisten von uns war Mathematik schließlich nicht das Traumfach. So ist es einfach, uns mit statistischen Taschenspielertricks zu täuschen. Manchmal sind diese Fälschungen so gut gemacht, dass auch ein erfahrener Experte eine Weile braucht, den versteckten Betrug zu erkennen. In diesem Beitrag klären wir einige der häufigsten Irrtümer.
„Statistisch hoch signifikant“ hören wir. Mit bedeutungsschwerer Geste wird uns der wissenschaftliche Artikel vor die Augen gewedelt. Um gleich zum Verkaufsgespräch zu wechseln. Wir sollten dringend die statistisch hoch signifikante Maßnahme in unserem Unternehmen mit 1000 Beschäftigten einsetzen. Wenn doch die Kosten pro Tag und Mitarbeiter nicht mehr als einen Kaffee in der Kantine kosten. Ein preiswertes Programm. Und dazu noch voll digital. Moment mal: Ein Cappuccino pro Mitarbeiter und Tag (2.20 €) mal 365 Tage mal 1000 Beschäftigte: Das Programm kostet unser mittelständisches Unternehmen also 803.000 € pro Jahr. Von wegen günstig.
Und was heißt eigentlich statistisch hoch signifikant? Das neue digitale Programm wurde angeblich in den USA von Google an 150.000 Personen wissenschaftlich getestet. Der Unterschied zwischen den Behandelten und Nicht-Behandelten war 1 Punkt in der Arbeitsfähigkeit auf einer Skala von 0 bis 100. Bei 150.000 Teilnehmern kann dieser zwar vernachlässigbare Unterschied dennoch nicht durch den Zufall zustande gekommen sein. So ein Ergebnis als Zufall wäre extrem unwahrscheinlich. Genau das besagt der Statistik-Ausdruck „hoch signifikant“.
Hingegen hat in Ihrem eigenen Unternehmen Ihr Arbeitsschutz und Gesundheitsdienst bei einem Test für eine Maßnahme im ähnlichen Themenfeld mit 15 Personen auch einen Unterschied gefunden: 15 Punkte Unterschied mehr Arbeitsfähigkeit. Der Statistiker aber sagt: Das könnte auch Zufall sein, „nicht signifikant“. Allerdings ist die Maßnahme teurer. Sie kostet 50 Cappuccino-Einheiten. Wen beauftragen Sie?
Die statistisch hoch signifikante, aber im Prinzip wirkungslose Maßnahme oder die möglicherweise sehr wirksame Maßnahme, die aber nicht abschließend wissenschaftlich untersucht ist? Helfen kann Ihnen bei diesem Entscheid eine vernünftige Risikoabwägung: Welche Verbesserung etwa auf der Arbeitsfähigkeitsskala wäre für mich und mein Unternehmen bedeutsam? 1 Punkt, 5 Punkte, 10 Punkte? Welcher Business-Vorteil entsteht daraus? Die SAP hat eine von uns 2012 entwickeltes Berechnungsverfahren, gesundheitsbedingte Produktivitätsverluste zu schätzen für seinen Business Report 2014 benutzt, um die Wirkung von 1% Verbesserung in ihrem 10-Item-Index Business Health Culture auf den Gewinn zu schätzen. 2014, so die Schätzung, hätte 1% Verbesserung auf einer Skala von 0 bis 100 die bottom-line um 65 Millionen erhöht – ausweislich der Darstellung im Online-Geschäftsbericht.
Nun zur vorgeschlagenen Maßnahme: Für wie wahrscheinlich halten Sie das Eintreffen des vorhergesagten Erfolges? 100% Prozent (gibt es nicht), 70% (haben wir noch nie gesehen), 50% (äußerst selten), 30% (kommt öfter vor), 10% (häufig), 0% (leider zu viele der Angebote) oder sogar Schaden (ebenfalls so manches Angebot)? Darüber hinaus: Wieviel wäre Ihnen wert, dass es Ihren Beschäftigten besser geht, auch ohne Effekt für die bottom-line?
Der Anbieter sollte Auskunft geben können zu Fragen wie: Wie viele Personen müssen an der Maßnahme teilnehmen (z. B. Rauchentwöhnungskurs) damit bei einer Person der Erfolg beobachtet werden kann. In der evidenzbasierten Medizin nennt man das die Anzahl der für einen Erfolg zu behandelnden Personen oder number needed to treat. Sehr gute Maßnahmen haben eine NNT um 10, viele der Präventionsmaßnahmen zum Schutz vor Herzinfarkt eine NNT zwischen 30 und 100.
Schließlich wissen Sie vielleicht nicht genau, was denn ein bedeutsamer Unterschied ist. Vielleicht schon für eine Einzelperson, aber für Gruppen von Menschen. Statistiker haben hier, um verschiedene Maßnahmen wie etwa Verbesserung der Arbeitsfähigkeit, verbesserte Fitness, niedrigeres Körpergewicht vergleichbar zu machen die Effektstärke als ein Maß erfunden. So wie bei Automobilen der Luftwiderstandsbeiwert unabhängig von Marke und Modell etwas darüber aussagt, wie gut das Automobil durch den Fahrtwind schlüpft.
Das Beispiel eines Gesundheitsprogramms für das Gewichtabnehmen in Ihrem Unternehmen verdeutlicht die Maßzahl. Das Durchschnittsgewicht bei über 50.000 von uns untersuchten Männern lag bei 85 kg mit einer Standardabweichung von 13 kg. Die Effektstärke ist der beobachtete Unterschied geteilt durch die Standardabweichung. Hier ist wichtig zu unterscheiden, ob Sie eine Einzelperson betrachten oder eine ganze Gruppe. Wenn Sie in einer ganzen Gruppe von 100 Teilnehmern im Durchschnitt einen Gewichtsverlust von 3 kg im Vergleich zu den Nicht-Teilnehmern erzielen, dann würden Sie es wohl schon für wirksam halten. Der amerikanische Psychologe und Statistiker Jaco Cohen (1923-1998), einer der Erfinder des Begriffs Effektstärke, schlug folgende Einteilung vor: Bis 0,2 = wahrscheinlich kein Effekt. 0,2 bis 0,4 = geringer Effekt, 0,4-0,7 = mittlerer Effekt. 0,7 bis 1,0 = bedeutsamer Effekt und über 1,0 = sehr starker Effekt.
In Effektstärken wäre somit der Erfolg Ihres Programms für das Gewichtabnehmen 3 / 13 = 0,23 nach Cohen ein geringer Effekt. Würden alle Teilnehmer im Durchschnitt 10 kg abnehmen, wäre das ein großer Erfolg für Ihr Programm. Cohens Effektstärke wäre 10/13 = 0,77. Bei einer Effektstärke von über 0,7 spricht man denn auch von bedeutsamen Effekten. Kennen Sie ein Programm, bei dem alle im Durchschnitt über 13 kg abnehmen? Entsprechend selten beobachten wir Effektstärken von über 1. Aber es kommt vor, gerade in der Organisationsentwicklung mit etwa Verbesserung von Führungsverhalten. Sie sehen: Jacob Cohen und Ihr gesunder Menschenverstand liegen gar nicht so weit auseinander. Vertrauen Sie in Zukunft daher weniger auf die Jünger des Statistischen-Signifikanz-Ordens hören Sie auf diejenigen, die Ihnen Effektstärken und die notwendige Anzahl zu behandelnder Personen berichten.
Sagt das organisationale Klima heute die krankheitsbedingten Fehlzeiten des nächsten Jahres vorher? Wir verglichen in einem großen produzierenden Unternehmen über mehrere Standorte hinweg die Benchmark der Abteilungen mit den günstigen psychosozialen Arbeitsbedingungen mit dem Rest. Wenn sich das Betriebsklima abkühlt, regnet es im Jahr darauf Arbeitsunfähigkeit.
Die Fehlzeiten ziehen mit den Meistern um. Das ist eine Erfahrungsweisheit von Produktionschefs. Aber hält das einer wissenschaftlichen Analyse stand? In Langzeiteinzelbeobachtungen fanden dänische Arbeitswissenschaftler schon vor gut 10 Jahren, dass ungünstige psychosoziale Rahmenbedingungen der Arbeit rund ein Drittel der Fehlzeiten verursachen. Die AOK befragte ihre Versicherten vor einigen Jahren nach dem Betriebsklima. Wer über ein schlechteres Betriebsklima berichtete, war auch häufiger krankgeschrieben. Aber Moment mal: könnte nicht auch sein, dass eben bestimmte Beschäftigte eher „schlecht drauf“ sind, auch ihre Arbeitsumgebung als ungünstiger erleben und sich leichter für eine Krankschreibung beim Arzt einfinden?
Ein großes Unternehmen aus der Automobilbranche wollte es genau wissen. Wir haben darum nicht die Fehlzeiten der Einzelpersonen angeschaut, sondern die Fehlzeiten pro Abteilung und haben als bestmögliche Aussage über das tatsächliche Betriebsklima und die psychosozialen Arbeitsbedingungen, welche die durchschnittlichen Antworten aller Beschäftigten aus der Abteilung berechnet. Und es zeigt sich: verglichen mit dem besten Viertel aller Abteilungen haben diejenigen mit ungünstigeren psychosozialen Arbeitsbedingungen im Folgejahr 48 % höhere Fehlzeiten. Wir können sogar die zukünftigen Fehlzeiten aus den richtigen Fragen genauso gut Vorhersagen wie aus der Kenntnis aller medizinischen Befunde und Sachverhalte und der Kenntnis der aktuellen Fehlzeiten.
Das wissenschaftliche Manuskript zu diesen Daten ist aktuell bei einer englischsprachigen Fachzeitschrift zur Beurteilung durch andere Wissenschaftler eingereicht. In den kommenden Monaten werden wir für psyGA einen leichter verständlichen Monitor verfassen, den Sie auf der Website der Initiative Neue Qualität der Arbeit beim Bundesministerium für Arbeit und Soziales herunterladen können.
Optimierte Fragebögen. Wie es kurz und bündig geht.
Wer füllt schon gerne Fragebögen aus, wenn nichts passiert? Wer beantwortet gerne die gleiche Frage nur anders herum gestellt in vielfältigen Schattierungen? Wie es kurz und bündig geht, das zeigt der von uns entwickelte psy50. Es ist unser Meisterstück, aufbauend auf 20 Jahre Erfahrung in der Entwicklung von Fragebögen.
Wer sicher publizierbare Wissenschaft betreiben will, nimmt am besten Fragebögen, die schon viele andere auch eingesetzt haben. Es gibt zu allen möglichen Themen, die einen Forscher interessieren könnten, umfangreiche Fragebogenbatterien. Weil Wissenschaftler in der Regel mit kleinen Anzahlen von Versuchspersonen umgehen, machen Sie die Fragebögen lang. Das stellt sicher, dass man möglichst für alle Schattierungen von Persönlichkeit und Herkunft ein zuverlässiges Ergebnis erhält. Im Gründungsjahr der HealthVision GmbH war so unser Forschungsinstrument auf 420 Fragen angewachsen, unsere Teilnehmer mussten die Papiere in mehreren Sitzungen ausfüllen. Dann kamen Airbus und die Otto Gruppe und fragten, ob das nicht kürzer ginge. Maximal 20 Fragen.
In den letzten 15 Jahren haben wir darum alle Techniken untersucht, mit denen man Fragebogen verkürzen kann. Beispielsweise braucht man gar keine langen Einzelfragebögen, wenn man nur über eine Gruppe eine Aussage machen möchte. Denn die 20 Personen bringen von allein unterschiedlichen Persönlichkeiten, Wahrnehmung und andere Einflussfaktoren mit. Wir haben gelernt, dass für eine Gruppenanalyse für ein Thema zwei Fragen vollkommen ausreichend sein können, wenn man diese Fragen richtig stellt. Die Grundlagen der Fragebogen-Entwicklung lernt jeder Psychologe im Studium.
Aber von dort ist es doch ein sehr weiter Weg bis zum Beherrschen der Kunst, effiziente und trennscharfe Instrumente zu feilen. Dazu setzen wir eine ganze Reihe von modernen statistischen Verfahren ein. Und nichts geht darüber hinaus, dann noch einmal neu entwickelte Fragen mit Betroffenen zu diskutieren und sorgfältig zu testen. Nur so war es möglich, den psy50 zu entwickeln, der mit 50 kurzen Fragen 22 Themen untersucht. http://psy50.de
Mehr Information dazu finden Sie unter unserem White Paper. Hier soll Ihnen genügen: wir verabscheuen, mit überflüssigen Fragen die Zeit ihrer Mitarbeiter zu verschwenden. Leider gilt das nicht für viele der Fragebögen, die wir im Umlauf sehen und schon gar nicht für manche der üblichen Mitarbeiter Umfragen. Rechnen Sie nur einmal hoch, wie viele Arbeitsstunden allein durch überflüssige Fragen verloren gehen und dann noch einmal über das Rätselraten wegen unscharfen Ergebnissen.
Was die Stressforschung übersehen hatte: FreuSinn®.
Was wäre, wenn 80% ihrer Mitarbeiter morgens beim Aufwachen sich auf die Arbeit freuen? Und was wäre, wenn ebenso viele abends mit dem Gefühl nach Hause gehen etwas Sinnvolles getan zu haben? Ganz einfach: dann hätten wir keine weiteren Fragen, außer ob Sie sich schon bei „Great Place to Work“ für die Champions League beworben haben.
Aber ganz so einfach ist es nicht. Weil Wissenschaft „ist und bleibt was einer ab vom anderen schreibt“ hatten auch wir übersehen, danach zu fragen, ob die Arbeit eigentlich Freude macht. Und damit ist nicht Spaß gemeint und Tischfußball bei der Arbeit. Damit ist das tiefere, erfüllende Gefühl einer dauerhaften Freude gemeint, sowie auf den nächsten Frühling nach einem langen Winter. Aaron Antonovski hat in seinen Forschungen zu Salutogenese darauf hingewiesen, dass das Gefühl zu einem höheren Sinn als nur dem eigenen Nutzen beizutragen die Gesundheit stärkt und Überleben hilft. So kam die Forschung zur Sinnhaftigkeit des Tuns in die Welt.
Inzwischen gibt es zur Sinnhaftigkeit eine umfangreiche wissenschaftliche Literatur. Und sogar molekularbiologische Evidenz. Beispielsweise fand Steven Cole, dass die Abwehrerkennungszellen von Menschen, denen das Gelingen anderer wichtig ist, anders ticken und andere Gene experimentieren, als die Menschen, die nur an ihre eigene Lust und unmittelbare Befriedigung denken. Aber Sinnhaftigkeit allein, immer nur Mutter Theresa, trägt das durch ein ganzes Leben?
Irgendwann ging mir in einem Gespräch mit einem besonders verbohrten Gewerkschaftler, der nur immer die Belastungen die Überstunden sah und nicht, dass die Ingenieure eigentlich große Freude an der Entwicklung hatten der Hut hoch. Denn ich hatte sieben Jahre lang auf einer Intensivstation als Oberarzt gearbeitet und kann mich nicht an einen einzigen Tag erinnern, an dem ich nicht mit Freude morgens zur Arbeit kam. Also bauten wir eine ganz fiese Frage in unsere Fragebögen ein: wenn Sie morgens aufwachen, freuen sich darauf zur Arbeit zu gehen? 20.000 Fragebögen und medizinische Untersuchungen später haben wir das zusammen mit der Frage nach der Sinnhaftigkeit analysiert. Und es zeigt sich: Freude und Sinnhaftigkeit sind Geschwister. Wenn es beiden Geschwistern gut geht, dann zahlt das auf die Gesundheit ein und auf die Produktivität.
Bei einem pharmazeutischen Unternehmen hatten wir Gelegenheit, diese Zusammenhänge genauer zu untersuchen mit sogenannten Strukturgleichungsmodellen. Diese Modelle versuchen, die komplexen Zusammenhänge und Wechselwirkungen zu erklären. Etwas, dass die einfachen Rechenverfahren in der Psychologie nicht können. Und das spannende Ergebnis war: Wenn wir unsere Daten analysierten nur mit den klassischen Stressmodellen von Belastungen und Ressourcen oder startenden Faktoren, der körperlichen und psychischen Gesundheit und dazu dem Gesundheitsverhalten sowie privaten Belastungen dann funktionierte das alles ganz gut so wie es in der wissenschaftlichen Literatur beschrieben ist.
Wenn wir aber die Frage nach Freude und Sinnhaftigkeit sowie nach Zukunftshoffnung dazu stellten, dann passte das Modell nicht nur besser zu den beobachteten Daten sondern es war ganz einfach: Freude und Sinnhaftigkeit vermitteln zwischen den Arbeitsbedingungen unter Gesundheit sowie der Produktivität. 10% mehr Freude oder Sinnhaftigkeit hat einen fünfmal höheren Effekt auf die Gesundheit und die Produktivität, als 10% mehr körperliche Bewegung. Leider gibt es keinen Schrittzähler für Freude und Sinnhaftigkeit. Darum fördern viele Unternehmen noch immer Fitnessstudios für ihre Beschäftigten. Wir empfehlen Ihnen, wenn Sie etwas Effizientes wollen, den FreuSinn zu fördern.