Test: Scharf gegen Liebhaber-Extra-Mikroskopunterstützte-japanisch-Schärfe

KO_BE · 17. März 2013, 11:32:35

Diese Faustregel von - in meiner Erinnerung - mind. 60 bis 70 Messungen kenne ich auch. Aber mich würde mal interessieren, WO das steht und wie man darauf genau kommt?
So gaaanz dunkel erinnere ich mich, dass die Zahl der Messungen bzw. in diesem Fall Meinungen/Aussagen auch davon abhängen, wie viele Ausprägungen die Antworten haben können. Also bei einer "Ja"/"Nein" bzw. "Gut"/"Schlecht" Antwort braucht man eher weniger Probanden (wohl bei den 50), sobald es aber komplexer wird, wird auch die zwingend nötige Grundgesamtheit um ein zuverlässiges/repräsentatives Ergebnis zu haben sehr schnell viel größer. Wird über Wahrscheinlichkeiten gerechnet/bestimmt.

Drei · 17. März 2013, 13:57:29

Zitat von: UbuRoy in 27. November 2012, 09:23:34
...
Das war von vornherein zum Scheitern verurteilt.
Aber schön das es jetzt schriftlich feststeht.

Aber man muss es ausprobiert haben, sonst weiß mans nicht. Es sei denn, man glaubt den Besserwissern. Aber das bessere Wissen kommt von denen meist auch erst im Nachgang.

Kein Ergebnis ist übrigens auch eins.
Für mich überraschend. Ich hätte erwartet, dass zumindest eine Tendenz deutlich wird. Davon kann bei der unterschiedlichen Bewertung keine Rede sein. Auch wenn sich ein leichter Punktvorteil zeigt, für die Eindeutigkeit reicht das aus meiner Sicht nicht.
Das unterschiedliche Empfinden der Tester scheint aber ein durchaus normaler Vorgang zu sein. Man erinnere sich an die unterschiedliche Bewertung von Rasierklingen, die für einen selbst teilweise absolut unverständlich zu sein scheint.
Vor dieser Überlegung ist es ziemlich aussichtslos, jemals eine Tendenz herauslesen zu können, egal wie groß die Stichprobe ist.

Occam · 17. März 2013, 20:39:32

Diese Faustregel, wie viele Messungen man benötigt, ist im Allgemeinen nicht richtig.

Es gibt eine Methode, auf diese Zahl, in der Statistik "Stichprobengröße" genannt, zu kommen ("Stichprobenumfangsplanung" oder "power analysis"). Dabei nutzt man einen Zusammenhang aus zwischen der Größe der Stichprobe, der Effektgröße, der Wahrscheinlichkeit eines Typ-I-Fehlers und der eines Typ-II-Fehlers.

Ich könnte da noch etwas ins Detail gehen, aber ich führe die Faustregel mal ad absurdum - das ist plastischer.

Angenommen das Schärfexperiment wäre durchgeführt worden mit einem Messer "normal geschliffen" und einem Messer "Schlittschuh". Hier wäre die Effektgröße, also der Unterschied im Rasiergefühl zwischen beiden Messern, sehr groß. Da hätte man nur wenige Messungen benötigt, um zu sehen, dass die Frage, welches Messer besser ist, nicht zufällig beantwortet wurde, sondern dass es da einen systematischen Grund gab (nämlich: das eine Messer ist stumpf, das andere rasiert). Mit diesen beiden Messern 70 Versuchspersonen zu verheizen, wäre unwirtschaftlich und unethisch - man stelle sich die ganzen unnötig unrasierten Menschen vor! Schrecklich! ;-)

Ich kenne auch genügend Forschungsberichte, in denen so 20 bis 30 Versuchspersonen teilgenommen haben - und die werden halt auch veröffentlicht. Die Argumentation ist dann die: wenn man mit 30 Leuten keinen Effekt zeigen kann (mit p < 0,05), ist der Effekt zu klein für die Praxis und uninteressant. Ich habe aber auch gehört, dass es bei einigen Fragestellungen in der Konsumentenforschung schon toll ist, wenn man z.B. das Kaufverhalten eines Kunden 1% besser voraussagen kann als jemand, der wild rät - einfach weil 1% von 1 Mio. möglichen Kunden schon recht viele sind. Für solch kleine Effekte braucht man dann aber größere Stichproben - die gehen dann in die hunderte.

Ein anderer Punkt ist allerdings, dass man nach einen Experiment zwar sagen kann, ob man wirklich einen systematischen Unterschied beobachtet hat. Aber die Frage, ob das jetzt auch für die Allgemeinheit gilt, ist abhängig davon, wie gut die Stichprobe die Allgemeinheit repräsentiert. Wenn man z.B. nur Männer mit dünnem Bart teilnehmen lässt, kann man das Ergebnis nicht auf alle Männer anwenden, weil die u.U. dicken Bartwuchs haben und bei denen das Experiment anders ausgegangen wäre. Um diese Frage zu beantworten, wird in Forschungsveröffentlichungen i.d.R. die Stichprobe beschrieben - also z.B. wie viele Männer und Frauen teilgenommen haben.

Test: Scharf gegen Liebhaber-Extra-Mikroskopunterstützte-japanisch-Schärfe

KO_BE

Drei

Occam