Der Ratingscore – Eine statistische Analyse von Bewertungskennzahlen

Gastbeitrag von Tim Scheffczyk

Zusammenfassung

Digitale Marktplätze dienen ebenso wie klassische Handelsplätze dazu, Angebot und Nachfrage zu koordinieren. Charakteristisch für beide Marktformen ist das Vorliegen asymmetrischer Informationsverteilung zwischen den Verkäufern und potentiellen Käufern von Produkten. Der Verkäufer besitzt gegenüber einem (potentiellen) Käufer einen Informationsvorteil. Auf den klassischen Marktplätzen wird diese Asymmetrie beispielsweise durch das Austesten von Produkten abgebaut (Screenings). Auf digitalen Märkten besteht diese Testmöglichkeit zwar in Form von einem Produktbezug ohne Kaufverpflichtung, allerdings ist dies mitunter mit einem erheblichen Aufwand verbunden. Dem Screening, d. h. dem Ausweisen von Produktrezensionen von Käufern kommt hier eine deutlich größere Bedeutung zu. Eine Form des digitalen Screenings stellen Online-Produktbewertungen dar. Auf einer Skala von zumeist 1-5 Sternen (Sternskala) kann ein Käufer nach Produktbezug seine subjektive Bewertung abgeben. Durch die Aggregation von allen Produktbewertungen als Punktmittelwert entsteht ein scheinbar objektives Maß. Der Durchschnittswert der Produktbewertungen ist der Indikator für die Produktqualität und kommt einem Qualitätssiegel gleich. Dieser Durchschnittswert besitzt jedoch aus rein statistischer Perspektive vier verdeckte Schwachpunkte, welche hier untersucht werden. Diese Schwachpunkte sind allesamt nicht direkt aus der Punktbewertung ableitbar. Die Berücksichtigung dieser Schwachpunkte kann dazu führen, dass ein Produkt im Vergleich zu einem Referenzprodukt eine absolut gesehen höhere Bewertung besitzt, statistisch jedoch als schlechter einzustufen ist. Im extremsten Fall ist eine mittlere Bewertung von 2,5 gegenüber einer Bewertung von 5 bei maximal 5 möglichen Punkten besser einzustufen. Dies tritt dann ein, wenn das absolut besser bewertete Produkt sehr wenige Bewertungen und das schlechter absolut sehr viele Bewertungen aufweist. Die statistische Einstufung wird anhand des Ratingscore vorgenommen. Der Ratingscore berücksichtigt neben der mittleren Produktbewertung die Skalierung, sowie die Bewertungsanzahl.

Für die Berechnung des Ratingscores gilt es demnach sowohl den Bewertungsmittelwert, wie auch die Skalierung zu berücksichtigen. Die oft mitgelieferte Information x von 5 Sterne suggeriert mitunter eine zu hohe Bewertung, sofern es sich um eine Skala handelt, die von der Normalskala abweicht (z.B. Sternskala). Zudem ist die Anzahl der Bewertungen von entscheidender Bedeutung und kann in Verbindung mit der Skalentransformation auf die Normalskala dazu führen, dass Produkte mit einer deutlich „schlechteren“ absoluten Bewertung unter der Berücksichtigung der genannten Aspekte besser einzuschätzen sind.

1) Normalskala

Der Nullpunkt , d.h. der Punktwert mit der schlechtestmöglichen Bewertung, ist nicht einheitlich. Nicht wenige Bewertungsportale setzen diesen Nullpunkt auf einen Punkt (Stern) fest. Eine Bewertung von einem Stern entspricht dann einer relativen Zufriedenheitsbewertung von 0 %, obwohl die Zusammenfassung 1 von 5 Sternen eine Zufriedenheitsbewertung von 20 % (1/5) vermuten lässt. Durch das Heraufsetzen des Nullpunktes wird dem uninformierten Leser daher im Vergleich zum natürlichen Nullpunkt eine höhere Bewertung suggeriert. 

Eine durchschnittliche Produktbewertung von 3,75 auf einer Skala von 0-5 (Produkt 1) entspricht einer höheren relativen als eine mittlere Produktbewertung von 3,9 (Produkt 2) auf eine Skala von 1-5. Ermittelt man die relative Zufriedenheitsbewertung auf der Normalskala von 0-5 erhält man für Produkt 1 einen Wert in Höhe von 75 % und für Produkt 72,5 %. Ergo ist neben der Information über die Punktobergrenze auch das Wissen über die Punktuntergrenze essentiell, um über die Standardisierung auf die Normalskala eine valide Aussage über die relativen Bewertung abgeben zu können. Vergleicht man Produkte auf dem gleichen Portal, so kann man in der Regel davon ausgehen, dass der Nullpunkt einheitlich auf den Punktwert 0 oder Punktwert 1 skaliert ist. Bewertungsportale sollten unisono die Einheitsskala verwenden, um sowohl korrekte Interpretation durch den Leser als auch die direkte Vergleichbarkeit der Bewertungsmittelwerte sicherzustellen.

2) Bewertungsanzahl

Die durchschnittlichen Produktbewertungen setzen sich in der Regel aus unterschiedlich vielen Bewertungen zusammen. Je mehr Bewertungen ein Produkt besitzt, desto reliabler ist aufgrund des Gesetzes der großen Zahl dessen Durchschnittswert. Statistisch gesehen sinkt durch jede Bewertung die Standardabweichung des Bewertungsmittelwertes. Ein Produkt mit schlechtem Bewertungsmittelwert, aber einer großen Anzahl an Bewertungen ist daher nicht zwangsläufig schlechter als ein Produkt mit guter Bewertung basierend auf wenigen Bewertungen.

3) Unabhängigkeit der Bewertungen

Aufgrund der Tatsache, dass der bisherige Bewertungsmittelwert öffentlich einsehbar ist, handelt es sich um abhängige Bewertungen. Dies liegt darin begründet, dass der bisherige Bewertungsmittelwert als Ankerpunkt gesetzt wird. Ein potentieller Bewerter berücksichtigt diesen Anker zumindest unbewusst. Zum einen kann die Entscheidung, ob überhaupt eine Bewertung abgegeben wird, hiervon abhängen. Zum anderen wird die Bewertung an sich von diesem Anker beeinflusst. Ein Teil der Differenzen zwischen den Bewertungen von Produkten ist daher auf den sog. Ankereffekt zurückzuführen. Der Ankerindex ist ein Maß, um die Höhe des Ankereffektes zu quantitativ zu messen. In der Regel weisen Studien einen positiven Ankerindex aus. Dies würde bedeuten, dass Produkte mit einem überdurchschnittlichen Bewertungsmittelwert allein aufgrund dessen eine höhere Produktbewertung erhalten als durchschnittliche Produkte. Eine Möglichkeit den Ankereffekt zu messen, bestünde in diesem Kontext darin, zwei Probandengruppen zu bitten, ein identisches Produkt zu bewerten und unterschiedliche fiktive bisherige Bewertungsmittelwerte als Information mitzugeben. Die Unabhängigkeit ist dadurch zu gewährleisten, indem der Bewertungsmittelwert erst nach einer abgegeben Bewertung ersichtlich wird.

4) Fake-Bewertungen

Die Struktur von offenen Märkten führt dazu, dass sich die darauf angebotenen Produkte in einem Wettbewerb befinden. Die beiden entscheidenden Kaufkriterien stellen für potentielle Nachfrager zum einen der Preis und zum anderen die Qualität dar. Die Produktbewertungen dienen als Qualitätsindikator. Die Gesamtheit der Konsumenten ist an einem offenen und fairen Wettbewerb interessiert, der dazu führt, dass qualitativ minderwertige Produkte durch schlechte Produktbewertungen aus dem Markt scheiden. Jeder Anbieter eines Produktes hat natürlicherweise einen Anreiz sein eigenes Produkt zu bewerben. Ein Anbieter kann die eigenen Produktbewertungen künstlich verbessern, indem er fingiert positive Bewertungen entweder selbst abgibt oder abgeben lässt. Wettbewerbern ist es jedoch ebenfalls möglich falsch negative Bewertungen zu Konkurrenzprodukten abzugeben. Durch die vorhandenen Anreizstrukturen können Fake-Bewertungen sowohl positive wie auch negative Verzerrungen verursachen. Es handelt sich hierbei um ein klassisches „Gefangenen-Dilemma“. Dieser Anreiz ist der Grund dafür, dass in den Medien immer wieder von Fake-Bewertungen zu lesen ist. Es gibt Algorithmen, um diese Fake-Bewertungen zu identifizieren. Jedoch ist keiner dieser Algorithmen in der Lage Fake-Bewertungen eindeutig zu enttarnen. Unter Berücksichtigung der beiden Anreizstrukturen für den Wettbewerber und dessen Wettbewerbskonkurrenten ist ohne weitere Informationen davon auszugehen, dass sich falsch positive und falsch negative Bewertungen langfristig kompensieren. Der Erwartungswert der Bewertungsmittelwertes ist unter dieser Annahme unverzerrt. Fake-Bewertungen bewirken jedoch eine Varianzsteigerung des Bewertungsmittelwertes. Es ist daher empfehlenswert Produktbewertungen mit vielen Bewertungen auf möglichst vielen unterschiedlichen Portalen zu Rate zu ziehen, um eine Risikodiversifikation zu erreichen.

Statistische Bewertungsanalyse

Die exemplarische Bewertungsanalyse zeigt die Berechnung des Ratingscores auf. Der Ratingscore wird neben dem Bewertungsmittelwert auch auch anhand der Skalierung, sowie der Bewertungsanzahl kalkuliert. Das folgende Beispiel illustriert die Umkehr der Bewertungsreihenfolge durch die Kombination der beiden Komponenten Skalierung und Bewertungsanzahl.

Produkt A:
Bewertungsskala [1-5]
Bewertungsmittelwert: 4,2
Bewertungsanzahl: 100

Produkt B:
Bewertungsskala [0-5]
Bewertungsmittelwert: 3,0
Bewertungsanzahl: 900

Ratingscore Produkt A:          8,44
Ratingscore Produkt B:          8,78

Produkt A hat eine Bewertung von 4,20 von 5 möglichen Sternen. Produkt B hingegen 3,0 von 5 möglichen Sternen. Anhand dieser Informationen erscheint Produkt A deutlich besser bewertet zu sein als Produkt B. Doch der Schein kann hier trügerisch sein. Tatsächlich ist Produkt B gegenüber Produkt A zu bevorzugen. Doch wie ist das möglich ? Der Ratingscore von Produkt B ist höher als derjenige von Produkt A, obwohl der Berechnungsmittelwert um 1,2 Punkte tiefer liegt. Der Ratingscore berücksichtigt neben dem Bewertungsmittelwert zwei weitere Informationen: Zum einen die Untergrenze der Bewertungsskala, d. h. die Mindestanzahl an Sternen, die es zu vergeben gilt, sowie die Anzahl der abgegebenen Bewertungen. Die Untergrenze der Bewertungsskala von Produkt A beträgt 1, wohingegen diejenige von Produkt B der natürlichen Untergrenze von 0 entspricht (Normalskala). Produkt erscheint A durch das Heraufsetzen der Untergrenze besser bewertet als es tatsächlich ist. Durch die Transformation der Produktbewertung für A sinkt der Berechnungsmittelwert um 0,2 Punkte auf 4,0 (siehe Tabelle Skalentransformation). Die Standardabweichung des Bewertungsmittelwertes liegt für Produkt A und Produkt B bei 0,2 respektive 0,06 Punkten. Die Abweichung vom hypothetischen Gleichverteilungswert der Normalskala in Höhe von 2,5 beträgt 1,5 bzw. 0,5. Die Ratingscores der Produkte entsprechen daher den Werten 8,44 respektive 8,78 . Durch die Transformation des Bewertungsmittelwertes für Produkt A auf die Normalskala, sowie vor allem durch die Berücksichtigung der differierenden Bewertungsanzahlen  ist der Ratingscore von Produkt B höher als derjenige des Produktes A (siehe Tabellen Ratingscore).

Zusammenfassend ist als Faustregel abzuleiten, dass ein schlechter bewertetes Produkt einen höheren Ratingscore besitzt, wenn die Bewertungsanzahl größer ist als das quadrierte Abweichungsdifferenzverhältnis vom Gleichverteilungsmittelwert (2,5). D.h. ein Bewertungsmittelwert von 3,5 (X) ist besser einzustufen als ein Bewertungsmittelwert von 4,5 (Y), sofern die Bewertungsanzahl des schlechter bewerteten (X) mindestens viermal so groß ist wie diejenige des besser bewerteten Produktes (Y).

Abweichungsdifferenz (X): 4,5-2,5=2;
Abweichungsdifferenz (Y): 3,5-2,5=1;

Abweichungsdifferenzverhältnis: 2 / 1 = 2;
Quadriertes Abweichungsdifferenzverhältnis: 2² = 4 

Skalentransformation

Skalentransformation zwischen Sternskala (1-5), Relativer Bewertung in Prozent und Normskala (0-5); © Tim Scheffczyk, M. Sc. VWL (Data Analyst)

Ratingscore (Normalskala)

© Tim Scheffczyk, M. Sc. VWL (Data Analyst)

Ratingscore (Sternskala)

© Tim Scheffczyk, M. Sc. VWL (Data Analyst)

Rangliste der Ratingscores (Sternskala)

© Tim Scheffczyk, M. Sc. VWL (Data Analyst)

Perzentile der Ratingscores (Sternskala)

© Tim Scheffczyk, M. Sc. VWL (Data Analyst)

Freue mich über Kommentare!