Web-Metriken Teil 4: Messen und Experimentieren

Web-Metriken_Messen
Web-Metriken sind simple quantitative Werte, die keine User Experience abbilden, aber Indizien für Problembereiche liefern.
In diesem Blogbeitrag geht es darum, auf welche Art und Weise Sie mit Hilfe von Web-Analytics-Software systematische Tests durchführen können, die Ihnen z. B. anzeigen, ob die Landing Page-Variante 1 oder die Landing Page-Variante 2 höhere Konversionsraten aufweist, d. h. mehr Besucher dazu bringt, das Kontakt-Formular vollständig auszufüllen. Es werden im Folgenden drei Arten von quantitativen Tests thematisiert: Pre-Post-Tests, A/B/n-Tests und Multivariate Tests.

Sequenzielles Messen (Pre-Post-Tests)

Wenn in einer Kampagne z. B. ein Business-Blog mit dem Ziel installiert wird, mehr Traffic auf die Webseite zu ziehen, dann können Sie z. B. einen Monat nach dem Kampagnenende, das durch den zehnten veröffentlichten Blog Post markiert wird, vergleichen, ob die Anzahl an Unique Visitors (Users) und Visits (Sessions) gestiegen ist.
Wenn Sie in den Monaten bis zum Start der Kampagne z. B. stets um die 1000 Besucher hatte und danach 1300, dann spricht das für einen positiven Effekt der Kampagne.

Aber solche sequenziellen Messungen bzw. Pre-Post-Tests – also Vorher-Nachher-Vergleiche – sind durchaus nicht unproblematisch. Der Vorteil ist, dass sie sehr schnell durchgeführt werden können. Der Nachteil aber liegt darin, dass Sie durch solche Vergleiche leicht auf die falsche Fährte geführt werden können. Womöglich wäre auch ohne diese Kampagne die Anzahl der Besucher auf 1300 gestiegen – aus welchen Gründen auch immer. Vielleicht ist ein Wettbewerber vom Markt verschwunden oder er hat die Produktpreise drastisch erhöht oder aus Kostengründen eine Pay-Per-Click-Anzeigenkampagne eingestellt oder Google hat seine Algorithmen zu Ihrem Vorteil verändert.

In diesem Fall würden Sie bei einem Pre-Post-Test den Anstieg um ca. 300 Besucher fälschlich der Blog-Kampagne zuschreiben. Es könnte aber auch sein, dass die Anzahl an Besuchern ohne Kampagne auf 800 geschrumpft wäre. In diesem Fall wäre der positive Effekt, den die Kampagne auf den Traffic ausgeübt hat, sehr viel höher zu veranschlagen als der Vorher-Nachher-Vergleich anzeigt. Kurzum, es gibt eine Vielzahl möglicher Einflussfaktoren, die Sie mit sequenziellem Testen nicht kontrollieren können.

Chris Goward, ein Conversion-Rate-Optimization (CRO)-Experte, geht sogar so weit, diese Methode als völlig wertlos einzustufen:

This [the Before & After method] is a dangerous practice. It ignores so many uncontrollable, external influences and statistical uncertainties as to make the result entirely meaningless. That’s right – I said meaningless.
Dies [Die Vorher & Nachher-Methode] ist eine gefährlich Praktik. Sie ignoriert so viele unkontrollierbare externe Einflüsse und statistische Unsicherheiten, dass das Ergebnis völlig bedeutungslos ist. Das ist richtig – ich sagte bedeutungslos.
– Chris Goward, “You Should Test That!”, Sybex / Wiley 2013, S. 29

Ähnlich, aber nicht ganz so radikal, äußert sich der Konversions-Experte Tim Ash. In Bezug auf Landing-Page-Tests, bei denen herausgefunden werden soll, welche von zwei Landing Pages besser konvertiert, schreibt Ash in seinem Buch „Landing Page Optimization“:

In landing page testing you should always try to collect data from your original version and your tested alternatives in parallel. This will allow you to control for (or at least detect and factor in) any changes in the external environment. Only use sequential testing as a last resort.
Beim Testen von Landing Pages sollten Sie immer versuchen, Daten über die Originalversion und Ihre getestete Alternative parallel zu erheben. Das erlaubt es Ihnen, alle Änderungen in der externen Umwelt zu kontrollieren (oder wenigstens zu bemerken und mit einzubeziehen). Verwenden sie sequenzielle Tests nur als letztes Mittel.
– Tim Ash, Landing Page Optimization, Sybex / Wiley 2008

Das Problem beim parallelen Testen besteht darin, dass es nur für Seiten mit hohem Traffic in einem annehmbaren Zeitrahmen auf statistisch saubere Weise durchführbar ist. Konversions-Experte Goward sagt über paralleles Testen:

Although testing the duration to achieve statistical significance is notoriously unpredictable, as a general rule of thumb, you’ll need between 100 and 400 conversions per challenger. We’ve had tests complete with fewer and some that have needed 10 times more, though.
Obgleich die Test-Dauer zur Erreichung statistischer Signifikanz notorisch unvorhersehbar ist, so braucht man, über den Daumen gepeilt, zwischen 100 und 400 Konversionen pro Herausforderer (d. h. hier: pro Test-Variante). Wir haben schon Tests abgeschlossen mit weniger Konversionen und auch einige, die zehnmal mehr erforderten.
– Chris Goward, “You Should Test That!”, S. 288

Für B2B-Seiten mittelständischer Unternehmen gilt zumeist, dass die Besucherzahlen und andere Metriken über einen längeren Zeitraum ziemlich stabil sind.
Wenn parallele A/B-Tests hier nicht praktikabel sind und sich im Wettbewerbsumfeld keine Änderungen (oder andere Einflussfaktoren) identifizieren lassen, dann ist eine sequenzielle Messung aber durchaus als empirischer Indikator zu werten, der in Richtung Kampagnen-Erfolg oder -Misserfolg deutet. Wenn man hinzunimmt, dass Kampagnen mit mehreren Metriken gemessen werden und alle drei oder vier verwendeten Metriken in die gleiche Richtung weisen, dann ist dies also schon ein echtes Indiz für Erfolg oder Misserfolg einer durchgeführten Kampagne.

A/B/n Split-Tests und Multivariate Tests

A/B/n-Tests und Multivariate Tests sind statistische Experimente, sich ebenfalls mit den gängigen Web Analytics-Tools durchführen lassen.
Aber schon einfache A/B-Tests, bei denen Sie z. B. Ihre Original-Landing-Page (Kontrollseite) gegen eine neue Landing Page-Variante (Challenger) testen können, benötigen wie gesagt hohes Traffic-Volumen, um einen statistisch signifikanten Sieger in einem akzeptablen Zeitrahmen zu ermitteln.
Bei A/B/C- oder A/B/C/D-Tests usw., bei denen also mehrere Varianten gegen die Originalseite getestet werden, dauert es bei gleichem Traffic entsprechend länger bis ein Sieger feststeht, denn der ankommende Traffic wird auf mehr Seiten (A, B, C…) verteilt. Bei einem A/B-Test, den Sie z. B. mit Google Analytics durchführen können, werden 50 % der Besucher nach dem Zufallsprinzip auf die Kontroll- und 50 % auf die Challenger-Seite geleitet. Bei einem A/B/C-Test werden 33,3% auf jede Seite geleitet und bei einem A/B/C/D-Test 25%. (Wenn Sie in Google Analytics ein Experiment durchführen wollen, dann klicken Sie links in Verhalten (Behavior) und innerhalb dieser Rubrik in Experimente (Experiments). Joel J. Davis beschreibt in den Kapiteln 77 bis 80 seines Buches „Google Analytics Demystified“ anschaulich, wie Sie Experimente in Google Analytics durchführen können.

Statistisch komplexer sind sogenannte Multivariate Tests (MVT), die ein noch höheres Traffic-Volumen als A/B/n-Split-Tests voraussetzen:

The difference between A/B/n testing and MVT is that MVT swaps content within multiple sections on the same page and compares all the possible combinations. With MVT, each variable is tested against each other variables.
Der Unterschied zwischen A/B/n-Tests und MVT besteht darin, dass MVT Inhalte innerhalb mehrere Abschnitte auf derselben Seite vertauscht und alle möglichen Kombinationen miteinander vergleicht. Bei MVT wir jede Variable gegen jede andere Variable getestet.
– Ebd., S. 289

Wenn eine Testseite z. B. aus drei „Sections“ besteht ( z. B. Abschnitt 1 oben, Abschnitt 2 Mitte rechts, Abschnitt 3 unten) und für jede „Section“ 3 inhaltliche Alternativen getestet werden (A1/2/3; B1/2/3; C1/2/3), dann gibt es zahlreiche unterschiedliche Testkombinationen. Eine ist z. B. A1-B2-C2, eine andere, A3-B1-C2 , eine weitere A3-B3-C3 usw. Insgesamt gibt es 3 (A1/2/3) mal 3 (B1/2/3) mal 3 (C1/2/3) = 27 Kombinationen. MVT ist mathematisch komplexer als A/B/n und stellt daher höhere Ansprüche an die Test-Software. Konversions-Experten wie Chris Goward und Tim Ash geben aber auch für Webseiten mit extrem hohem Traffic A/B/n-Tests in der Regel den Vorzug:

…multivariate testing does play a role in your conversion rate optimization strategy, but it shouldn’t play the leading part.
… Multivariates Testen spielt eine Rolle in Ihrer CRO-Strategie, aber es sollte nicht die Hauptrolle spielen.
– Ebd.

Selbst bei statistischen Experimenten mit hohen Konfidenzintervallen (typisch: 95 %) haben Sie selbstverständlich keine Garantie, dass Ihr Sieger, z. B. die Challenger-Seite in einem A/B-Test, wirklich die bessere bzw. konversionsstärkere Seite ist. Aber Sie werden (bei einem Konfidenzintervall von 95 %) in 19 von 20 Fällen richtig liegen, wenn Sie sich dazu entschließen, Ihre Originalseite durch die Sieger-Seite zu ersetzen.
Metriken und Experimente liefern keine strengen Beweise, aber gute Gründe, um plausible Entscheidungen zu treffen.

Learnings aus Teil 4 der Blogreihe zu Webmetriken

Learning 9: Sequenzielles Messen (Pre Post Tests) ist kein wissenschaftlich sauberes Messen und nur als grober Indikator für Erfolg oder Misserfolg zu werten (quick and dirty).

Learning 10: A/B/n-Tests setzen viel Traffic bzw. hohe Conversions voraus oder sind sehr zeitaufwendig, führen aber zu statistisch signifikanten Ergebnissen.

Learning 11: Multivariate Tests setzen noch wesentlich mehr Traffic als A/B/n-Tests voraus. In der Regel sind A/B/n-Tests die bessere Wahl.





qualifizierte Leads mit Inbound Marketing generieren



Web-Metriken Teil 4: Messen und Experimentieren wurde zuletzt geändert: Januar 12th, 2016 von Roland Burkholz

Leave a Comment

*