Auswertungsmethode: Lügen mit Statistik?
Nutzungsstatistiken von Internet-Angeboten sind mit Vorsicht zu geniessen. Übliche Counter auf einer Homepage ("Sie sind der 5.345.852ste Besucher meiner Homepage") sind in der Regel mit einfachsten Mitteln manipulierbar und, sofern ein externer Server die Daten sammelt, aus Datenschutzgründen bedenklich. Die Besucherstatistik von sowi-online wird auf der Grundlage der Protokolldatei des Servers erstellt. Die Auswertung erfolgt mit dem Programm Analog. Dieses Programm bietet gegenüber vielen anderen Programmen drei Vorteile: es ist kostenlos, Analysen und Ausgaben sind sehr differenziert konfigurierbar und sie sind transparent. Das Programm selbst ist zwar wegen umfangreicher "Handarbeit" schwierig zu konfigurieren, nach entsprechender Einarbeitung bietet es aber letztlich mehr Transparenz als einige kommerzielle Programme, bei denen sich die Auswirkungen verschiedener Programmoptionen nicht immer nachvollziehen lassen.
Alle Besucher-Statistiken sind ohne Erläuterungen zur Datenerhebung und
-auswertung nahezu wertlos. Eine ungefilterte Auswertung der Serverstatistiken vermittelt ein unangemessenes bzw. höchstens für technische Zwecke
hilfreiches Bild der Nachfrage. Verzerrungen entstehen durch Datei-Aufrufe, Pflege der Seiten durch den/die Webmaster selbst, die Suchroboter und durch Proxies.
Verzerrungen durch Datei-Aufrufe
Wenn ein Nutzer / eine Nutzerin eine Adresse im Internet aufruft, werden dadurch zumeist eine ganze Reihe von
Anfragen an den Server ausgelöst: eingebettete Grafiken, verknüpfte Formatvorlagen (Stylesheets), Frames usw..
Der Aufruf jeder dieser Dateien wird jeweils für sich als eine Anfrage verzeichnet. Ohne Filterung geht z.B. der Besuch der Homepage
von sowi-online mit bis zu zwölf Zugriffen in die Statistik ein. Um ein realistisches Bild der Nachfrage nach Inhalten zu
erhalten, filtert sowi-online Aufrufe folgender Dateien aus: Grafiken, Stylesheets, javascript-Dateien; alle Dateien, die nicht
im Hauptfenster erscheinen (Navigationsleisten etc.) und Dateien, die nur der Weiterleitung dienen. Dieser Filter reduziert die
Kategorie "Erfolgreich bearbeitete Seitenanfragen" im Angebot von sowi-online um ca. 65%.
Verzerrungen durch Pflegearbeiten
Allein eine automatisierte Überprüfung der Links schlägt sich ohne Filter mit mehreren tausend Zugriffen in der Statistik nieder.
Dieser Effekt lässt sich bei sowi-online nicht vollständig ausfiltern, da zwar die meisten, aber eben nicht alle Wartungsarbeiten
von Arbeitsplatzrechnern mit fester oder nachvollziebarer IP-Adresse erfolgen. Zugriffe von Arbeitsplatzrechnern der technischen
Betreuer bei sowi-online sind aber aus der Statistik herausgefiltert. Dadurch reduzieren sich die Seitenanfragen
um weitere ca. 5%.
Verzerrungen durch Suchroboter
Einen nicht unerheblichen Einfluss haben die "Spider", "Robots" oder "Crawler" der Suchmaschinen. Einmal auf eine Website
angesetzt, durchforsten sie in unregelmässigen Abständen das Angebot und erhöhen die Zahl der Zugriffe. Allein
die Spider von Google sind für mehr als 10 % der Serverzugriffe bei sowi-online verantwortlich.
Die Ausfilterung dieses Zugriffs-Typs gestaltet sich insofern schwierig, als die Namen und IP-Adressen der Spider nur z.T.
bekannt sind bzw. nicht immer einem bestimmten Schema folgen. Die Ausfilterung von Rechnern mit den Namensbestandteilen
"robot", "spider", "crawler" etc. belässt daher Spider-Zugriffe in der Statistik. Sowi-online kombiniert deshalb
die Ausfilterung von Spidern, die sich durch Namensbestandteile identifizieren lassen, mit einer zweiten Methode:
Zusätzlich werden alle Zugriffe von Rechnern ausgeschlossen, die eine Datei mit dem Namen "robots.txt" auf dem
Server gesucht haben. Diese Datei gibt Suchmaschinen Auskunft darüber, welche Teile eines Web-Angebots von
Suchmaschinen nicht indexiert werden sollen. Weil der Zugriff auf diese Datei auch durch normale User erfolgen
kann, werden im Zweifel eher zu viele Zugriffe ausgefiltert. Durch beide Methoden werden zusammen ca. 25%
der Seitenanfragen zusätzlich ausgefiltert.
Verzerrungen durch Proxies
Methodisch nicht kontrollierbar wirken Proxies. Der Zugriff auf eine Seite erfolgt hier nicht direkt vom Browser einer Nutzerin auf den Server des Anbieters, sondern unter Zwischenschaltung eines Cache. Ruft ein Nutzer eine Seite auf, wird zunächst der Cache des Proxies abgefragt. Ist die Seite dort nicht vorhanden, wird sie vom Proxy in den Cache geladen. Die Aufrufe von anderen NutzerInnen des gleichen Proxy-Servers werden (innerhalb der Verfalldauer des Cache) von diesem und nicht vom eigentlichen Anbieter bedient. Alle diese Zugriffe erscheinen in der Statistik des Anbieters, also in diesem Fall von sowi-online, lediglich als ein einziger Zugriff. Proxies machen derzeit etwa 4 - 5 % der Seitenanfragen an sowi-online aus. Ob sich hinter diesen Zugriffen der Proxies eine grössere Anzahl von Zugriffen der angeschlossenen NutzerInnen verbirgt, ist nicht feststellbar.
(c) 2000-2004 sowi-online e.V., Bielefeld
Verantwortlich für diese Seite: Norbert Jacke
URL des Dokuments: http://www.sowi-online.de/statistik/methode.htm
Veröffentlichungsdatum: 20.09.2001
Letzte Aktualisierung: 09.03.2004
