Statistik mit Filter: < 2004 / 2004 / 4 Wochen   Auswertungsmethode  
Statistik ohne Filter: < 2004 / 2004 / 4 Wochen  

Auswertungsmethode: Lügen mit Statistik?

Nutzungsstatistiken von Internet-Angeboten sind mit Vorsicht zu geniessen. Übliche Counter auf einer Homepage ("Sie sind der 5.345.852ste Besucher meiner Homepage") sind in der Regel mit einfachsten Mitteln manipulierbar und, sofern ein externer Server die Daten sammelt, aus Datenschutzgründen bedenklich. Die Besucherstatistik von sowi-online wird auf der Grundlage der Protokolldatei des Servers erstellt. Die Auswertung erfolgt mit dem Programm Analog. Dieses Programm bietet gegenüber vielen anderen Programmen drei Vorteile: es ist kostenlos, Analysen und Ausgaben sind sehr differenziert konfigurierbar und sie sind transparent. Das Programm selbst ist zwar wegen umfangreicher "Handarbeit" schwierig zu konfigurieren, nach entsprechender Einarbeitung bietet es aber letztlich mehr Transparenz als einige kommerzielle Programme, bei denen sich die Auswirkungen verschiedener Programmoptionen nicht immer nachvollziehen lassen.

Alle Besucher-Statistiken sind ohne Erläuterungen zur Datenerhebung und -auswertung nahezu wertlos. Eine ungefilterte Auswertung der Serverstatistiken vermittelt ein unangemessenes bzw. höchstens für technische Zwecke hilfreiches Bild der Nachfrage. Verzerrungen entstehen durch Datei-Aufrufe, Pflege der Seiten durch den/die Webmaster selbst, die Suchroboter und durch Proxies.
 

Verzerrungen durch Datei-Aufrufe

Wenn ein Nutzer / eine Nutzerin eine Adresse im Internet aufruft, werden dadurch zumeist eine ganze Reihe von Anfragen an den Server ausgelöst: eingebettete Grafiken, verknüpfte Formatvorlagen (Stylesheets), Frames usw.. Der Aufruf jeder dieser Dateien wird jeweils für sich als eine Anfrage verzeichnet. Ohne Filterung geht z.B. der Besuch der Homepage von sowi-online mit bis zu zwölf Zugriffen in die Statistik ein. Um ein realistisches Bild der Nachfrage nach Inhalten zu erhalten, filtert sowi-online Aufrufe folgender Dateien aus: Grafiken, Stylesheets, javascript-Dateien; alle Dateien, die nicht im Hauptfenster erscheinen (Navigationsleisten etc.) und Dateien, die nur der Weiterleitung dienen. Dieser Filter reduziert die Kategorie "Erfolgreich bearbeitete Seitenanfragen" im Angebot von sowi-online um ca. 65%.
 

Verzerrungen durch Pflegearbeiten

Allein eine automatisierte Überprüfung der Links schlägt sich ohne Filter mit mehreren tausend Zugriffen in der Statistik nieder. Dieser Effekt lässt sich bei sowi-online nicht vollständig ausfiltern, da zwar die meisten, aber eben nicht alle Wartungsarbeiten von Arbeitsplatzrechnern mit fester oder nachvollziebarer IP-Adresse erfolgen. Zugriffe von Arbeitsplatzrechnern der technischen Betreuer bei sowi-online sind aber aus der Statistik herausgefiltert. Dadurch reduzieren sich die Seitenanfragen um weitere ca. 5%.
 

Verzerrungen durch Suchroboter

Einen nicht unerheblichen Einfluss haben die "Spider", "Robots" oder "Crawler" der Suchmaschinen. Einmal auf eine Website angesetzt, durchforsten sie in unregelmässigen Abständen das Angebot und erhöhen die Zahl der Zugriffe. Allein die Spider von Google sind für mehr als 10 % der Serverzugriffe bei sowi-online verantwortlich. Die Ausfilterung dieses Zugriffs-Typs gestaltet sich insofern schwierig, als die Namen und IP-Adressen der Spider nur z.T. bekannt sind bzw. nicht immer einem bestimmten Schema folgen. Die Ausfilterung von Rechnern mit den Namensbestandteilen "robot", "spider", "crawler" etc. belässt daher Spider-Zugriffe in der Statistik. Sowi-online kombiniert deshalb die Ausfilterung von Spidern, die sich durch Namensbestandteile identifizieren lassen, mit einer zweiten Methode: Zusätzlich werden alle Zugriffe von Rechnern ausgeschlossen, die eine Datei mit dem Namen "robots.txt" auf dem Server gesucht haben. Diese Datei gibt Suchmaschinen Auskunft darüber, welche Teile eines Web-Angebots von Suchmaschinen nicht indexiert werden sollen. Weil der Zugriff auf diese Datei auch durch normale User erfolgen kann, werden im Zweifel eher zu viele Zugriffe ausgefiltert. Durch beide Methoden werden zusammen ca. 25% der Seitenanfragen zusätzlich ausgefiltert.
 

Verzerrungen durch Proxies

Methodisch nicht kontrollierbar wirken Proxies. Der Zugriff auf eine Seite erfolgt hier nicht direkt vom Browser einer Nutzerin auf den Server des Anbieters, sondern unter Zwischenschaltung eines Cache. Ruft ein Nutzer eine Seite auf, wird zunächst der Cache des Proxies abgefragt. Ist die Seite dort nicht vorhanden, wird sie vom Proxy in den Cache geladen. Die Aufrufe von anderen NutzerInnen des gleichen Proxy-Servers werden (innerhalb der Verfalldauer des Cache) von diesem und nicht vom eigentlichen Anbieter bedient. Alle diese Zugriffe erscheinen in der Statistik des Anbieters, also in diesem Fall von sowi-online, lediglich als ein einziger Zugriff. Proxies machen derzeit etwa 4 - 5 % der Seitenanfragen an sowi-online aus. Ob sich hinter diesen Zugriffen der Proxies eine grössere Anzahl von Zugriffen der angeschlossenen NutzerInnen verbirgt, ist nicht feststellbar.

 


 

 (c) 2000-2004 sowi-online e.V., Bielefeld  Verantwortlich für diese Seite: Norbert Jacke  URL des Dokuments: http://www.sowi-online.de/statistik/methode.htm  Veröffentlichungsdatum: 20.09.2001  Letzte Aktualisierung: 09.03.2004