Webalizer
Webalizer ist ein Programm zur Logdateianalyse eines Webservers, das Zugriffsstatistiken im HTML-Format erzeugt. Mittels Auswertung von Zugriffs- und Auslastungs-Logdateien können damit Website-Analysen erstellt werden. Der Webalizer ist auch heute noch ein beliebtes Webserver-Verwaltungswerkzeug.
Die Hauptseite von Webalizer schlüsselt den Verkehr eines Jahres nach Monaten auf. Dabei wird grundsätzlich unterschieden zwischen:
- Hits - Anfragen an den Webserver
- Files - Anzahl der übertragenen Dateien, einschliesslich CSS-Dateien, Grafiken usw.
- Sites
- Visits - Anzahl der Besucher mit unterschiedlicher IP-Adresse
- Pages - Anzahl der ausgelieferten Seiten
- KByte
Zusätzlich wird der Antwortcode des Webservers überwacht: Gibt es Einträge mit Rückgabewert 404, so deutet das auf ungültige Links innerhalb der Seite.
Zu den Forks von Webalizer gehören die folgenden.
- awffull
- Webalizer Xtended
- Webalizer Teria
- Stone Steps Webalizer - vor allem geeignet beim Einsatz mit dynamischen Webseiten. Auf Wunsch filtert er die Anfrageparameter aus, die in bestimmten Szenarien die Statistik bis zur Unbrauchbarkeit hin verfälschen.
- Bennington College Webalizer
- Geolizer
- Webdruid
- Webalizer Streaming
Installation
Ubuntu 7.04 Feisty Fawn
# apt-get install webalizer
Konfiguration
Konfiguration von Webalizer in der Datei "/etc/webalizer/webalizer.conf".
LogFile /var/log/apache2/access.log OutputDir /var/www/webalizer HTMLBody <BODY BGCOLOR="#FFFFFF" TEXT="#000000" LINK="#0000FF" VLINK="#FF0000"> TopSites 50 TopKSites 50 TopURLs 50 TopKURLs 50 TopReferrers 200 TopAgents 50 TopCountries 50 TopEntry 50 TopExit 50 TopSearch 200 TopUsers 50
Verwendung
Aufruf.
# webalizer
FAQ
Error: Skipping oversized log record
# webalizer Webalizer V2.01-10 (Linux 2.6.18-4-vserver-686) locale: de_CH.UTF-8 Verwende Protokolldatei /var/log/apache2/access.log (clf) Using default GeoIP database Erzeuge Dateien in /var/www/webalizer Rechnername für Bericht ist 'xxxx' Lese Datei mit historischen Daten... webalizer.hist Error: Skipping oversized log record Error: Skipping oversized log record Error: Skipping oversized log record Erzeuge Bericht für September 2007 Erzeuge Zusammenfassung Speichere historische Daten... 252146 Einträge (149 ignoriert, 3 ungültig) in 157.50 Sekunden, 1600/sec
Die Meldung "Error: Skipping oversized log record" erscheint offenbar, wenn eine überlange Zeile übersprungen wurde. Vermutlich wird eine solche durch Würmer oder Viren verursacht, die sich auf irgendwelche Schwachstellen der Microsoft Internet Information Services / IIS stürzen. Zumindest für den Apache HTTP Server und den Webalizer ist das kein Problem.
Wie wird eine Webalizer-Statistik gelesen?
Hauptüberschriften
Hits (dt. Treffer, Anfragen) repräsentieren die Gesamtzahl der an den Webserver gestellten Anfragen während der angegeben Zeitdauer (Monat, Tag, Stunde). Dabei ist es gleichgültig, welche Art von Dateien aufgerufen wird. Für die Auswertung ist auch unwichtig, ob die Anfrage berechtigt oder erfolgreich war. Jede gültige Zeile im Webserverlog wird als Treffer gezählt. Wird eine HTML-Seite angefordert, die vier Bilder und eine Audiodatei enthält, erzeugt das also insgesamt sechs Treffer: vier für die Bilder, einen für die Audiodatei und einen für die Datei, welche die Bilder und die Audiodatei enthält.
Files (dt. Dateien) repräsentieren die Gesamtzahl der Treffer (Anfragen), die tatsächlich dazu führten, dass der Webserver dem Benutzer etwas zurückschickte. Nicht alle Treffer senden Daten, z. B. die Anfrage "404-Not Found" oder auch Anfragen nach Seiten, die bereits im lokalen Browser-Cache vorhanden sind. Der Unterschied zwischen Treffern und Dateien sagt auch etwas über wiederkehrende Besucher aus, denn je grösser der Unterschied zwischen den beiden ist, desto mehr Leute fragen Seiten an, die sie bereits im Browser-Cache (also bereits gesehen) haben.
Sites repräsentiert die Anzahl sich voneinander unterscheidender IP-Adressen bzw. Rechnernamen, die Anfragen an den Webserver gestellt haben. Der Wert zeigt also bloss die Anzahl verschiedener Rechner, die zu irgendeinem Zeitpunkt auf den Webserver zugegriffen haben; jeder Rechner wird dabei natürlich nur ein einziges Mal gezählt, gleichgültig wie oft er auf den Webserver zugegriffen hat. Es sollte aufgepasst werden, wenn dieser Wert für etwas anderes als das gebraucht wird, was er ist. Viele Benutzer können erscheinen, als kämen sie von einer einzigen Site, es kann aber auch scheinen, als kämen sie von vielen voneinander verschiedenen IP-Adressen. Die Anzahl der tatsächlichen Benutzer auf dem Webserver kann nur mit Hilfe von Serverlogdateien und HTTP nicht ermittelt werden. Immerhin stellt die Anzahl der Sites eine grobe Annäherung an diesen Wert dar.
Visits (dt. Besuche) finden statt, wenn eine entfernte Site erstmals eine Anfrage für eine Seite auf dem Webserver stellt. Solange dieselbe Site innerhalb einer gegebenen Timeout-Zeitspanne (im Standard 30 Minuten) Anfragen stellt, werden alle diese Anfragen als Teil desselben gewertet. Macht die Site eine Anfrage an den Webserver und die Zeitspanne seit der letzten Anfrage ist länger als die angegebene Timeout-Zeitspanne, so wird ein neuer Besuch angenommen und gezählt und der Timeout beginnt erneut zu laufen. Da nur Anfragen nach Seiten einen Besuch erzeugen werden entfernte Sites bei der Besuchergesamtzahl nicht mitgezählt, wenn sie bloss auf ein Bild oder eine sonstige nicht-Seiten-URL linken, was die Anzahl "falscher Besuche" verringert.
Pages (engl. Seiten) sind diejenigen URLs, die als die tatsächlich angeforderten Seiten angesehen würden und nicht all die einzelnen Bestandteile, die sie in Wirklichkeit ausmachen (z. B. CSS-Dateien, JS-Dateien, Grafiken, Audiodateien). Standardmässig wird jede URL mit einer der Endungen .htm, .html oder .cgi als Seite angesehen, je nach Einstellung des Webservers werden aber auch Dateien mit Endungen wie z. B. ".php", ".php3" oder ".phtml" als Seiten gezählt. Oft wird dieser Wert (Seitenzugriffe, "page views", "page impressions") als die tatsächliche Zugriffszahl genannt. Allerdings ist der Wert allein nicht verwertbar und muss im Zusammenhang mit den anderen bereitgestellten Informationen betrachtet werden.
Ein KByte entspricht 1'024 Byte (1 Kilobyte / KB). Der Wert wird verwendet, um die Menge der Daten zu zeigen, die zwischen dem Webserver und den entfernten Rechnern übertragen wurde. Grundlage für die Berechnung sind die im Webserverlog gefundenen Daten.
Allgemeine Definitionen
Eine Site ist ein entfernter Rechner, der Anfragen an den Webserver stellt. Grundlage für die Erkennung einer Site sind IP-Adresse bzw. Rechnername des entfernten Rechners.
Uniform Resource Locator / URL. Alle an den Webserver gestellten Anfragen fragen irgendetwas an. Eine URL ist dieses etwas und repräsentiert ein irgendwo auf dem Webserver liegendes Objekt, das dem entfernten Benutzer zugänglich ist oder eine Fehlermeldung verursacht (z. B. "404 - Not found"). URLs können irgendeinen Typ haben (HTML, Audio, Grafiken, usw.).
Referrers sind diejenigen URLs, die einen Benutzer zur vom Webserver bedienten Website führen oder den Browser dazu bringen, vom Webserver etwas anzufragen. Die grosse Mehrheit der Anfragen werden von eigenen URLs gemacht, weil die meisten HTML-Seiten Links auf andere Objekte (z. B. CSS-Dateien, Grafiken) enthalten. Wenn eine HTML-Seite Links zu zehn Grafiken enthält, so wird jede Anfrage nach dieser HTML-Seite zehn weitere Treffer mit der HTML-Seite als Referrer nach sich ziehen.
Search Strings entstehen, indem die Referrer-Zeichenkette untersucht und nach bekannten Mustern aus verschiedenenen Suchmaschinen gesucht wird. Die erkennbaren Suchmaschinen und Muster können innerhalb einer Konfigurationsdatei angegeben werden. Der Standard erkennt die meisten grossen Suchmaschinen. Achtung: Diese Informationen sind nur erhältlich, wenn sie in den Webserverlogs enthalten sind.
User Agent ist ein andere Bezeichnung für den Webbrowser. Netscape, Opera, Konqueror, usw. sind alle User Agents, und jeder meldet sich in seiner eigenen Weise beim Webserver. Allerdings sollte daran gedacht werden, dass viele Webbrowser es erlauben, die übermittelten Daten und somit auch den Namen zu ändern (z. B. kann sich Opera als Internet Explorer ausgeben). Diese Information wird aber ohnehin nur ausgegeben, wenn sie auch in den Webserverlogs enthalten ist.
Entry-Seiten sind diejenigen Seiten, die bei einem Besuch als erste angefragt wurden. Wurde die URL direkt eingegeben, so wird dies als "/" dargestellt.
Exit-Seiten sind diejenigen Seiten, die bei einem Besuch als letzte angefragt wurden.
Countries (dt. Länder) werden anhand der Top Level Domains der anfordernden Website bestimmt. Das ist allerdings etwas fragwürdig, da etwa eine ".com"-Domain ihren Rechner in den USA stehen haben kann, aber nicht muss. Genausogut kann der Rechner einer ".il"-Domain zwar in Israel stehen - oder eben auch anderswo. Wer der tatsächliche Benutzer ist, lässt sich aber über die Domain ohnehin nicht herausfinden. Ein grosser Prozentsatz wird auch als "Unresolved/Unknown" angezeigt, da ein grosser Teil der Benutzer über Einwahlverbindungen und andere Kundenzugangspunkte ins Internet gelangen, die ihre IP-Adressen nicht in Namen umwandeln.
Response Codes (dt. Antwortcodes) sind als Teil des HTTP/1.1-Protokolls definiert. Diese Codes werden vom Webserver erzeugt und machen eine Aussage über den Vollständigkeitsstatus der Anforderungen, die an ihn gerichtet werden.
Weblinks
Herausgeber | Sprache | Webseitentitel | Anmerkungen |
---|---|---|---|
Mr. Unix | eng | The Webalizerwbm |
|
Wikipedia | ger | Webalizerwbm | Enzyklopädischer Artikel |
Public Access Networks | eng | panix.user.html FAQ : logs and analysis : Webalizer man pagewbm | |
Domains by Proxy Inc. | eng | How to read Webalizer statswbm |