kostenlose Backlink-Datenbanken ?

Durch den Webfall des Yahoo Site Explorers ist es nicht mehr so leicht an Backlink Daten zu kommen. Meistens muss man eine kommerzielle Backlink-Datenbank nutzen um die Daten zu erhalten. Da ich immer wieder darauf angesprochen werde, warum diese Daten keiner kostenlos zur Verfügung stellt, hier mal ein Erklärungsversuch.

Wer sich selbst mit dem Thema Crawling beschäftigt, weiß sicherlich abzuschätzen, was man für eine Architektur dazu benötigt um an konkurrenzfähige Backlinkdaten zu kommen.

Crawlvorgang

© getgrim - Fotolia.com

Ich versuche das Thema am Beispiel des Openlinkgraphs zu verdeutlichen. Was braucht man um so eine Architektur aufzubauen und was muss man alles beachten. Da die Anbieter dazu keine Angaben machen, muss ich mir das anhand verschiedener Aussagen selber ableiten. Ich denke jedoch, dass ich sehr nah dran bin.

Sistrix crawlt laut eigenen Aussagen rund 4,2 Milliarden Webseiten für den Index. Um eine einzelne Webseite nicht gnadenlos zu „befeuern“ sollte man mindestens 1-2 Sekunden zwischen den Abfragen „schlafen“. Ansonsten kann es schnell zu sog. Spamattacken Meldungen kommen. Aus diesem Grund muss man das ganze über Warteschlangen und Jobs regeln.

Nun mal kurz eine kleine Beispielrechnung um die Datenmenge zu verdeutlichen:
1 Abfrage pro Sekunde
60 Abfragen pro Minute
3600 Abfragen in der Stunde
86.400 Abfragen am Tag
2.500.000 Abfragen im Monat (30 Tage)
31.536.000 Abfragen im Jahr (365 Tage)

Johannes hat mal in einem Tweet erwähnt, dass er 4000 Urls pro Sekunde abfragen kann.
Natürlich nicht immer die gleiche Webseite, sondern aus einem Pool von 100 Millionen Domains.
Damit würde er 345.600.000 Seiten an einem Tag spidern und wäre somit nach 12 Tagen durch. Dies würde bedeuten, dass er Links entdecken würde, die im schlechtesten Fall 12 Tage alt wären. Dies ist wohl ein sehr guter Wert was die Aktualität des Index betrifft.

Natürlich muss hier auch ein ausgeklügeltes Verfahren verwendet werden. Wenn man nur mal 500 Mio. Seiten von Amazon crawlt, wird man schnell feststellen, dass sich die externen Links auf den Seiten kaum unterscheiden. So hat man 500 Mio Seiten gecrawlt um 24 externe Links zu finden.

Rechenleistung

© zentilia - Fotolia.com

In den FAQs eines Backlinkanbieters steht „Overall computing power reaches 4TFLOPS“. Ein Flop bedeutet eine Berechnung pro Sekunde und wird als Rechenleistung für Computersysteme herangezogen. 4 TeraFlops bedeutet also rund 4 Trillion Berechnungen pro Sekunde. Menschen überlegen jahrelang ob Sie Kinder wollen. Nur mal so um die Relation abzuklären.
Ein Server mit Core i7 (3,2 GHz, 4 Kerne) schafft ca. 50 Giga Flops. Es wären also ca. 80 Server um die angestrebte Leistung von 4 TeraFlops zu erreichen. Damit kann jetzt jeder recherchieren was es kosten würde allein den Serverpark aufzubauen.

Traffic

Aber allein die Crawler-Server sind wohl nicht genug. Zwar gibt es oft Angebote mit „Traffic unlimited“ doch die meisten Hoster drosseln die Verbindungen ab einer gewissen Anzahl von Terabyte. Dazu kommt noch, dass man zwischen den Servern und der Datenbank die auf einem anderen Server Cluster liegt auch die Daten transportieren muss. Viele Anbieter bieten zwar 1GBit Netzwerkkarten an, aber man kommt nur mit 100Mbit/s nach draussen. Der Wert von 100Mbit/s entsprechen ca. 30 TB Traffic/Monat. Aber mit Geld lässt sich ja bekanntlich vieles regeln.

Datenbank

Neben dem reinen sammeln muss man die Daten auch irgend wohin speichern. Mit Mysql ist das Ganze natürlich nicht mehr zu stemmen. Aber das ist ein anderes Thema. Wer also mit 80 Servern 2400 TB (30TB x 80 Server) an Daten spidert, braucht auch eine Cluster von DB Servern die solch eine Menge verkraften. Natürlich kann man nur die externen Links speichern. Bei 4,2 Milliarden Seiten mit schätzungsweise 5 Links pro Seite wäre das trotzdem ein sehr beachtlicher Wert.

Fazit

Das hier sollte jetzt nur ein kleiner Ausschnitt sein, was dazu nötig ist um Backlinkdaten zu ermitteln. Wer nur seine eigene Seite auswerten möchte, kann dazu die Google Webmaster Tools heranziehen. Wenn man Linkdaten zu fremden Seiten braucht sollte man auf die großen Dienste zurückgreifen. Viele der Backlink-Datenbanken sind unter 100 Euro zu haben und bieten zusätzlich noch Auswertungen die es vereinfachen die Wertigkeit der Backlinks und des Linkgraphen zu verstehen. Meiner Meinung nach sollte man, wenn man SEO professionell betreiben möchte,  daher nicht an diesen Kosten sparen.
Vielleicht versteht der eine oder andere jetzt ein bisschen mehr was dahinter steckt und fühlt sich jetzt besser, wenn er für Backlink-Daten bezahlt.

Impressum