kostenlose Backlink-Datenbanken ?

Durch den Webfall des Yahoo Site Explorers ist es nicht mehr so leicht an Backlink Daten zu kommen. Meistens muss man eine kommerzielle Backlink-Datenbank nutzen um die Daten zu erhalten. Da ich immer wieder darauf angesprochen werde, warum diese Daten keiner kostenlos zur Verfügung stellt, hier mal ein Erklärungsversuch.

Wer sich selbst mit dem Thema Crawling beschäftigt, weiß sicherlich abzuschätzen, was man für eine Architektur dazu benötigt um an konkurrenzfähige Backlinkdaten zu kommen.

Crawlvorgang

© getgrim - Fotolia.com

Ich versuche das Thema am Beispiel des Openlinkgraphs zu verdeutlichen. Was braucht man um so eine Architektur aufzubauen und was muss man alles beachten. Da die Anbieter dazu keine Angaben machen, muss ich mir das anhand verschiedener Aussagen selber ableiten. Ich denke jedoch, dass ich sehr nah dran bin.

Sistrix crawlt laut eigenen Aussagen rund 4,2 Milliarden Webseiten für den Index. Um eine einzelne Webseite nicht gnadenlos zu „befeuern“ sollte man mindestens 1-2 Sekunden zwischen den Abfragen „schlafen“. Ansonsten kann es schnell zu sog. Spamattacken Meldungen kommen. Aus diesem Grund muss man das ganze über Warteschlangen und Jobs regeln.

Nun mal kurz eine kleine Beispielrechnung um die Datenmenge zu verdeutlichen:
1 Abfrage pro Sekunde
60 Abfragen pro Minute
3600 Abfragen in der Stunde
86.400 Abfragen am Tag
2.500.000 Abfragen im Monat (30 Tage)
31.536.000 Abfragen im Jahr (365 Tage)

Johannes hat mal in einem Tweet erwähnt, dass er 4000 Urls pro Sekunde abfragen kann.
Natürlich nicht immer die gleiche Webseite, sondern aus einem Pool von 100 Millionen Domains.
Damit würde er 345.600.000 Seiten an einem Tag spidern und wäre somit nach 12 Tagen durch. Dies würde bedeuten, dass er Links entdecken würde, die im schlechtesten Fall 12 Tage alt wären. Dies ist wohl ein sehr guter Wert was die Aktualität des Index betrifft.

Natürlich muss hier auch ein ausgeklügeltes Verfahren verwendet werden. Wenn man nur mal 500 Mio. Seiten von Amazon crawlt, wird man schnell feststellen, dass sich die externen Links auf den Seiten kaum unterscheiden. So hat man 500 Mio Seiten gecrawlt um 24 externe Links zu finden.

Rechenleistung

© zentilia - Fotolia.com

In den FAQs eines Backlinkanbieters steht „Overall computing power reaches 4TFLOPS“. Ein Flop bedeutet eine Berechnung pro Sekunde und wird als Rechenleistung für Computersysteme herangezogen. 4 TeraFlops bedeutet also rund 4 Trillion Berechnungen pro Sekunde. Menschen überlegen jahrelang ob Sie Kinder wollen. Nur mal so um die Relation abzuklären.
Ein Server mit Core i7 (3,2 GHz, 4 Kerne) schafft ca. 50 Giga Flops. Es wären also ca. 80 Server um die angestrebte Leistung von 4 TeraFlops zu erreichen. Damit kann jetzt jeder recherchieren was es kosten würde allein den Serverpark aufzubauen.

Traffic

Aber allein die Crawler-Server sind wohl nicht genug. Zwar gibt es oft Angebote mit „Traffic unlimited“ doch die meisten Hoster drosseln die Verbindungen ab einer gewissen Anzahl von Terabyte. Dazu kommt noch, dass man zwischen den Servern und der Datenbank die auf einem anderen Server Cluster liegt auch die Daten transportieren muss. Viele Anbieter bieten zwar 1GBit Netzwerkkarten an, aber man kommt nur mit 100Mbit/s nach draussen. Der Wert von 100Mbit/s entsprechen ca. 30 TB Traffic/Monat. Aber mit Geld lässt sich ja bekanntlich vieles regeln.

Datenbank

Neben dem reinen sammeln muss man die Daten auch irgend wohin speichern. Mit Mysql ist das Ganze natürlich nicht mehr zu stemmen. Aber das ist ein anderes Thema. Wer also mit 80 Servern 2400 TB (30TB x 80 Server) an Daten spidert, braucht auch eine Cluster von DB Servern die solch eine Menge verkraften. Natürlich kann man nur die externen Links speichern. Bei 4,2 Milliarden Seiten mit schätzungsweise 5 Links pro Seite wäre das trotzdem ein sehr beachtlicher Wert.

Fazit

Das hier sollte jetzt nur ein kleiner Ausschnitt sein, was dazu nötig ist um Backlinkdaten zu ermitteln. Wer nur seine eigene Seite auswerten möchte, kann dazu die Google Webmaster Tools heranziehen. Wenn man Linkdaten zu fremden Seiten braucht sollte man auf die großen Dienste zurückgreifen. Viele der Backlink-Datenbanken sind unter 100 Euro zu haben und bieten zusätzlich noch Auswertungen die es vereinfachen die Wertigkeit der Backlinks und des Linkgraphen zu verstehen. Meiner Meinung nach sollte man, wenn man SEO professionell betreiben möchte,  daher nicht an diesen Kosten sparen.
Vielleicht versteht der eine oder andere jetzt ein bisschen mehr was dahinter steckt und fühlt sich jetzt besser, wenn er für Backlink-Daten bezahlt.

Comments

  1. Vielen Dank für die einfach und klare Darstellung, kann man schön lesen und nachvollziehen. Wahnsinn, was da an Summen zusammenkommt.

  2. Guter Beitrag Thomas! (y)

  3. Hallo Thomas,
    vielen Dank für diesen guten Artikel, der deutlich macht was da für Ressourcen benötigt werden. Ich bin jetzt per se nicht der Techie, von daher finde ich die Zahlen hier verständlich aufbereitet.
    Beste Grüße,
    Marcell

  4. Äusserst interessant. Das sind unvorstellbare Datenmengen und Traffic, die da zusammenkommen. Das kann man sich als „User“ kaum vorstellen – Danke für die Ausführungen.

  5. Hallo Thomas,

    das bringt die Sache mal ordentlich auf den Punkt. Dennoch ist es bedauerlich, dass Yahoo den Site Explorer eingestellt hat.

    Frohe Weihnachten.

    Marco

  6. Jo. Und natürlich ist es kein Pappenstiel, das Ganze auch noch für andere gut strukturiert zugänglich zu machen und in entsprechende Software zu gießen.

  7. Dito. Außerdem gibt es ja noch ganz andere „Problemchen“ zu bewältigen:
    langsame Seiten, duplicate Content, falsche Encodings, invalider Quelltext, Wachstum/Freshness etc. Unterm Strich wirklich keine einfache Geschichte 😉

  8. Hihi, ich denke jetzt geben alle gerne die 100 Euro aus. Wer es immer noch nicht verstanden hat bleibt besser zu Hause 😉

  9. Gigantische Zahlen, das führt man sich sonst gar nicht so richtig vor Augen. Allerdinge finde ich es vor diesem Hintergrund noch erstaunlicher, dass man unter http://www.seokicks.de kostenlos auf alle Daten zugreifen darf. Weißt Du, welche Power hinter dem seokicks System steckt? Gefühlt würde ich sagen das Sistrix meistens mehr Links hat, seokicks aber nicht so weit entfernt ist. Und dort bis zu 100000 (?) Links pro Domain per CSV exportieren zu können schlägt wirklich alles..

  10. Das Seokicks System nutzen doch jetzt auch einige Backlinkchecker oder irre ich mich da.
    Danke für die aufschlussreiche Ausführung. Mit solchen Datenmengen hätten die meisten wohl nicht gerechnet.