Skip to content
 

Ich bin Google, deine Suchmaschine (2)

oder: Wenn’s dir nicht passt, kannst du ja geh’n!

Z.Zt. gibt es weltweit über 200 Millionen Wesites und jede besteht i.d.R. wiederum aus vielen Unterseiten und auf jeder Seite stehen nicht nur viele Worte, sondern auch viele Adressen auf weiteres Material (Texte, Bilder, Videos…). Insgesamt ergeben sich so weit über 1 Billion (1.000.000.000.000) URLs (Adressen) im WWW (World Wide Web).

Eine Suchmaschine kann zwar versuchen, alle diese Seiten und Materialien zu speichern, eine schnelle Suche ist so aber nicht möglich.

Hier kommen die Webcrawler ins Spiel. Das sind “intelligente” Programme (Software), die aus der ungeheuren Menge an Informationen die wichtigen Texte und Bilder mit den dazugehörigen Stichworten herausfiltern müssen.

Der Webcrawler einer Suchmaschine “sieht” eine Webseite natürlich nicht wie wir in vielen Farben mit fetten Überschriften, mit bunten Bildern, animierten Grafiken und Videos. Ein Webcrawler “sieht” nur den zugehörigen HTML-Quelltext – eine Bleiwüste aus Texten, Codeworten und Adressen (der jeweiligen Bilder und Videos).

Kleiner Ausschnitt aus der Startseite von IT-online - wie googlebot sie sieht
Kleiner Ausschnitt aus der Startseite von IT-online - wie googlebot sie sieht


Wie kann er dann aber beurteilen, was auf dieser Seite wichtig ist?

Die Webcrawler sind Programme mit Künstlicher Intelligenz (KI), d.h.

  • sie tun das, was der Programmierer von Google ihnen vorgegeben hat
  • sie lernen beim Crawlen dazu und optimieren selbstständig ihr weiteres Verhalten wie alle anderen KI-Programme auch
  • und sie machen Fehler wie jede andere Software (im Schnitt 1 Fehler pro 1.000 Programmzeilen)

Und was auf diese Weise herausgefiltert wurde, kommt bei Google in eine riesige Datenbank und die beantwortet alle unsere Suchanfragen.

Menschen könnten diese gewaltige Recherche im Internet niemals durchführen und die Menschen von Google können das, was die Crawler tatsächlich tun, auch nicht wirklich kontrollieren, denn die Crawler verhalten sich als KI-Programme ja auf jeder Webseite ein bisschen anders…

Der Code dieser Crawler-Programme gehört zu Googles bestgehüteten Geheimnissen. Wir können nur hoffen, dass Google seinem Motto (“Don’t be evil” – “Tue nichts Böses”) treu bleibt, dass die Programmierer im Stress nicht zu schlampig gearbeitet haben und dass sich die “intelligenten” Programme nicht zu oft irren.

Dass sie sich häufig irren, hat wohl jeder schon mal bei einer Google-Suche festgestellt, wenn ein Artikel aufgelistet wird, in dem nichts Brauchbares zu dem Suchbegriff steht oder wenn ein Bild angezeigt wird, das etwas völlig anderes darstellt (dazu demnächst mehr).

Ein wichtiges Kriterium, das die Crawler beachten, ist die Häufigkeit eines Begriffs auf einer Webseite (möglichst häufig, aber nicht zu häufig).

Googlebot hat viele wichtige Stichworte auf IT-online gefunden, aber das wichtigste Stichwort von IT-online ist nicht etwa “Informationstechnik” oder “Unterricht” sondern “Pfeil” – sagt Google, denn der googlebot hat es insgesamt 23.052-mal gefunden. Tatsächlich gibt es Pfeile bei IT-online nur zur Navigation zu den einzelnen Absätzen und von einer Seite zur anderen. Für einen normalen Besucher der Webseite taucht das Wort “Pfeil” niemals auf – dieses Wort ist nur im HTML-Quelltext zu finden und garantiert ein normgerechtes XHTML und eine möglichst barrierefreie Webseite! All dies hat der googlebot noch nicht verstanden: “Pfeil” als Stichwort ist völliger Unsinn!!!

Spielt dieser Irrtum überhaupt eine Rolle?

Google-Suche nach 'informationstechnik schule'
Google-Suche nach 'informationstechnik schule'

Google-Suche nach 'informationstechnik schule pfeil'
Google-Suche nach 'informationstechnik schule pfeil'


Die Google-Bildersuche nach “informationstechnik schule” zeigt die Themenskizze “Peripheriegeräte” von IT-online auf Platz 15. Immerhin … toll… aber warum gerade diese Themenskizze???

Die Google-Bildersuche nach “informationstechnik schule pfeil” zeigt auch diese Themenskizze… jetzt auf Platz 1… super… wir ahnen warum… aber Sinn macht das nicht!!!

Die Liste der Pannen ließe sich beliebig verlängern. Zum Glück findet Google ja häufig die richtigen Stichworte. Darüber freuen wir uns, aber ein fader Nachgeschmack bleibt. Denn Google bietet uns keine Möglichkeit, solche Fehler zu melden, geschweige denn Einfluss auf die Indizierung von Webseiten zu nehmen. Wir müssen Google nehmen wie es ist – oder zu einem anderen Suchdienst wechseln! aber zu welchem?



1 Kommentar zu dieser Seite

Hinterlasse eine Nachricht

XHTML: You can use these tags: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>