Google dringt weiter ins Deep Web vor

Bis vor kurzem galten gescante Seiten und Flash-Inhalte als unsichtbar für Suchmaschinen. Google versucht nun schon seit längerem, diesen Bereich des Deep Web doch für den eigenen Index aufzuarbeiten. Das geschieht auf zwei Ebenen:

  1. Dokumente, die in analoger Form vorliegen, mit Scannern digitalisiert wurden, aber in einem Bild-Format vorliegen, also nicht bearbeitet werden können wie ein Text-Dokument, werden nun mit Hilfe von OCR-Software gelesen und indexiert. Die dabei notwendige Rechner-Power ist gewaltig.
  2. Flash-Dateien werden nun teilweise “geöffnet” und ausgelesen: das betrifft Links und Texte in Flash-Format.

Bei aller Google-Vorsicht, Google ist im Bereich der Suchmaschinen-Technologie nicht von ungefähr Platzhirsch.

[Technorati Tags: - ]

Leave a Reply

You can use these XHTML tags: <a href="" title=""> <abbr title=""> <acronym title=""> <blockquote cite=""> <code> <em> <strong>