Google findet (fast) alles, wenn man weiß…
Montag, 15. Februar 2010, 9:35 Uhr | Autor: ich
wie PDF-Dokumente in den Index aufgenommen werden.
Vor ein paar Tagen sprach ich mit einem Lehrer. Seine Schülern sollten etwas zum Thema Deutsche Revolution 1848/49 (de.wikipedia.org) im Internet recherchieren.
Hanauer Ultimatum (de.wikipedia.org)
Das Hanauer Ultimatum vom 9. März 1848 war eine Petition Hanauer Bürger an ihren Landesherren im Rahmen der Revolution von 1848/49, um bürgerliche Grund- und Freiheitsrechte zu erlangen.
(…)
Das Hanauer Ultimatum vom 9. März 1848 entstand im Zuge einer Petition an den Kurfürsten: Nachdem eine im Februar 1848 aufgesetzte Petition kurzfristig keine Veränderung bewirkt hatte, wählten Hanauer Bürger, die sich auf dem Marktplatz der Hanauer Neustadt versammelten, eine 24-köpfige „Volkskommission“, der unter anderem August Schärttner, Christian Lautenschläger, Pedro Jung, August Rühl sowie der Bürgermeister Bernhard Eberhard angehörten
Es gab 24 Mitglieder dieser “Volkskommission”, aber nur fünf werden auf Wikipedia erwähnt. Die Aufgabe für die Schüler bestand nun darin, die anderen 19 Mitglieder herauszufinden.
Wie beginnt man üblicherweise mit der Recherche, z.B. per Google?
Wir suchen nach den gegebenen fünf Namen (Schärttner, Lautenschläger, Jung, Rühl, Eberhard), in der Hoffnung, eine Seite zu finden, auf der die restlichen Mitglieder erwähnt werden.
Einer der acht Treffer führt uns auf die Seiten der Stadt Hanau und dort finden wir zwar “Das Hanauer Ultimatum” (hanau.de), aber darin ist nur ein neuer Name enthalten, Karl Röttelberg. Johann Bernhard Eberhard, der auch Oberbürgermeister war, wird darin nicht erwähnt. Dieser selbst findet sich aber auf der Seite “Oberbürgermeister der Stadt Hanau” (hanau.de), mit dem Hinweis:
Mitunterzeichner des Hanauer Ultimatums vom 9. März 1848
Ähnlich erfolglos bleiben die weiteren Recherchen per Google. Auch mit dem Zusatz “Volkskommission”, “Hanau”, “1848″ und dem Weglassen von einzelnen Namen, kommt man dem Ziel nicht näher. Eine Suche nach “Hanauer Ultimatum” bleibt auch ohne Erfolg, da diese Bezeichnung ganz sicher nicht in der Petition selber zu finden ist.
Die Schüler haben angeblich mehr als 100 Seiten durchforstet und nichts finden können, bis einer auf die Idee kam, auf den Seiten der Deutschen Nationalbibliothek (d-nb.de) nachzuschauen. Nach weiteren Suchanfragen dort, wurde er fündig und fand die Petition inkl. aller 24 Unterzeichner.
Setzt man sich etwas mit dem auseinander, was Suchmaschinen indexieren können und was nicht, so kann man sehr viel schneller gute Ergebnissen bei der Recherche erzielen.
Beginnen wir noch einmal mit der Recherche, nur diesmal berücksichtigen wir, was wir suchen bzw. aus welcher Zeit dies stammt und was Suchmaschinen dazu aufgenommen haben können und was nicht.
Wir schreiben das Jahr 1848. Die meistbenutzte Druckschrift im deutschsprachigen Raum ist zu der Zeit Fraktur (de.wikipedia.org). Dokumente in dieser alten Schriftart, die die meisten Menschen heute kaum noch lesen können, werden wir wahrscheinlich nur als eingescannte Bilder im Internet finden können.
PDF-Dokumente können u.a. Texte und Bilder enthalten. Ein mit einer Textverarbeitung geschriebener Text der als PDF gespeichert wurde, enthält die Textinformation selber, die auch Google in seinen Index aufnehmen kann. Wird hingegen ein Dokument eingescannt und als PDF gespeichert, so fehlt die Textinformation, da nur ein Bild der Vorlage gespeichert wird. Man könnte vor dem Speichern als PDF eine Texterkennung einsetzen, um die Textinformation zu erhalten, diese wird aber bei der Schriftart Fraktur versagen. In der alten Schrift wird u.a. das lange s (de.wikipedia.org) verwendet, welches wie ein f aussieht und da sich wohl kaum jemand die Mühe macht alle gescannten Dokumente entsprechend nachzubearbeiten und Korrektur zu lesen, müssen wir davon ausgehen dass die Petition nur als Bild gespeichert vorliegt. Google nimmt zwar auch Bilder in den Index auf, aber nicht den Text der auf einem Bild zu lesen ist, sondern nur, sofern vorhanden, den alternativen Text und/oder den Titel eines Bildes. Der Dateiname selber wird unter guten Umständen auch vom Google-Bot aufgenommen.
Wir können nicht nach Bestandteilen aus dem Text selber suchen, da wir diesen zum größten Teil nicht kennen und zum anderen annehmen müssen, dass dieser nur als Bild im Internet verfügbar ist (egal ob nun als GIF, TIFF oder PDF), bleibt uns nur die Möglichkeit nach Schlagworten oder Eigennamen zu suchen, nach etwas, was eine geschichtswissenschaftliche Institution in ihre Datenbank aufgenommen hat, wie das Dokument katalogisiert wurde.
Mit diesem Wissen gerüstet, suchen wir nun noch einmal per Google. In dem Text von Wikipedia sticht das Wort “Volkskommission” hervor, da es heute eher ungebräuchlich ist, versuchen wir es mit diesem einen Wort erneut: Volkskommission
Bereits das siebente vierte Suchergebnis sieht sehr vielversprechend aus:

Wenn wir nun auf der verlinkten Seite nach der “Volkskommission” suchen, so finden wir gleich zwei Dokumente:
http://edocs.ub.uni-frankfurt.de/volltexte/2006/5599/
http://edocs.ub.uni-frankfurt.de/volltexte/2006/5595/

Die Seite Zentrales Verzeichnis Digitalisierter Drucke (digitalisiertedrucke.de) kannte ich bisher leider nicht. Sucht man dort nach “Volkskommission”, so wird man sofort mit den zwei Treffern belohnt.
Meist ist es hilfreich mehrere Suchworte in Google einzugeben, da es häufig zu viele Suchergebnisse gibt, wenn man nach zu allgemeinen Wortkombinationen sucht. In diesem Fall sieht man, nur genau das Gegenteil des üblichen Vorgehens führt zum Erfolg. Dies ist bedingt durch die Art bzw. das Alter des gesuchten Dokuments und dem Umstand, dass die Dokumente zwar in digitaler Form vorliegen, aber nicht im Volltext von Suchmaschinen indexiert werden können.
Da ich den Schülern nicht den Spaß der Recherche nehmen möchte…
In den zwei Dokumenten gibt es verschieden geschriebene Unterzeichner:
Nauh – Rau | Schreer – Schreher | Rühl – Rülh | Weidman – Weidmann
Viel Spaß! ;O)
Update: 27.02.2010 – 17:30 Uhr
Die Links zur Uni Frankfurt, mit den zwei Versionen der Petition, hatte ich auch in den Wikipedia Artikel eingefügt. Ich habe gerade gesehen das diese Links mittlerweile in den Hauptartikel übernommen wurden.
DAS ist für mich Web 2.0!
Thema: Google, Korinthenkacker | Kommentare geschlossen





