Google Buchsuche

Aus Mikiwiki
Wechseln zu: Navigation, Suche

Die Google Buchsuche (engl. Google Book Search; früher: Google Print) ist eine Dienstleistung des US-amerikanischen Unternehmens Google Inc. mit dem Ziel, das in Büchern gespeicherte Wissen der Welt vorwiegend durch Digitalisierung für die Volltextsuche verfügbar zu machen. Google Buchsuche befindet sich zur Zeit (Mai 2008) in einer öffentlichen Betaphase.

Inhalte speichern

Google Inc. versucht zwar, das Speichern der angebotenen Bücher auf vielfältige Weise zu verhindern:

  • grundsätzlich wurden Mechanismen eingebaut, die es verhindern, dass der Nutzer die angezeigten Seiten direkt im Webbrowser speichern oder ausdrucken kann.
  • offenbar kann der Urheberrechtsinhaber festlegen, dass ein bestimmter Nutzer (wohl identifiziert durch seine IP-Adresse) innerhalb eines Monats nur einen bestimmten Prozentsatz (z. B. 20%) des Buches anzeigen kann.
  • einige Bücher stehen nicht vollständig zur Verfügung, sondern es werden beispielsweise einfach die Seiten 45 bis 67 gar nicht erst zur Verfügung gestellt, diese sind also in jedem Fall nur durch den Kauf des physischen oder elektronischen Buchexemplars erhältlich.
  • urheberrechtlich nicht geschützte Bücher stehen dagegen üblicherweise in aller Vollständigkeit zur Verfügung.

Erste Methode

Doch wie alles was im Webbrowser sicht- oder hörbar ist, können zumindest die angezeigten Ergebnisseiten natürlich doch gespeichert werden, auch wenn dies nicht im Sinne der Google Inc. ist. Seiten, die einmal im Webbrowser sichtbar waren sind nämlich (mit etwas kryptischen Namen) bereits auf dem lokalen Rechner gespeichert, im sogenannten Cache, denn sonst könnten sie ja gar nicht angezeigt werden.

1. Um schliesslich nicht zuviele unerwünschte Seiten vorzufinden, sollte der Cache erst geleert und anschliessend der Webbrowser neu gestartet werden.

2. Nun wird das gewünschte Buch in der Google Buchsuche durchgeblättert, sodass jede zu speichernde Seite kurz im Webbrowser sichtbar ist (und damit in den Cache gelangt).

3. Auf der Shell wird ins Cache-Verzeichnis des verwendeten Webbrowsers gewechselt, bei Firefox sieht das beispielsweise wie folgt aus.

$ cd ~/.mozilla/firefox/c358hzvi.default/Cache

4. Bei den im Cache entstehenden Dateien handelt es sich üblicherweise um JPG-Dateien, die bei Bedarf auch umbenannt und an einen geeigneten Ort verschoben werden können.

$ file 67A69C26d01
67A69C26d01: JPEG image data, JFIF standard 1.01
$ mv 67A69C26d01 /tmp/buchseite105.jpg

5. Sinnvollerweise wird der Inhalt des Cache-Verzeichnisses anschliessend geflöht. Dazu können etwa mit den Bildbetrachter qiv und Kuickshow unerwünschte Dateien gleich gelöscht und erwünschte Dateien umbenannt werden. Mit ein wenig Shellprogrammieraufwand lässt sich das Ganze bestimmt auch automatisieren.

Eine andere Frage ist es allerdings, was man mit der Masse der so gewonnenen Bilddateien anfangen will, denn das Lesen erledigt sich auch auf diese Weise noch immer nicht von selbst.

Zweite Methode

Es gibt auch noch eine umständlichere Methode für Leute, die mit der Shell nicht genügend vertraut sind:

1. Dazu wird zuerst über die Google Buchsuche ein Buch gesucht und aufgerufen. In der Adresszeile ist dann ein URL der folgenden Art zu sehen:

http://books.google.de/books?id=ljnfc90FevUC&printsec=frontcover&dq=shakespeare&as_brr=1&sig=ACfU3U2X2TzFtobRD8LkQwooTDivdtbGbg

2. Nun wird einmal eine Seite nach vorn und wieder zurückgegangen, der Link gewinnt dann die folgende Form. Zu beachten ist das URL-Ende: "#PPA1,M1".

http://books.google.de/books?id=ljnfc90FevUC&printsec=frontcover&dq=shakespeare&as_brr=1&sig=ACfU3U2X2TzFtobRD8LkQwooTDivdtbGbg#PPA1,M1

3. Um nun etwa die Seite 111 auszudrucken, kann diese direkt im URL angegeben und aufgerufen werden. Zu beachten auch hier das URL-Ende: "#PPA111,M1".

http://books.google.de/books?id=ljnfc90FevUC&printsec=frontcover&dq=shakespeare&as_brr=1&sig=ACfU3U2X2TzFtobRD8LkQwooTDivdtbGbg#PPA111,M1

4. Dieser URL wird nun kopiert, auf der Seite Leech Video eingegeben und dann auf "Grab" geklickt. Die Seite stellt daraufhin eine entsprechende JPG-Datei zur Verfügung. Das muss allerdings für jede weitere zu speichernde Seite wiederholt werden.

Weblinks

Herausgeber Sprache Webseitentitel Anmerkungen
country DE.gif Google ger Google Buchsuchewbm
country DE.gif Wikipedia ger Google Book Searchwbm Enzyklopädischer Artikel
country WS.gif Gilly's Playground ger Google books speichern und ausdruckenwbm