Google Buchsuche

Aus Mikiwiki
Version vom 26. Januar 2009, 00:31 Uhr von Michi (Diskussion | Beiträge) (Die Seite wurde neu angelegt: Die <b>Google Buchsuche</b> (engl. Google Book Search; früher: Google Print) ist eine Dienstleistung des US-amerikanischen Unternehmens Google Inc. mit dem Ziel, d...)
(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)
Wechseln zu: Navigation, Suche

Die Google Buchsuche (engl. Google Book Search; früher: Google Print) ist eine Dienstleistung des US-amerikanischen Unternehmens Google Inc. mit dem Ziel, das in Büchern gespeicherte Wissen der Welt vorwiegend durch Digitalisierung für die Volltextsuche verfügbar zu machen. Google Buchsuche befindet sich zur Zeit (Mai 2008) in einer öffentlichen Betaphase.

Inhaltsverzeichnis

Inhalte speichern

Google Inc. versucht zwar, das Speichern der angebotenen Bücher auf vielfältige Weise zu verhindern:

  • grundsätzlich wurden Mechanismen eingebaut, die es verhindern, dass der Nutzer die angezeigten Seiten direkt im Webbrowser speichern oder ausdrucken kann.
  • offenbar kann der Urheberrechtsinhaber festlegen, dass ein bestimmter Nutzer (wohl identifiziert durch seine IP-Adresse) innerhalb eines Monats nur einen bestimmten Prozentsatz (z. B. 20%) des Buches anzeigen kann.
  • einige Bücher stehen nicht vollständig zur Verfügung, sondern es werden beispielsweise einfach die Seiten 45 bis 67 gar nicht erst zur Verfügung gestellt, diese sind also in jedem Fall nur durch den Kauf des physischen oder elektronischen Buchexemplars erhältlich.
  • urheberrechtlich nicht geschützte Bücher stehen dagegen üblicherweise in aller Vollständigkeit zur Verfügung.

Doch wie alles was im Webbrowser sicht- oder hörbar ist, können zumindest die angezeigten Ergebnisseiten natürlich doch gespeichert werden, auch wenn dies nicht im Sinne der Google Inc. ist. Seiten, die einmal im Webbrowser sichtbar waren sind nämlich (mit etwas kryptischen Namen) bereits auf dem lokalen Rechner gespeichert, im sogenannten Cache, denn sonst könnten sie ja gar nicht angezeigt werden.

1. Um schliesslich nicht zuviele unerwünschte Seiten vorzufinden, empfiehlt es sich, den Cache erst zu leeren und anschliessend den Webbrowser neu zu starten.

2. Nun wird das gewünschte Buch in der Google Buchsuche durchgeblättert, sodass jede zu speichernde Seite kurz im Webbrowser sichtbar ist (und damit in den Cache gelangt).

3. Jetzt wird auf der Shell ins Cache-Verzeichnis des verwendeten Webbrowsers gewechselt, bei Firefox sieht das beispielsweise wie folgt aus.

$ cd ~/.mozilla/firefox/c358hzvi.default/Cache

4. Bei den im Cache entstehenden Dateien handelt es sich üblicherweise um JPG-Dateien, die bei Bedarf auch umbenannt und an einen geeigneten Ort verschoben werden können.

$ file 67A69C26d01
67A69C26d01: JPEG image data, JFIF standard 1.01
$ mv 67A69C26d01 /tmp/buchseite105.jpg

5. Sinnvollerweise wird der Inhalt des Cache-Verzeichnisses anschliessend geflöht. Dazu könne etwa mit dem Bildetrachter kuickshow unerwünschte Dateien gleich gelöscht und erwünschte Dateien umbenannt werden. Mit ein wenig Shellprogrammieraufwand lässt sich das Ganze bestimmt auch automatisieren. Eine andere Frage ist es allerdings, was man mit der Masse der so gewonnenen Bilddateien anfangen will, denn das Lesen erledigt sich auch so noch immer nicht von selbst.

Es gibt auch noch eine umständlichere Methode für Leute, die mit der Shell nicht genügend vertraut sind:

1. Dazu wird zuerst über die Google Buchsuche ein Buch gesucht und aufgerufen. In der Adresszeile ist dann ein URL der folgenden Art zu sehen:

http://books.google.de/books?id=ljnfc90FevUC&printsec=frontcover&dq=shakespeare&as_brr=1&sig=ACfU3U2X2TzFtobRD8LkQwooTDivdtbGbg

2. Nun wird einmal eine Seite nach vorn und wieder zurückgegangen, der Link gewinnt dann die folgende Form:

http://books.google.de/books?id=ljnfc90FevUC&printsec=frontcover&dq=shakespeare&as_brr=1&sig=ACfU3U2X2TzFtobRD8LkQwooTDivdtbGbg#PPA<b>1</b>,M1

3. Um nun etwa die Seit 111 auszudrucken, kann diese direkt im URL angegeben und aufgerufen werden:

http://books.google.de/books?id=ljnfc90FevUC&printsec=frontcover&dq=shakespeare&as_brr=1&sig=ACfU3U2X2TzFtobRD8LkQwooTDivdtbGbg#PPA<b>111</b>,M1

4. Diese URL wird nun kopiert und auf der Seite Leech Video eingegeben und auf "Grab" geklickt. Die Seite stellt daraufhin eine entsprechende JPG-Datei zur Verfügung. Das muss dann für jede zu speichernde Seite wiederholt werden.

Weblinks

Vorlage:dewi