Sascha Albrink02.09.2011 09:00:00

PDF Dokumente im Google Index

Dass Google PDF-Dokumente durchforstet und indexiert ist nichts Neues. Doch wie funktioniert das Ganze und worauf muss man achten? Wie verhindere ich Duplicate Content und was bringen Links aus PDF-Dokumenten? Google hat gestern in einem interessanten Artikel die meistgestellten Fragen beantwortet. Grund genug, uns einige Antworten einmal näher anzuschauen.

Indexierung von PDF-Dateien

Generell ist es so, dass Google den Text aus PDF-Dokumenten extrahieren kann. Wichtig ist nur, dass die Datei nicht verschlüsselt oder mit einem Kennwort versehen wurde. Viel interessanter ist jedoch, dass auch sogenannte OCR Algorithmen zur Erkennung des Textes in Bildern genutzt werden – dies gilt auch für die Google Bildersuche und wurde 2007 als Patent angemeldet. Somit wird jedes Bilddokument, welches Text beinhaltet, auch für den Crawler „lesbar“. Man kann jedoch davon ausgehen, dass reiner Text höher gewertet wird, als Inhalte, die ausschließlich durch den OCR Algorithmus extrahiert werden.

Fotos und Grafiken

Über Fotos oder Grafiken in PDF-Dokumenten äußert sich Google nur soweit, dass diese noch nicht in den Suchergebnissen gelangen. Das wird sich jedoch, zumindest meiner Einschätzung nach, in Zukunft ändern.

Links

Links, die aus PDF-Dokumenten stammen, werden mit ganz normalen HTML-Links gleich gesetzt. Dort macht Google keinerlei Unterschiede. Derzeit sei es nicht möglich, links in PDF-Dateien auf noFollow zu setzen, so Google. Somit ist jeder Link „doFollow“. Durch ihre SEO-Relevanz können Verlinkungen in PDF-Dokumenten dazu beitragen, den Traffic zu steigern.

Ich kann daher nicht oft genug betonen, dass man die Möglichkeiten zum Linkbuilding mit PDF-Dokumenten nicht vernachlässigen sollte. Hier ist eindeutig Kreativität gefragt.

Kann eine PDF gut ranken?

Dies hat Google in seinem Artikel ganz klar mit „Ja“ beantwortet und deckt sich auch mit dem, was ich in einigen wenigen Tests feststellen konnte. Es kommt jedoch darauf an, ob eine PDF bei dem gesuchten Thema Sinn macht. So werden in den Suchergebnissen für wissenschaftliche Artikel tendenziell eher PDF Dokumente erscheinen. PDF-Optimierung

Duplicate Content

Mithilfe der sogenannten Canonical Tags kann Duplicate Content vermieden werden. Dies sollte man unbedingt nutzen. Gerade Webseiten, die Ihren Inhalt zusätzlich zur Webseite nochmals als PDF anbieten möchten, sei der Canonical Tag wärmstens empfohlen.

Titel im Suchergebnis beeinflussen

Um in den Suchergebnissen eine Überschrift anzeigen zu können, bedient sich Google an den Metadaten und den Linktexten des Dokumentes.

Also – keine Müdigkeit vorschützen! Es gibt immer etwas zu tun ;-)

Mehr zum Thema PDF Dokumente

Neben diesem Artikel sind weitere spannende Themen zur Suchmaschinenoptimierung für Sie interessant. Sie haben genug gelesen? Dann lernen Sie uns als SEO-Agentur kennen.