Wer eine robots.txt und .htaccess für seine Seite anlegen, will braucht dafür nicht viel. Eine kurze Anleitung wie diese und einen einfachen Text-Editor, wie Notepad++ oder der hauseigene Editor von Windows. Beginnen wir mit der robots.txt !

Was ist die robots.txt und wofür brauche ich sie ?

Die robots.txt ist ebenfalls eine Datei, die im Hauptverzeichniss einer Website liegt. Die Aufgabe dieser Datei besteht darin, Crawler und Bots Anweisungen zu geben, wie Sie eine Website durchsuchen dürfen bzw. sollen. Meistens wird ein Bot durch entsprechende Befehle in der robots.txt darauf hingewiesen, bestimmte Verzeichnisse der einzelne Dateien, bei Ihrer Indexierung, außer Acht zu lassen. Die robots.txt ist also ein wichtiges Mittel, um Suchmaschinen, wie Google, davon abzuhalten, Inhalte zu crawlen, die Sie nicht in den Suchergebnissen sehen möchten.

Das können beispielsweise die URL zum Backend einer Seite, temporäre Verzeichnisse oder Dateien, Anmeldeformulare oder die einzelnen Seiten eines Buchungsprozesses sein. Bei Inhalten dieser Art, besteht schon ein berechtigtes Interesse des Webmasters, diese nicht im Index von Google finden zu lassen. Sie können aber auch jede Seite einer Domain und sogar einzelne Dateien , wie PDFs, Audios oder Videos von der Indexierung durch die Suchmaschinen ausschließen.

Wie erstelle ich eine robots.txt ?

Eine robots-Datei erstellen Sie mit wenigen Klicks in einem einfachen Windows-Editor. Sie öffnen ein leeres Dokument und speichern dieses unter dem Namen robots.txt ab. In dieses Dokument können Sie nun nach Bedarf die Befehle für die Bots einfügen.

Beispiel einer Robots.txt

User-agent: * ( Das Sternchen ist eine Art Wildcart für alle Crawler und Bots, wenn nichts Genaueres definiert wurde )
Sitemap: https://www.twicklerpublishing.com/sitemap.xml (gibt den Pfad der Sitemap an )
Disallow: /temp/ ( verbietet den Bots alle Inhalte des Ordners /temp zu crawlen )
#
User-agent: Googlebot ( spricht nur den googlebot an )
Disallow: /uploads/ ( sperrt alle Inhalte des Verzeichnisses /uploads )
Allow: /uploads/images/ ( erlaubt explizit nur die Inhalte aus dem Ordner uploads/images zu durchsuchen )
#
User-agent: *
Disallow: /*.pdf ( verbietet allen Crawlern und Bots, Dateien mit der Endung .pdf zu indexieren. )
#
User-agent: msnbot
Disallow: /.index.php$ ( teilt dem msnbot mit, die index.php nicht zu berücksichtigen. Das Dollarzeichen sagt, dass die Berücksichtigung der Bots an dieser Stelle endet. Eine URL wie index.php?id=123 würde dann von den Suchmaschinen zb. nicht ignoriert werden. )

Was ist die .htaccess und wofür brauche ich sie ?

Die .htaccess ist eine Konfigurationsdatei, die auf keinem kompatiblen Webserver fehlen sollte. In dieser Datei werden Konfigurationen, Einstellungen auf NCSA-kompatiblen Servern, wie zb. Apache gespeichert.

Wichtige Einstellungen, die hier getroffen werden können, sind Zugriffsrechte auf Dateien und Verzeichnisse , interne Verknüpfungen und Weiterleitungen, sowie Fehlerseiten. Das komfortable an diesen Einstellungen über die .htaccess ist, dass diese sofort in Kraft treten und bei jeder Server-Anfrage, über die entsprechende Domain, ausgewertet werden. Ein Neustart des Web-Servers ist also nicht nötig, was ja auch in den meisten Fällen überhaupt nicht möglich wäre.

Eine .htaccess wirkt sich immer nur auf das Verzeichnis aus, in dem sie gespeichert wurde, sowie dessen Unterverzeichnisse. Allerdings können auch mehrere .htaccess-Dateien angelegt werden und zb. in einem Unterverzeichnis abgelegt werden. In diesem Fall werden die Einstellungen der höher gelegenen .htacess überschrieben.

Wie erstelle ich eine .htaccess ?

Zum Erstellen einer .htaccess reicht ein Text-Editor, wie der von Windows völlig aus. Sie können natürlich auch Programme wie Notepad++ oder Dreamweaver verwenden, aber das ist nicht notwendig.

Sie erstellen also ein leeres Dokument und speichern dieses ohne Namen nur mit der Endung .htaccess ab. Anschließend fügen Sie dort Ihre Befehle ein, beginnend mit der Zeile RewriteEngine On. Mit diesem Befehl wird das mod_rewrite Modul auf Ihrem Server angesprochen und aktiviert.
Zu den wichtigsten Befehlen zählen wohl die 301 Weiterleitungen.

Folgende Befehle können Sie zB. in Ihre .htaccess einfügen.

Befehle für die .htaccess

Weiterleitung einer Domain-URL von ohne auf mit www:
Beispiel (für Weiterleitung von meinedomain.de auf www.meinedomain.de)

RewriteCond %{HTTP_HOST} !^www\.meinedomain\.de$ [NC]
RewriteRule ^(.*)$ http://www.meinedomain.de/$1 [L,R=301]

Weiterleitung einer Domain-URL von mit auf ohne www:
Beispiel (für Weiterleitung von www.meinedomain.de auf meinedomain.de)

RewriteCond %{HTTP_HOST} ^www.meinedomain.de [NC]
RewriteRule ^(.*)$ http://meinedomain.de/$1 [L,R=301]

Weiterleitung einer alten URL auf eine neue URL:
Beispiel (Weiterleitung von /relativer-pfad/alte-url.html auf http://www.meinedomain.de/absoluter-pfad/neue-url.html):

Redirect 301 /relativer-pfad/alte-url.html http://www.meinedomain.de/absoluter-pfad/neue-url.html

Zwischenverzeichnisses aus der URL-Struktur entfernen
Beispiel
(http://meinedomain.de/kategorie/kategoriename ändern auf http://meinedomain.de/kategoriename ):

RewriteEngine On
RewriteRule ^category/(.+)$ http://www.domain.de/$1 [R=301,L]

Fehlerseiten bestimmen:
ErrorDocument [Fehlercode zb. 404] [/[dokumentenpfad]/dokumentenname.html
Beispiel (für Zuweisung einer 404-Seite):

ErrorDocument 404 /nichtgefunden.html

Beide Dateien, robots.txt und .htaccess sollten ins Stammverzeichnis Ihrer Website verschoben werden. Wie bereits beschrieben, lassen sich bei speziellen Konfigurationen auch mehrere .htaccess-Dateien anlegen und in die jeweiligen Verzeichnisse ablegen, in denen Sie wirken sollen. Standardmäßig liegt die .htaccess aber im Root-Verzeichnis einer Domain.

Mit dieser kompakten Anleitung sollte es jedem gelingen, seine robots.txt und .htaccess ohne Fehler zu erstellen und korrekt zu platzieren.

[et_bloom_inline optin_id=“optin_6″]

Sie sind derzeit offline. Aktivieren Sie Ihre mobile Datenverbindung.