Disallow & Noindex für den "?replytocom=" Parameter

Google Anzeigen

Hallo Replytocom Parameter, Danke vielmals,…
…dass Du mir gezeigt hast, wie ich meine Affiliateseite mit Dir abschießen kann.
…dass Du einen Traffic-Einbruch von über 70% verschuldet hast.
…dass Du mir sofort begegnest, sobald ich in WordPress den Reply-Link aktiviere.
…dass Du mich bei Google als Spamer darstehen lässt, indem Du tausende von URLs erzeugst.
…dass Du unglaubliche Mengen von Dublicate Content fabrizierst, ohne mich vorher um Erlaubnis gefragt zu haben.
Aber vorallem Danke ich Dir, dass ich dich wieder losgeworden bin!

Ob dein Blog ebenfalls vom Replytocom-Parameter-Problem betroffen ist, erfährst Du, indem Du folgenden Suchbefehl in Google
abfragst: site:http://meine-blog-url.de inurl:replytocom . In einem anderen großen SEO-Blog sind die Reply-Links ebenfalls follow und somit hat Google dort bereits fast 10.000 doppelte Seiten indexiert, siehe Screenshot:
replycomto, dublicate content, seo united, robots.txt

Zeigt die oben stehende Site-Abfrage für deinem Blog auch doppelte Inhalte im Index an?
Dann solltest Du schnell handeln und die von ?Replytocom erzeugten URLs von der Indexierung ausschließen lassen. Stehen beispielsweise hundert Kommentare unter einem Post, sorgt die Reply-Funktion in WordPress zum Einen dadurch dafür, dass unter jedem Kommentar ein "hierauf antworten" Link steht -was zwar super cool ist-, aber leider zeichnet sie auch dafür verantwortlich, dass jetzt mind. Hundert redundante URLs mit der Variable ?replytocom= erzeugt werden, die allesamt crawlbar sind und zu allem Übel auch noch den gesamten Post als Dublette beinhalten. Das gefundene Fressen für einen hungrigen Google-Panda also!

…Die Links der Kommentatoren setzt WordPress standardmäßig alle auf no-follow, aber den Reply-Link geben sie zur Indexierung frei??? Äußerst seltsame Logik, findet Ihr nicht auch?

Wie auch immer, ich zeige Dir jedenfalls in diesem Post jetzt einen idiotensicheren Weg auf, wie Du dieses durch WordPress verschuldete SEO-Problem schnell und unkompliziert lösen kannst.

Webmaster Tools: Parameter ausschließen lassen

1. Besuche die Google Webmaster-Tools
2. Wähle in der Website-Verwaltung den betroffenen Blog aus
3. Klicke im Menü links auf Konfiguration und dann auf URL-Parameter
4. Es erscheint ggf. folgende Warnmeldung:

Der Googlebot hat momentan keine Probleme mit dem Crawlen Ihrer Website, daher müssen Sie keine URL-Parameter konfigurieren. Falsch konfigurierte Parameter können bewirken, dass Seiten Ihrer Website aus unserem Index entfernt werden, daher empfehlen wir, dieses Tool nur bei Bedarf einzusetzen. Verwenden Sie diese Funktion nur, wenn Sie mit der Funktionsweise von Parametern vertraut sind. Wenn Sie URLs fälschlicherweise ausschließen, kann dies dazu führen, dass viele Seiten aus
der Suche verschwinden.

Lasse Dir hier von Gaoggl ja keine keine Angst einjagen! Übergehe diese Meldung einfach. Denn wir haben eine wichtige Mission zu erledigen, die da lautet: Die bepissten drecksReplytocom-URLs in den Webmaster Tools ausschließen zu lassen!

Hast Du alles richtigt befolgt, dann erscheint jetzt eine Liste mit erkannten Parametern für deinen WordPress-Blog. Ist dort in der Übersicht jedoch kein replytocom aufgeführt, musst Du ihn durch Klick auf Parameter hinzufügen selbst hinzufügen. Als Nächstes modifiziere die Crawling-Handhabung der Parameter-URLs, indem Du auf Bearbeiten klickst. Es erscheint sodann ein Auswahlfenster zu "Parameter: replytocom", welches Du folgendermaßen editierst:
-Unter Ändert dieser Parameter den Seiteninhalt, der dem Nutzer angezeigt wird? wählst Du Ja: ändert oder sortiert den Seiteninhalt oder grenz ihn ein.
-Unter Wie wirkt sich dieser Parameter auf den Seiteninhalt aus? wählst Du Seitenauswahl (Zeigt eine bestimmte Seite eines langen Artikels an).
-Unter Welche URLs mit diesem Parameter soll der Googlebot crawlen? wählst Du Keine URLs (kann Inhalte vor dem Googlebot verbergen, überschreibt Einstellungen für andere Parameter). Gut, nun kannst Du auf Speichern drücken.

Mit dieser Einstellung wird dem Googlobot also zukünftig gesagt, wie er den "?replytocom=" Parameter in allen URLs handhaben soll. Damit ist das SEO-Problem allerdings noch nicht zu 100% behoben, denn zum Einen richtet sich die URL-Parameter-Einstellung in den WTs nur an Google -andere Crawler bekommen davon logischerweise nichts mit-, und außerdem verlieren wir durch die Reply-Links noch immer eine Menge Linkjuice, der ja unseren treuen Kommentatoren vorbehalten sein sollte (sofern wie den Blog auf doFollow eingestellt haben); Deshalb müssen wir diese Links via Robots.txt und/oder Function.php auf no-follow & no-index setzen, damit alle zusammen gebastelten Replytocom-URLs aus dem Google-Index verschwinden.

Reply-Links in WordPress no-follow machen

Um den "Auf Kommentare antworten" Link für Goglle unsichtbar (no-follow) zu machen, brauchst Du Zugriff auf die Function.php Datei deines WordPress-Themes. Du findest sie im Admin-Menü unter → Design → Editor. Fallst Du diese Datei noch nie zuvor bearbeitet haben solltest, mache vorher am besten ein Datenbank Backup und schaue Dir vorab das folgende Youtube Tutorial dazu an. Wenn Du bereits Erfahrungen mit der WP Theme-Bearbeitung hast, füge folgenden Code-Snippet (via paulund) in die function.php deines WordPress Blogs ein:

/**
* Add a rel="nofollow" to the comment reply links
*/
function add_nofollow_to_reply_link( $link ) {
return str_replace( '")\'>', '")\' rel=\'nofollow\'>', $link );
}
add_filter( 'comment_reply_link', 'add_nofollow_to_reply_link' );

Zugriff auf Dateien mit Replytocom-Variablen verbieten

Mit der Robots.txt Datei kannst Du bestimmen, welcher Crawler welche Verzeichnisse & Dateien auslesen darf und welcher nicht. Diese Datei enthält Anweisungen für Suchmaschinen-Robots wie Googlebot oder BingBot. Weitere Informationen zu diesem Thema findest Du unter: Robots.txt. Wir werden unsere Robots.txt also jetzt so anpassen, dass den wichtigsten Suchmaschinen-Bots der Zugriff auf Webdokumente grundsätzlich verboten wird, sofern in der URL eine Variable des Typs ?replytocom= vorkommt. Die meisten Suchmaschinen -außer den Spambots natürlich- werden diese Anweisung (hoffentlich) berücksichtigen.

Um die "?replytocom=" Urls in Google zu entfernen und die Indexierung derselben zu verhindern und um damit Dublicate Content einzudämmen, trage in die Robots.txt Datei deines Blogs folgende Crawling-Befehle ein: Disallow: /*?replytocom=* sowie Noindex: /*?replytocom=*.

Ein Beispiel für eine SEO-optimierte Robots.txt findest Du übrigens hier: http://dofollow.de/robots.txt. Die .htaccess können wir dafür übrigens nicht verwenden, da sie die Reply-Link-Funktion auch für Besucher automatisch unterdrücken würde. Als Alternative bietet sich jedoch noch das Plugin WordPress SEO by Yoast an, dort kann man ebenfalls die Replytocom-URLs entfernen lassen, das hat aber den Nachteil, dass die Reply-Link-Funktion dann nicht mehr funktioniert, sobald ein Besucher Javascript deaktiviert hat.
Für den Fall, dass Google die Robots.txt doch ignorieren sollte, kann man in die Header.php noch folgenden Code einfügen, der generell Probleme mit Dublicate-Content ziemlich gut minimiert:


<?php 

if ( is_singular() ) echo '<link rel="canonical" href="' . get_permalink() . '" />';

 ?>

Zu guter Letzt noch ein anderes Beispiel für ein häufiges Dublicate-Content Problem im Kommentarbereich von WP-Blogs: Wenn Du die Kommentare seitenweise darstellst, also sie über die "Comments-Page" Folgeseiten aufteilst, wird jedesmal eine vollständige Kopie des Artikels erzeugt, was deinen Blog sein eigenes SEO-Grab schaufeln lässt. Hier empfehle ich das Remove duplicated post content on comments pages WordPress-Plugin zu nutzen. Dann noch ordentliche Canonical Meta-Tags mit dem Plugin SEO No Duplicate draufpacken und dem Panda wird endlich sein scheiß Maul gestopft!

Facebook Like
Autor: Martin Osman Hamann »

Martin Osman Hamann bloggt hier schon seit 2009 und es ist immer noch so aufregend wie am Ersten Tag. Was wahrscheinlich daher rührt weil er bisher nur 1 Artikel oder so veröffentlicht hat :)

Diesen Blog-Autor abonnieren:

Auf Facebook teile ich persönliche Dinge und stelle neue Projekte vor
YouTube nutze ich zurzeit noch nicht voll aus, kann aber noch kommen
Auf Google+ poste ich vorallem lustige Gifs und krankes Zeug
  Auf Twitter retweete ich lustige Tweets und twittere meine Posts
  Auf SoundCloud reposte ich Songs die ich gerne höre & lege Listen an
This post has been viewed 53.769 times

11 Kommentare

doFollow
  1. Hallo Martin,

    vielen Dank für deinen großartigen Beitrag zu dem Thema. Wir waren (sind) von dem Problem auch betroffen. Vor cirka 4 Monaten haben wir das festgestellt. Leider gab es zu diesem Zeitpunkt noch keine gute Informationen zu diesem Thema. Deshalb haben wir uns an den amerikanischen Blogs orientiert, die hatten sich schon etwas früher damit befasst.

    Was den Einbruch der Besucher betrifft, die 70% kann ich bestätigen. Bei uns waren es ca. 12.100 Replytocom-Seiten (z.z.g.l der comment-page-seiten), wir sind jetzt runter auf (angeblich) 55 Ergebnisse. Allerdings gibt es immer noch Wiederholungen bei der Site-Abfrage.

    So what! Google lässt sich bei diesen Dingen gerne sehr viel Zeit. Den Menüpunkt URL-Parameter in den WMT sollte man öfters besuchen. Ansonsten bekommt man nämlich nicht mit, was der Bot sonst noch für einen Dreck spidert. Der werden Parameter von Javascripten übernommen etc.

    Eine kleine Anmerkung hätte ich noch zu deiner Howto, wir haben den Replytocom-Dreck noch ein 410 für Gone in unserer htaccess mitgegeben.

    RewriteCond %{QUERY_STRING} replytocom=
    RewriteRule ^(.*)$ page_not_found.html [R=410,L]

    Die page_not_found.html kann man selber anlegen, muss man aber nicht. In aller Regel gibt der Server seine 410 Seite aus. Damit wird dem Bot signalisiert, dass die Seiten mit dem Parameter replytocom für immer weg sind. Das hilft auch.

    Ansonsten kann ich nur jedem DISQUS empfehlen, gibt es ja als Plugin. Das Replytocom Problem ist damit endgültig weg. Zu dem haben wir seit dem keinerlei SPAM mehr. Das Askimet Plugin oder andere SPAM Plugins kann man abschalten, und die ID von Askimet kann man auch bei DISQUS verwenden.

    Viele Grüße,

    Rob

  2. Hallo Martin,

    eine Frage hätte ich noch. Sind die Besucher eigentlich wieder zurück gekommen, nach deinen Änderungen?

    Viele Grüße,
    Rob

  3. Aloha @ Rob:

    "Sind die Besucher eigentlich wieder zurück gekommen, nach deinen Änderungen? "

    Nein. Am 11.01.2013 hatte die Seite noch 637 Besucher, und gestern nur noch 330.
    Die Startseite wird -30,77 % weniger häufig aufgerufen und der trafficstärkste Artikel weist einen Rückgang um -49,84 % auf.

    Ich glaube aber auch, dass der Faupax mit dem Reply-Link nur
    der Tropfen war, der das Faß zum Überlaufen brachte…..

    Ansonsten habe ich keine Idee, woran diese mysteriöse Abstrafung liegen könnte,
    Sehr schade, denn diese Seite war definitiv eine meiner wichtigsten Einnahmequellen. Habe Stunden über Stunden in die Content-Erstellung gesteckt und nun weiß ich nicht, ob sie sich jemals wieder erholt!

    Cheers

  4. Ich war heute ganz entsetzt als ich bei Google die Site-Abfrage gemacht habe und dann einige replaytocom entdeckte. Unglaublich dieses WordPress. Manchmal frage ich mich was das für Leute programmieren. Vieles was man sich mühsam über Plugins zusammen suchen muss gehört meiner Meinung nach direkt ins Programm. Vielen Dank für den Code Schnippsel.

  5. Übrigens, ich habe heute noch diesen Artikel zum Thema gefunden. Der empfiehlt nichts an der Robot.txt zu machen. Und er hat Recht:

    http://www.bloghelpdesk.com/remove-replytocom-from-google-search-results/

  6. @Dominik

    sie hat sich etwas erholt, so ganz an die alten Besucherzahlen kommt sie aber leider nicht mehr heran. Gestern hatte der Blog 465 Besucher, das sind ca. 400 weniger als vor der Abstrafung.

  7. Gut, vielleicht ist an dem jetzigen Ranking zusätzlich ein Google-Update schuld, sodass sich Deine Seite so oder so etwas verschlechtert hat.
    Ich hatte das Glück, dass mein WordPress-Theme alle reply’s nicht indexiert, es handelt sich um das twenty fifteen theme. Sonst wäre ich jetzt auch am Arsch gewesen.

  8. Hallo Martin,

    wie kommst Du darauf, dass in der Robots.txt Noindex Anweisungen hineingehören? Meines Wissens nach gibt es da nur "allow", "disallow", "User-Agent" & "Sitemap". Falls Du da was findest, was auch direkt von Google so kommuniziert wird, lasse mich das doch bitte wissen.
    Danke und VG
    Meicel

Die Kommentarspalte wurde geschlossen.