MaMo Net



#1 16.05.2008, 15:39
Betreff: Robots.txt aus der Spiderliste generieren
Nachdem ich mir grade die Administration um Robots & Bots zu verwalten angesehen habe, hätte ich dort noch einen Featurewunsch.

Bei manchen Bots wünscht man sich zwar die Indizierung, deren Zugriffe sind aber - um es gelinde auszudrücken - etwas übertrieben. (So meines Erachtens z.B. beim Gigabot)
Nun gibt es in der robots.txt die Möglichkeit einen Delay anzugeben, der auch von zivilisierten Bots eingehalten wird:

User-agent: gigabot
Crawl-delay: 10

Meine Idee wäre, den Delay bei der Botkonfiguration einstellen zu können und daraus automatisch eine neue robots.txt generieren zu lassen.

Dann noch ein Vorschlag für den Bereich Email-Grabber und Spambots. Eine ganze Reihe dieser Bots verwenden als User-Agent "Java"+ eine Versionsnummer. Ich habe einen Eintrag dafür noch nicht entdeckt.. (falls ich ihn nicht übersehen habe) daher würde ich ihn standardmässig vorschlagen.

"Java/1.4.1_04"
"Java/1.5.0_01"
"Java/1.5.0_04"
"Java/1.5.0_06"
"Java/1.5.0_09"
"Java/1.6.0_03"

Sind Beispiele für diese Art Bots.

Viele Grüße,

Mela
↑  ↓

#2 17.05.2008, 14:12
MaMo Abwesend
Administrator
Dabei seit: 06.04.2004
Beiträge: 2.675


Betreff: Re: Robots.txt aus der Spiderliste generieren
Zitat von Mela Eckenfels:
Bei manchen Bots wünscht man sich zwar die Indizierung, deren Zugriffe sind aber - um es gelinde auszudrücken - etwas übertrieben. (So meines Erachtens z.B. beim Gigabot)
Sehr wahr, Yahoo übertreibt auch sehr.

Zitat:
Nun gibt es in der robots.txt die Möglichkeit einen Delay anzugeben, der auch von zivilisierten Bots eingehalten wird:
Yahoo scheint den derzeit nicht allzu sehr zu beachten Disappointed

Zitat:
Meine Idee wäre, den Delay bei der Botkonfiguration einstellen zu können und daraus automatisch eine neue robots.txt generieren zu lassen.
Dies wird für die RC-Phase wohl nichts mehr. Die grundlegende Idee, eine robots.txt darüber generieren zu lassen finde ich allerdings gut und wird für eine spätere Version auf jeden Fall vermerkt: Task #200

Zitat:
Eine ganze Reihe dieser Bots verwenden als User-Agent "Java"+ eine Versionsnummer. Ich habe einen Eintrag dafür noch nicht entdeckt.. (falls ich ihn nicht übersehen habe) daher würde ich ihn standardmäßig vorschlagen.
Da Java eine Programmiersprache ist und viele Clienten auch über diesen User-Agent verfügen, werde ich diesen nicht generell sperren, zumindest nicht standardmäßig. Es steht euch natürlich zu das selber zu blocken, keine Frage. Effektiver wäre hier eine gezielte IP-Sperre...

Mit freundlichen Grüßen MaMo
Matthias M.
=> Support nur per Forum - dann haben alle etwas davon!
Dieser Beitrag wurde 1 mal editiert, das letzte Mal am 17.05.2008, 14:13 von MaMo. ↑  ↓

Seiten (1): 1


Alle Zeitangaben in GMT +01:00. Aktuelle Uhrzeit: 18:47.