BLOQUEAR A LOS BOTS

Google bot

El bot o crawler que más nos gusta a los que trabajamos posicionando páginas web es googlebot y salvo en contadas ocasiones nos gusta que copie el contenido de nuestras páginas, se las guarde en sus discos duros y haga lo que quiera con ellas. Nos gustaría que el resultado de esta copia nos posicione lo más arriba posible en su índice.

Google es considerado bueno porque pese a que piratea nuestras páginas nos suele devolver tráfico y éste tráfico para muchos es dinero. Lo mismo ocurre con los bots de los demás buscadores.

La forma de actuar de un bot es realmente siniestra. Entra en nuestra página e intenta recorrer un número determinado de páginas indicado por su propio algorítmo de indexación  para copiar nuestro contenido.

Hace unos años el trabajo al mismo tiempo de varios de estos bots llegó a tumbar una de mis webs. Por ello, desde entonces intento frenar el uso indiscriminado que hacen los bots de la web.

Si hablamos de googlebot, en general, podemos dejarle hacer lo que quiera. Tiene un sistema que detecta incluso cual es la mejor hora para entrar en tu servidor. De todas formas, lo que se suele hacer con estos bots es poner un delay en el robot.txt. Como ejemplo, un sencillo delay para el extinto bot de telefónica:

User-agent: noxtrumbot
Crawl-delay: 50

El problema es que hay muchos bots que no respetan el archivo robots.txt por lo cual hay que bloquearlos directamente desde el .htaccess.

Las razones para bloquear estos bots son realmente importantes. He aquí unas cuantas:

MajesticSEO

Se está convirtiendo en una herramienta muy utilizada para ver como están enlazados los dominios de tu competencia. Bloqueándolo impides a los profesionales que la utilizan averiguar que tu red de blogs está enlazando a un determinado cliente.

Copyscape

Detecta contenido duplicado en la red. Si eres de los que copias contenidos de otros debes bloquearlo.

TwengaBot

Coge el contenido de tus productos e intenta posicionarse por ellos. Hay gente que lo ve como positivo si tu web carece de posicionamiento.

BPImageWalker

Busca imágenes con copyright. Ante la duda mejor bloquearlo. Cuando detecta una imagen busca si tienes licencia. En caso negativo intenta demandarte por una cantidad cercana a los 1000 dólares.

La lista es interminable y éstos son sólo un ejemplo. Lo ideal es programar un servicio de detección de bots para decidir sobre su posterior bloqueo. Muy útil para webs con alto tráfico.

Ejemplo de bloqueo:

RewriteCond %{HTTP_USER_AGENT} ^(turingos|turnitinbot|urly.?warning|vacuum|vci|voideye|whacker) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(wget|widow|wisenutbot|wwwoffle|xaldon|xenu|zeus|zyborg|anonymouse) [NC,OR]
# STARTS WITH WEB
RewriteCond %{HTTP_USER_AGENT} ^web(zip|emaile|enhancer|fetch|go.?is|auto|bandit|clip|copier|master|reaper|sauger|site.?quester|whack) [NC,OR]
# ANYWHERE IN UA — GREEDY REGEX
RewriteCond %{HTTP_USER_AGENT} ^.*(craftbot|TwengaBot|download|extract|stripper|sucker|ninja|clshttp|webspider|leacher|collector|grabber|webpictures|ia_archiver-web.archive.org).*$ [NC]

# ISSUE 403 / SERVE ERRORDOCUMENT
RewriteRule . – [F,L]

deny from 216.120.143.126

P.S.: Hay múltitud de trucos en esta lucha sin final.

La pregunta del millón:

¿Qué hacen los bots en una web?

Respuesta sencilla: Seleccionar información de tu página, almacenarla en sus discos duros y …

Suponemos que sacar algún beneficio de esa información.

P.S.: Recuerdo a los de twenga primero me llamaron por teléfono pidiendo un xml y les dije que no. Luego pusieron su bot y los tuve que bloquear. Si tanto interés tenían me podían haber hecho una oferta económica por mi base de datos 🙂

consultor seo valencia

Consultor SEO Valencia

Mejoremos tu posicionamiento en Google

Deja un comentario

× ¿Cómo puedo ayudarte?