Hacemos Blogging como recurso educativo para un aprendizaje colaborativo

Tenga los Los Robots Web a su Favor

>> domingo, 13 de junio de 2010

Los robots web (también conocidos como Web Wanderers, Crawlers, o arañas), son programas que recorren la Web de forma automática para solicitar información de los mismosCuando un robot visita una página, lo primero que hace, es solicitar el archivo / robots.txt, el cual le dice al robot, si tiene permiso para indexar la pagina, y qué contenido de esta puede visitar. Los motores de búsqueda como Google los utilizan para indexar el contenido de su sitio web, los spammers los utilizan para buscar direcciones de correo electrónico y hacer de las suyas.


Acerca de / robots.txt

Los propietarios de sitios Web utilizan el archivo / robots.txt  para dar instrucciones sobre su sitio web a los robots de búsqueda, lo que se llama El Protocolo de Exclusión de Robots.

¿Qué pasa cuando un robot quiere visitar una página Web URL?

Por ejemplo http://www.example.com/welcome.html. Antes de hacerlo, lo verifica primero http://www.example.com/robots.txt y encuentra:

  User-agent: *
 Disallow: /

El "User-agent: *" significa que esta sección se aplica a todos los robots. Disallow ": /" indica al robot que no debe visitar las páginas del sitio.

Hay dos consideraciones importantes cuando se utiliza / robots.txt:
  1. los robots pueden ignorar su / robots.txt. Especialmente los robots que escanean malware de la web en busca de vulnerabilidades de seguridad, y la dirección de correo electrónico recolectado por los spammers para vender las direcciones de correo electrónico.
  1. el fichero / robots.txt es un archivo a disposición del público. Cualquiera puede ver qué secciones de su servidor tiene y puede indicar cuales no desea que vean.
Así que no trate de usar / robots.txt para ocultar información, porque, si lo descubren los motores de búsqueda, no lo visitará nadie.

¿Se pueden bloquear los robots dañinos?

En teoría sí, en la práctica no. Si ha identificado que un robot dañino visita su página, y usted sabe su nombre explora el campo User-agent. Entonces usted puede crear una sección en su archivo / robotst.txt y excluirlo específicamente. Pero casi todos los robots maliciosos ignoran los / robots.txt.

Si el robot malicioso opera desde una única dirección IP, puede bloquear su acceso a su servidor web a través de la configuración del servidor o con un firewall de red.

Si el robot copia gran cantidad de direcciones IP, de varias PCs que son parte de una gran red de PC´s, entonces se vuelve más difícil. La mejor opción entonces es utilizar las reglas de configuración de seguridad de su servidor para que en forma automática bloquee el acceso a las direcciones IP que desean hacer muchas conexiones, pero el problema es que se reciben tanto robots buenos como malos.


¿Por qué los robots ignoran su / robots.txt?

Podría ser porque fue escrito por un programador de software sin experiencia. En estos días es más probable que el robot esté explícitamente escrito para analizar su sitio, en lugar de obtener información de los abusos, es más rentable, pero poco ético recoger direcciones de correo electrónico y venderlas para enviar spam.


Implicaciones de Seguridad

Algunas personas están preocupadas porque en sus páginas de venta o páginas de aterrizaje, puedan tener accesos maliciosos a través de estos robots y logren robarles su dinero de sus cuentas de banco.

La verdadera respuesta es que / robots.txt no fue diseñado para controlar el acceso, así que no trate de utilizarlo como tal. Piense en ello como una señal de "Prohibido el Paso", como una puerta cerrada con llave. Si usted tiene archivos en su sitio web que no desea que personas no autorizadas accedan a ellos, configure el servidor para hacer la autenticación, genere la autorización correspondiente y configúrelo. La autenticación básica ha estado presente desde los primeros días de la web. Hoy en día existen sistemas de gestión modernos de contenido compatibles con los controles de acceso a páginas individuales y sus recursos en forma segura.

¿Cómo crear un fichero / robots.txt en caso de que desee ponerlo?

Cuando un robot visita el archivo "/ robots.txt", se elimina el componente de ruta de la URL (todo desde la barra inicial), y pone el  archivo "/ robots.txt" en su lugar.

Por ejemplo, para "http://www.example.com/shop/index.html, eliminará el" / shop / "index.html, y lo sustituirá por" / "robots.txt, y terminará así "http://www.example.com/robots.txt".

Así que, como propietario de un sitio web usted necesita ponerlo en el lugar correcto en el servidor web para que funcione. Por lo general, es el mismo lugar donde pone su página de bienvenida principal "index.html".

Qué poner en él


El archivo "/ robots.txt" es un archivo de texto, con uno o más registros. Por lo general, contiene un registro único de este aspecto:

 User-agent: *
 Disallow: / cgi-bin /
 Disallow: / tmp /
 Disallow: / ~ juan /

En este ejemplo, tres directorios son excluidos.

Tenga en cuenta que necesita separar la línea "Disallow" para cada prefijo de URL que desea excluir - usted no puede decir "No permitir: / cgi-bin / / tmp /" en una sola línea. Además, no puede haber líneas en blanco en un registro, ya que se utilizan para delimitar varios registros.

Tenga en cuenta también que esta expansión en las expresiones regulares no es compatible ni en el User-agent  o en líneas Disallow. El '*' en el campo User-agent es un valor especial que significa "ningún robot". En concreto, no se puede tener líneas como "User-agent: * *" bot "Disallow: / tmp / *" o "Disallow: *. gif".

Lo que usted puede excluir depende de su servidor. Todo lo que no está explícitamente permitido es considerado legítimo para recuperar. He aquí algunos ejemplos:

Para excluir todos los robots de todo el servidor
 User-agent: *
 Disallow: /

Para permitir que todos los robots tengan acceso completo
 User-agent: *
 No permitir:

(O simplemente crear un "/ robots.txt" vacío de archivos, o no usar ninguno en absoluto)

Para excluir todos los robots de la parte del servidor
 User-agent: *
 Disallow: / cgi-bin /
 Disallow: / tmp /
 Disallow: / junk /

Para excluir un solo robot
 User-agent: BadBot
 Disallow: /

Para permitir un solo robot
 User-agent: Google
 No permitir:
 
 User-agent: *
 Disallow: /

Para excluir todos los archivos excepto uno.

Este es actualmente un poco incómodo, ya que no hay un "campo" Permitir. La forma más fácil es poner todos los archivos a ser rechazados en un directorio diferente y dejar el archivo en un nivel por encima de este directorio:

 User-agent: *
 Disallow: / ~ juan / cosas /

Como alternativa, puede explícitamente rechazar todas las páginas:

 User-agent: * Disallow: / ~ juan / junk.html Disallow: / ~ juan / foo.html Disallow: / ~ juan / bar.html 

Para aprender más acerca de robots web, visitar:

1.   La Búsqueda de la Dirección IP puede ayudar a saber más acerca de qué robots están visitando su sitio.

2.   El blog de Google: WebMaster Central Blog.

0 comentarios:

Publicar un comentario

  © Blogger template Simple n' Sweet by Ourblogtemplates.com 2009

Back to TOP