SEO en profundidad: comprensión y optimización de WordPress Robots.txt

Cuando se trata de SEO, la mayoría de las personas tienen una comprensión decente de los elementos básicos. Saben sobre las palabras clave y cómo deberían aparecer en diferentes lugares de su contenido. Se enteraron de SEO en la página y tal vez incluso dieron un torbellino de complemento de SEO de WordPress. Sin embargo, si se hunde en la optimización esencial para los motores de búsqueda, hay algunas piezas bastante oscuras del rompecabezas que no todos saben, uno de ellos es los archivos robots.txt. ¿Cuáles son los archivos robots.txt y para qué se usan? Un archivo Robots.txt es un archivo de texto que está en su servidor contiene reglas para indexar su sitio y es una herramienta para comunicarse directamente con los motores de búsqueda.
Básicamente, el archivo dice qué partes de su sitio de Google tienen permiso para indexar y qué partes deben dejar en paz. Sin embargo, ¿por qué le diría a Google que no acceda a algo en su sitio con rastreadores? ¿No es eso dañino desde la perspectiva de SEO? De hecho, hay muchas razones por las que le diría a Google que no acceda a algo en su sitio. Uno de los usos más comunes de robots.txt es la exclusión de un sitio web de los resultados de búsqueda que todavía se encuentra en la etapa de desarrollo. Lo mismo es cierto para una versión de preparación de su sitio, en la que intenta cambios antes de enviarlos a la versión en vivo.
O tal vez tenga algunos archivos en su servidor que no desea aparecer en Internet, porque son solo para sus usuarios. ¿Es absolutamente necesario tener un robots.txt? ¿Tienes absolutamente tener un robots.txt en su lugar? No, su sitio de WordPress será indexado por motores de búsqueda incluso sin ese archivo presente. De hecho, WordPress ya contiene un robots virtual.txt. Dicho esto, continuaría recomendando crear un niño físico en su servidor. Hará las cosas mucho. Sin embargo, una cosa que debe tener en cuenta es que no se puede imponer escuchar robots.txt. El archivo será reconocido y respetado por los principales motores de búsqueda, pero los rastreadores maliciosos y los rastreadores de búsqueda de baja calidad podrían ignorarlo por completo. ¿Cómo creo uno y dónde lo pongo? Crear su propio archivo robots.txt es tan fácil como crear un archivo de texto con el editor elegido y nombrar robots.txt. Simplemente guarde y termine. En serio, es muy fácil. Ok, es un segundo paso involucrado: cargarlo a través de FTP. El archivo generalmente se coloca en la carpeta raíz, incluso si movió WordPress a su propio director. Una buena regla general es ponerlo en el mismo lugar con index.php, esperar a que la carga termine y ya termine. Tenga en cuenta que necesitará un archivo Robots.txt separado para cada subdominio de su sitio y para varios protocolos, como HTTPS.
Cómo establecer reglas dentro de robots.txt
Ahora pasemos un tiempo hablando de contenido. Robots.txt tiene su propia sintaxis para definir las reglas. Estas reglas también se llaman “directivas”. A continuación, analizaremos cómo puede usarlos para informar a los rastreadores lo que pueden y no pueden hacer en su sitio sus robots básicos. Sintaxis de txt Si ha sacudido la cabeza a la palabra “sintaxis”, no y preocupación, no Tengo que aprender un nuevo lenguaje de programación. Los pedidos disponibles para las directivas son pocos. De hecho, conocer solo dos de ellos es suficiente para la mayoría de los fines: el agente de usuario define el rastreador del motor de búsqueda

No le promplementa al rastreador para mantenerse alejado de los archivos, páginas o directores definidos
Si no establece diferentes reglas para diferentes rastreadores o motores de búsqueda, se puede usar un asterisco (*) para definir directivas universales para todos. Por ejemplo, para bloquear a todos en todo el sitio web, configuraría robots.txt de la siguiente manera: Usuario: *
No permite: / Esto prácticamente dice que todos los directores están prohibidos para todos los motores de búsqueda. Lo que es importante recordar es que el archivo usa rutas relativas (y no absolutas). Debido a que robots.txt está en su directorio raíz, la barra oblicua indica una prohibición de esta ubicación y todo lo que contiene. Para definir directores únicos, como su carpeta de medios, como prohibido, debe escribir algo como/wp-content/uploads/. Además, tenga en cuenta que las formas tienen en cuenta la parte superior y en minúsculas.
Si tiene sentido para usted, también puede permitir y prohibir algunas partes de su sitio para ciertos robots. Por ejemplo, el siguiente código dentro de Robots.txt solo le daría a Google acceso completo a su sitio web, manteniendo a todos los demás: Usuario: Googotnu Permitir:
Agente de usuario: *
No permite: / nota que las reglas para ciertos rastreadores deben definirse al comienzo del archivo robots.txt. Después de eso, puede incluir un agente de usuario:* comodín como una directiva de atrapar para todas las arañas que no tienen reglas explícitas. Los nombres que vale la pena señalar a los usuarios incluyen:
Google Google
Imagen de Google-Image-Google
Googlebot-News-Google News
Bingbot – Bing
Yahoo! Slurp – Yahoo (¡una excelente opción en nombre, Yahoo!)
Se pueden encontrar más aquí:
UserAgentString.com
User-agent.org
Nuevamente, permítame recordarle que Google, Yahoo, Bing y otros generalmente respetarán sus directivas de archivo, sin embargo, no hay ningún rastreador allí. La sintaxis adicional no permite el agente de usuario no son las únicas reglas disponibles. Aquí hay algunos más:
Permite: explícitamente le permite rastrear una entidad en su servidor
Mapa del sitio: indique a los rastreadores dónde está el mapa de su sitio
Host: define su dominio favorito para un sitio que tiene múltiples espejos
Retraso de rastreadores: establezca el intervalo de tiempo en el que los motores de búsqueda deben esperar entre las solicitudes al servidor
Hablemos de Permitir primero. Una idea errónea común es que esta regla se usa para decirle a sus motores de búsqueda que revisen su sitio y, por lo tanto, es importante por razones de SEO. Por esta razón, encontrará lo siguiente en algunos archivos de robots.txt: Agente de usuario: *
Permite: / Esta directiva es redundante. ¿Por qué? Porque los motores de búsqueda consideran todo lo que no está específicamente prohibido en su sitio como un juego correcto. Si les dice que permite que los rastreadores accedan a todo el sitio, no cambiará mucho a este respecto. En cambio, la Directiva Permitir se usa para contrarrestar la no permitir. Esto es útil si desea bloquear un directorio completo, pero da acceso a acceso a uno o más archivos específicos dentro de él, de la siguiente manera: Usuario: *
Permitir: /my-directory/my-file.php
No permita: / Mi director / motores de búsqueda permanecerían lejos de mi directorio en general, pero continúe accediendo a my-file.php. Sin embargo, es importante tener en cuenta que primero debe ubicar la Directiva Permitir que funcione.
Algunos rastreadores aceptan la directiva de mapa del sitio. Puede usarlo para decirles dónde encontrar el sitio del sitio de su sitio y se vería así: el mapa del sitio: http://mysite.com/sitemap_index.xml
Mapa del sitio: http://mysite.com/post-sitemap.xml
Mapa del sitio: http://mysite.com/page-sitemap.xml
Mapa del sitio: http://mysite.com/category-sitemap.xml
Mapa del sitio: http://mysite.com/post_tag-sitemap.xml La directiva puede estar en cualquier lugar del archivo robots.txt. En general, los propietarios del sitio eligen colocarlo al principio o al final. Sin embargo, su utilidad es cuestionable. Por ejemplo, Yoast tiene los siguientes pensamientos sobre él: “Siempre sentí que conectarse a su sitio XML en robots.txt es estúpido. Debe agregarlos manualmente a las herramientas webmaster de Google y Bing y asegurarse de mirar sus comentarios en su sitio XML “. -Jook de Valk es, por lo tanto, depende de usted si lo agregará o no a su archivo. Host y Crawl-Delay son dos directivas que nunca he usado. El primero le dice a los motores de búsqueda que se prefieren si tiene más espejos de su sitio. El último establece la cantidad de segundos que los rastreadores deben esperar a los corredores.
Debido a que ambos no son tan comunes, no voy a ingresarlos demasiado, pero quería incluirlos para completarlos. Cosas avanzadas conmigo? Bien hecho. Ahora se vuelve un poco más complicado. Ya sabemos que podemos establecer comodines a través de un asterisco de agente de aster. Sin embargo, lo mismo es cierto para otras directivas. Por ejemplo, si desea bloquear el acceso a todas las carpetas que comienzan con WP-, le puede gustar esto: Usuario: *
No permita: / wp-* / tiene sentido, ¿verdad? Lo mismo funciona con los archivos. Por ejemplo, si mi objetivo fuera excluir todos los archivos PDF de mi carpeta de medios de la apariencia en SNP, usaría este código: Usuario: *
No permita: /wp-content/uploads/*/*/*.pdf Tenga en cuenta que he reemplazado los directorios de luna y día que WordPress configura automáticamente con Metacracter, para garantizar que todos los archivos con este fin sean atrapados, independientemente de los momento en que fueron cargados. Si bien esta técnica hace un buen trabajo en la mayoría de los casos, a veces es necesario definir una cadena por su fin, en lugar del comienzo. Aquí es útil el comodín del signo del dólar: Agente de usuario: *No permita: /page.php$ La regla mencionada anteriormente asegura que solo página.php está bloqueado y no page.php? Id = 12. El letrero de dólar le dice a los motores de búsqueda que Page.php es el final de la cadena. Cuidado, ¿verdad? Bien, pero ¿qué debo poner ahora en mi archivo robots.txt?
Veo que te impacientas. ¿Dónde está el código? ¿No hay algunas directivas optimizadas que pueda publicar aquí para copiar, pegar y terminar en este tema? Por mucho que me gustaría esto, la respuesta es, desafortunadamente, no. ¿Por qué? Bueno, una de las razones es que el contenido de robots.txt realmente depende de su sitio. Es posible que tenga algunas cosas que prefiera mantenerse alejadas de los motores de búsqueda, que a otros no les importa. En segundo lugar, y lo más importante, no hay un estándar de acuerdo para las mejores prácticas y formas óptimas de configurar robots.txt en términos de SEO. Todo el tema es un poco de debate. Lo que hacen los expertos, por ejemplo, yoast solo tiene lo siguiente en robots.txt: agente de usuario: *
No permita: / OUT / Como puede ver, lo único que prohíbe es su director “externo”, que alberga sus enlaces de afiliación. Cualquier otra cosa es un juego correcto. La razón es esta: “Google ya no es el niño malo que solo se hace cargo del HTML de sus sitios e ignora su estilo y JavaScript. Toma todo y juega las páginas por completo. Esto significa que cuando rechaza el acceso de Google a los archivos CSS o JavaScript, no le gusta en absoluto “. -Yoast hasta ahora, Google mira su sitio en general. Si bloquea los componentes de estilo, su sitio pensará que parece un tonto y lo penaliza con efectos devastadores. Para verificar cómo Google ve su sitio, use “asumir el cargo de Google” y luego “hacerse cargo y jugar” en la sección de acceso a los rastreadores desde Google para Webmasters. Si Robots.txt es demasiado restrictivo, su sitio probablemente no se verá como desee y tendrá que hacer algunos ajustes. Además, Yoast recomienda insistentemente que no use directivas robots.txt para ocultar contenido de baja calidad, como categoría, fecha y otros archivos, pero trabaje con Nindex, siga el metaetichet. Además, tenga en cuenta que no hay referencia al mapa del sitio en su archivo por el motivo mencionado anteriormente. El fundador de WordPress, Matt Mullenweg, adopta un enfoque minimalista similar: Agente de usuario: *No permita:

Usuario del agente: MediaPartners-Google*
No permitir:
Agente de usuario: *
No permita: /dropbox

No permite: /contactar
No permita: /blog/wp-login.php
No permita: /Blog /WP-Admin puede ver que solo el Dropbox y la carpeta de contacto, además de los archivos y carpetas importantes para WordPress.Si bien algunas personas hacen esto por razones de seguridad, ocultar la carpeta WP-Admin es algo en lo que yoast realmente aconseja.Nuestro próximo ejemplo proviene de WPBeginner: AGENTO DE USUARIO: *Permitir: /? Display = amplio
Permite:/wp-content/uploads/
No permita:/WP-Content/Plugins/
No permita: /ReadMe.html
No permita: /referir /
Mapa del sitio: http://www.wpbeginner.com/post-sitemap.xml
Mapa del sitio: http://www.wpbeginner.com/page-sitemap.xml
Mapa del sitio: http://www.wpbeginner.com/deals-sitemap.xml
Mapa del sitio: http://www.wpbeginner.com/hosting-sitemap.xml Puede ver que bloquea sus enlaces afiliados (consulte la carpeta “referir”), así como complementos y readme.html. Como se explica en este artículo, este último evita los interrogatorios maliciosos que se dirigen a ciertas versiones de WordPress. Al prohibir el archivo, es posible que pueda protegerse de los ataques masivos. Bloquear la carpeta de complementos también tiene el propósito de evitar que los piratas informáticos pasen a través de complementos vulnerables. Aquí adoptan un enfoque diferente a Yoast, que cambió esto no hace mucho, de modo que el estilo de las carpetas de complementos no se pierda. Una cosa que WPBeginner hace diferentes de los otros dos ejemplos es la configuración explícita del contenido/cargas WP para “permitir”, incluso si no está bloqueada por ninguna otra directiva. Dicen que esto es para que todos los motores de búsqueda incluyan esta carpeta en la búsqueda. Sin embargo, realmente no veo el significado en esto, porque el enfoque predeterminado de los motores de búsqueda es indexar todo lo que pueden poner. Por lo tanto, no creo que les permita rastrear algo específicamente ayudará demasiado. El veredicto final es con yoast cuando se trata de la configuración de robots.txt. Desde la perspectiva de SEO, es lógico darle a Google lo más posible para que pueda comprender su sitio, si hay piezas que desea conservar para usted (como enlaces afiliados), no las permita como desee. Esto va de la mano con la sección relevante del códice de WordPress:
“La adición de entradas a robots.txt para ayudar a SEO es un error popular. Google dice que puede usar robots.txt para bloquear partes de su sitio, pero prefiere no hacerlo. Use las etiquetas de noindex en su lugar, para abordar las partes de baja calidad de su sitio en 2009, Google ha sido cada vez más vocal en su consejo para evitar bloquear los archivos JS y CSS, y el equipo de Google para la calidad de la búsqueda, ha sido cada vez más activo para promocionar Una política de transparencia de WebMasters, para ayudar a Google a verificar que no “desim” o conectarnos. al spam estético en las páginas bloqueadas. Por lo tanto, el archivo robot ideal no permite nada y se puede conectar a un mapa del sitio XML si se ha construido uno preciso (¡lo cual es raro!). WordPress bloquea implícitamente solo unos pocos archivos JS, pero está casi de acuerdo con la guía de Google aquí “. Bastante claro, ¿no? Tenga en cuenta que si decide crear un enlace a un mapa del sitio, definitivamente debe enviarlo directamente a sus webmasters. Lo que sea que decidas hacer, ¡no olvides probar tu mapa del sitio! Esto se puede hacer de las siguientes maneras: vaya a yourrsite.com/robots.txt para ver si aparece
Ródelo a través de una herramienta de prueba para encontrar errores de sintaxis (por ejemplo, esto)
Toma y juega para verificar si Google ve lo que quieres ver
Preste atención a los posibles mensajes de error de Google Toleys para Webmasters

Copyright statement: Unless otherwise noted, this article is Collected from the Internet, please keep the source of the article when reprinting.

Check Also

gkOVSBm5B8SgiXmo

Shopify vs WooCommerce – ¿Cuál es la mejor plataforma?(Comparación)

Shopify vs WooCommerce

Leave a Reply

Your email address will not be published. Required fields are marked *