Escondendo seus backlinks dos concorrentes

Um de meus posts mais acessados nos grupos de SEO do Facebook foi, com toda certeza, um que falo sobre como esconder os projetos webs dos crawlers das ferramentas de SEO, como o Semrush, o Ahrefs, o Moz, o Majestic e vários outros. Por isso decidi criar um artigo falando deste assunto. Espero que gostem. 🙂

O que são os crawlers também conhecidos como bots?

Os crawlers, spiders, ou bots (provenientes da abreviação da palavra robot), são sistemas utilizados para varrerem seu site em busca de informações para criação de um banco de dados próprio, seja para um mecanismo de busca indexar a informação e retornar mais rapidamente uma resposta, seja para um site de ferramentas de SEO identificar informações sobre seu site, como links de entrada e saída e palavras-chave para as quais ele rankeia bem. Essas informações são importantes não só para seu controle mas também para seus concorrentes analisarem seus projetos, pois através de bots destas ferramentas, por exemplo, um conocrrente poderá saber a origem de seus links mais poderosos, por exemplo.

Então devo esconder meu site dos bots?

Depende. Vamos a um caso onde um grande profissional de SEO possui dezenas de PBN apontando ao seu moneysite e os seus links “poderosos” estão todos apontados para essas PBNs. Neste caso você não precisa necessariamente esconder o seu moneysite dos bots. Basta você esconder suas PBNs desses bots e assim se beneficar das ferramentas para suas análises do moneysite.

Como devo fazer para esconder meus links?

Primeiramente, se você não tem qualquer familiaridade com servidores web e administração de sistemas Linux, contate seu programador ou entre em contato conosco para que realizemos este serviço pra você. Mexer nesses arquivos, sem saber o que está fazendo, pode prejudicar seu site deixando-o fora do ar e sem indexação nos motores de busca.

Mesmo com certa experiência, tenha cuidado no processo, já resolvi casos, mais de uma vez, de clientes que “se empolgaram” com a nova técnica e esconderam seus sites dos crawlers do Google e Bing. Nem preciso dizer que o resultado foi desastroso. rs

Usando o Robots.txt

A forma mais comum/simples de esconder o seu site dos crawlers das ferramentas de SEO é usando o robots.txt. Mas não recomendo utilizar o robots.txt, Por duas razões:

  • O Google ao ler o robots.txt com diversos bloqueios de crawlers de ferramentas de SEO, saberá que se você tem algo valioso a esconder deles, então temos um belo footprint aí;
  • Alguns bots maldosos podem simplesmente optar por ignorar o robots.txt, que nada mais é que um arquivo informativo e não barra os acessos em si.

Ainda assim, cito um exemplo de sintaxe de bloqueio de todos os bots menos o do Googlebot no robots.txt:

User-agent: *
Disallow: /

User-agent: Googlebot
Disallow:

Usando o .htaccess no Apache

O .htaccess é um arquivo que se encontra na pasta raiz de seu site e dá instruções a ele. Somente quem tem acesso ao .htaccess é o administrador do servidor, portanto o que você fizer aqui o Google não verá e não haverá footprint.

Eu poderia usar uma lista imensa de bots que não quero que acessem meu site, como o SemrushBot (bot do Semrush), o MJ12bot (bot do Majestic), rogerbot (bot do Moz) e ahrefsbot (bot do ahrefs). Ainda assim, alguns bots poderiam ficar de fora, como o MBCrawler do Monitor-Backlinks, que é muito pouco conhecido. Então que tal trabalharmos com exceções? Bloqueando todos os bots e permitindo apenas que os bots do Google e Bing possam “crawlear” seu site. Sintaxe:

# Verifica se o user agent é diferente do Google e do Bing
RewriteCond %{HTTP_USER_AGENT} !Googlebot [NC, OR]
RewriteCond %{HTTP_USER_AGENT} !Bingbot [NC]
# Se uma das condições ou todas forem atendidas, acesso negado.
RewriteRule ^ – [F,L]

Mas seria o ideal trabalhar com exceções? Ao menos que você tenha conhecimento profundo de todos os bots que você quer permitir, a resposta é NÃO, pois existem diversos outros bots, por exemplo, do próprio Google, que você devará permitir em diversas ocasiões, entre eles o bot das APIs do Google (APIs-Google) os Ads bots do Google (Mediapartners-Google, AdsBot-Google-Mobile, AdsBot-Google, AdsBot-Google-Mobile-Apps), o Google Images bot (Googlebot-Image), o Google News bot (Googlebot-News), o Google Video bot (Googlebot-Video).

Então sugiro trabalhar com bots específicos que deseja bloquear, cito alguns abaixo mas você pode e deve criar a a sua própria lista de bots.  Sintax:

#Verifica se o user agent é um destes
RewriteCond %{HTTP_USER_AGENT} (AhrefsBot|MJ12bot|rogerbot|SemrushBot|dotbot|Alexibot|Surveybot|Xenu|exabot|gigabot|BlekkoBot|MECrawler) [NC]
# Se um destes for o user agent, acesso negado.
RewriteRule ^ – [F,L]

Mas meu servidor não é Apache, é Nginx

Utiliza o webserver Nginx em seu servidor? Então antes de tudo, aprenda a dizer o nome correto do webserver, pois mais de 90% não sabem (rs): Nginx seria a forma reduzida de excrever Engine X, que se pronuncia da mesma forma: Engíne Éx. Ok? Agora você está preparado para conhecer a sintaxe que deve adicionar ao seu nginx.conf:

if ( $http_user_agent ~* (AhrefsBot|MJ12bot|rogerbot|SemrushBot|dotbot|Alexibot|Surveybot|Xenu|exabot|gigabot|BlekkoBot) ) {
return 301 http://www.bing.com/;
}

Neste caso acima, se algum desses bots tentar crawlear nosso site, o mandamos passear no site do Bing. Poderíamos também ter usado um return 403, que retornaria acesso negado. 😉

Como encontrar listas de bots?

Uma forma fácil de encontrar listas de bots é através do próprio Google, buscando em robots.txt de sites indexados. Uma forma fácil de fazer isso? Utilize a sintaxe abaixo no campo de buscas do Google:

filetype:txt mj12bot

No caso acima usei o mj12bot que é o bot do Majestic, mas poderia ter usado o Rogerbot (bot do Moz), o AhrefsBot (do Ahrefs) ou o SemrushBot (do SemRush), que também são bastante populares.

Esta busca retornará quaisquer arquivos .txt com a string mj12bot em seu conteúdo. Repare que a maioria dos resultados na SERP serão de arquivos robots.txt. Abra-os para analisar os bots que eles bloqueiam, através do Disallow: / e vá criando sua própria lista. 🙂 Muitos sites, além de bloquearem, incluem até a origem de cada um dos bots nos comentários do arquivo para controles internos, e você pode se beneficiar desta informação.

Espero que este artigo lhe seja útil. Não deixe de comentar se gostou. Sugestões e críticas também são muito bem-vindas.

Valeu e até o próximo artigo!

 

 

 

Cadastre-se

Cadastre-se para receber nossas novidades e matérias.