Tag Robots Meta & Tag X‑Robots: Tudo que você precisa saber

Orientar os mecanismos de pesquisa para rastrear e indexar seu site da maneira que você deseja pode ser uma tarefa desafiadora. Embora o robots.txt gerencie a acessibilidade do seu conteúdo aos rastreadores, ele não diz se eles devem indexar o conteúdo ou não.

É para isso que servem as metatags de robôs e o cabeçalho HTTP x ‑ robots-tag .

Vamos deixar uma coisa bem clara desde o início. Você não pode controlar a indexação com o robots.txt. Esse é um equívoco comum.

A regra noindex em robots.txt nunca foi oficialmente suportada pelo Google. E em julho de 2019, ele foi oficialmente suspenso .

Neste guia, você aprenderá:

  • O que é uma metatag de robôs
  • Por que a metatag de robôs é importante para SEO
  • Os valores e atributos de uma metatag de robôs
  • Como configurar a metatag de robôs
  • O que é um X-Robots-Tag
  • Como configurar o X ‑ Robots-Tag
  • Quando usar a metatag de robôs em comparação com a tag x ‑ robots?
  • Como evitar erros de rastreabilidade e (des) indexação

O que é uma metatag de robôs?

Uma metatag de robôs é um snippet de HTML que informa aos mecanismos de pesquisa como rastrear ou indexar uma determinada página. É colocado na seção <head> de uma página da web e tem a seguinte aparência:

<meta name="robots" content="noindex" />

Por que a metatag de robôs é importante para o SEO?

A metatag de robôs é comumente usada para evitar que as páginas apareçam nos resultados da pesquisa, embora tenha outros usos (mais sobre isso posteriormente).

Existem vários tipos de conteúdo que você pode querer impedir que os mecanismos de pesquisa indexem:

  • Páginas finas com pouco ou nenhum valor para o usuário;
  • Páginas no ambiente de teste;
  • Admin e páginas de agradecimento;
  • Resultados da pesquisa interna;
  • Páginas de destino PPC ;
  • Páginas sobre as próximas promoções, concursos ou lançamentos de produtos;
  • Conteúdo duplicado (use tags canônicas  para sugerir a melhor versão para indexação);

Geralmente, quanto maior for o seu site, mais você lidará com o gerenciamento de rastreabilidade e indexação. Você também deseja que o Google e outros mecanismos de pesquisa rastreiem e indexem suas páginas da forma mais eficiente possível. Combinar corretamente as diretivas no nível da página com o robots.txt e sitemaps  é crucial para o SEO .

Quais são os valores e atributos de uma metatag de robôs?

As metatags de robôs consistem em dois atributos: name  e content.

Você deve  especificar valores para cada um desses atributos. Vamos explorar o que são.

O  atributo name e os valores do agente do usuário

O  atributo name especifica quais crawlers devem seguir essas instruções. Esse valor também é conhecido como um agente de usuário ( UA ) porque os rastreadores precisam ser identificados com seu UA para solicitar uma página. Seu UA reflete o navegador que você está usando, mas os user agents do Google são, por exemplo, Googlebot ou Googlebot-image.

O valor UA “robôs” se aplica a todos os rastreadores. Você também pode adicionar quantas meta tags de robôs na seção <head> forem necessárias. Por exemplo, se você deseja impedir que suas imagens apareçam em uma pesquisa de imagens do Google ou do Bing, adicione as seguintes metatags:

<meta name="googlebot-image" content="noindex" />

<meta name="MSNBot-Media" content="noindex" />

NOTA.Os atributos de nome e conteúdo não diferenciam maiúsculas de minúsculas. Os atributos “Googlebot-Image,” “msnbot-media” e “Noindex” também funcionam para os exemplos acima.

O atributo de content e diretivas de rastreamento/indexação

O  atributo content fornece instruções sobre como rastrear e indexar informações na página. Se não houver metatag de robôs disponível, os rastreadores interpretam como índice e seguem. Isso dá a eles permissão para mostrar a página nos resultados da pesquisa e rastrear todos os links na página (a menos que seja declarado o contrário com a tag rel = ”nofollow” ).

A seguir estão os valores suportados para o  atributo content pelo Google :

all

O valor padrão de “index, follow”, não há necessidade de usar esta diretiva.

<meta name="robots" content="all" />

noindex

Instrui os mecanismos de pesquisa a não indexar a página. Isso impede que ele apareça nos resultados da pesquisa.

<meta name="robots" content="noindex" />

nofollow

Impede que os robôs rastreiem todos os links da página. Observe que esses URLs ainda podem ser indexáveis, especialmente se tiverem backlinks apontando para eles.

<meta name="robots" content="nofollow" />

none

A combinação de noindex, nofollow . Evite usar isso porque outros mecanismos de pesquisa (por exemplo, Bing) não oferecem suporte para isso.

<meta name="robots" content="none" />

noarchive

Impede que o Google mostre uma cópia em cache da página no SERP .

<meta name="robots" content="noarchive" />

notranslate

Impede que o Google ofereça uma tradução da página no SERP .

<meta name="robots" content="notranslate" />

noimageindex

Evita que o Google indexe imagens incorporadas na página.

<meta name="robots" content="noimageindex" />

unavailable_after:

Diz ao Google para não mostrar uma página nos resultados da pesquisa após uma data/hora especificada. Basicamente, uma  diretiva noindex com um tempo. A data/hora deve ser especificada usando o formato RFC 850 .

<meta name="robots" content="unavailable_after: Sunday, 01-Sep-19 12:34:56 GMT" />

nosnippet

Desativa todos os trechos de texto e vídeo no SERP. Ele também funciona como noarchive  ao mesmo tempo.

<meta name="robots" content="nosnippet" />

NOTA IMPORTANTE:
Desde outubro de 2019, o Google oferece opções mais granulares  para controlar e como você deseja exibir seus snippets nos resultados da pesquisa. Isso se deve em parte à Diretiva Europeia de Direitos Autorais , que foi implementada pela primeira vez pela França com sua nova lei de direitos autorais.
 Crucialmente, essa legislação já afeta todos os  proprietários de sites. Quão? Porque o Google não exibe mais snippets (texto, imagem ou vídeo) de seu site para usuários na França, a menos que você opte por usar suas novas metatags de robôs. 
 Discutimos como cada uma dessas novas tags funciona abaixo. Dito isso, se isso diz respeito à sua empresa e você está procurando uma solução rápida, adicione o seguinte snippet de HTML a cada página do seu site para informar ao Google que você não deseja restrições aos seus snippets: 
  <meta name="robots" content=”max-snippet:-1, max-image-preview:large, max-video-preview:-1" /> 
 Observe que se você usar o Yoast SEO, esse pedaço de código é adicionado automaticamente  em todas as páginas, a menos que você tenha adicionado as diretivas noindex  ou nosnippet.

max-snippet:

Especifica um número máximo de caracteres que o Google pode mostrar em seus snippets de texto. Usar 0 desativará os trechos de texto, -1 declara que não há limite para a visualização do texto.

A tag a seguir definirá o limite de 160 caracteres (semelhante ao comprimento padrão da meta descrição):

<meta name="robots" content="max-snippet:160" />

max-image-preview:

Diz ao Google se e quão grande uma imagem pode ser usada para fragmentos de imagens. Esta diretiva tem três valores possíveis:

  • none – nenhum fragmento de imagem será mostrado
  • standard – uma visualização da imagem padrão pode ser mostrada
  • large – a maior visualização de imagem possível pode ser exibida

<meta name="robots" content="max-image-preview:large" />

max-video-preview:

Configura um número máximo de segundos para um snippet de vídeo. Tal como acontece com o snippet de texto, 0 será desativado completamente, ‑1 não impõe limites.

A seguinte tag permitiria ao Google mostrar no máximo 15 segundos:

<meta name="robots" content="max-video-preview:15" />

UMA NOTA RÁPIDA SOBRE O USO DE UM ATRIBUTO HTML DATA-NOSNIPPET
Juntamente com as novas diretivas de robôs introduzidas em outubro de 2019, o Google também introduziu o atributo HTML data-nosnippet . Você pode usar isso para marcar partes do texto que você não deseja que o Google use como snippet. 
Isso pode ser feito em HTML nos elementos div, span e section. O data-nosnippet é considerado um atributo booleano, o que significa que é válido com ou sem um valor. 
 <p> Este é um texto em um parágrafo que pode ser mostrado como um snippet <span data-nosnippet> excluindo esta parte </span> </p> 
 <div data-nosnippet> Isso não aparecerá em um snippet </div> <div data-nosnippet = "true"> E nem aparecerá </div> 

Usando essas diretivas

A maioria dos SEOs não precisa ir além das diretivas noindex e nofollow, mas é bom saber que também existem outras opções. Lembre-se de que todas as diretivas listadas acima são suportadas pelo Google.

Vamos verificar a comparação com o Bing:

DiretrizGoogleBing
all
noindex
nofollow
none
noarchive
nosnippet
max-snippet:
max-image-preview:
max-video-preview:
notranslate
noimageindex
unavailable_after:

Você pode usar várias diretivas de uma vez e combiná-las. Mas se eles entrarem em conflito (por exemplo, “noindex, index”) ou um for um subconjunto de outro (por exemplo, “noindex, noarchive”), o Google usará o mais restritivo. Nestes casos, seria apenas “noindex”.

NOTA. As diretivas de snippet podem ser substituídas por dados estruturados  que permitem que o Google use qualquer informação na anotação. Se você deseja impedir que o Google mostre snippets, ajuste a anotação de acordo e certifique-se de que você não possui nenhum contrato de licença com o Google.
UMA NOTA SOBRE OUTRAS DIRETIVAS
Você também pode encontrar diretivas específicas para outros mecanismos de pesquisa. Um exemplo seria “noyaca”, que impede o Yandex de usar seu próprio diretório para gerar fragmentos de resultados de pesquisa. 
 Outros podem ter sido úteis e usados ​​no passado, mas já estão obsoletos. Por exemplo, a diretiva “ noodp ” foi usada para evitar que os motores de busca usassem o Open Directory Project para gerar snippets. 

Como configurar a metatag robots

Agora que você sabe o que todas essas diretivas fazem e se parecem, é hora de começar a implementação real em seu site.

As metatags de robôs pertencem à <head>  seção de uma página. É bastante simples se você editar o código usando editores de HTML como o Notepad ++ ou Brackets. Mas e se você estiver usando um CMS com plug-ins de SEO?

Vamos nos concentrar na opção mais popular que existe.

Implementando metatags de robôs no WordPress usando Yoast SEO

Vá para a seção “Avançado” abaixo do bloco de edição de cada postagem ou página. Configure a metatag de robôs de acordo com suas necessidades. As configurações a seguir implementariam as diretivas “noindex, nofollow”.

A linha “Meta robôs avançados” oferece a opção de implementar diretivas diferentes de noindex  e nofollow , como noimageindex.

Você também tem a opção de aplicar essas diretivas em todo o site. Vá para “Aparência de Pesquisa” no menu Yoast. Lá você pode configurar meta tags de robôs em todos os posts, páginas ou apenas em taxonomias ou arquivos específicos.

NOTA.
Yoast não é a única maneira de controlar metatags de robôs no WordPress. Existem muitos outros pluguins de SEO do WordPress com funcionalidade semelhante.

O que é a X‑Robots-Tag?

A metatag de robôs é adequada para implementar  diretivas noindex em páginas HTML aqui e ali. Mas e se você quiser evitar que os mecanismos de pesquisa indexem arquivos, como imagens ou PDFs? É quando a tag x‑robots entram em jogo.

O X‑Robots-Tag é um cabeçalho HTTP enviado de um servidor da web. Ao contrário da meta tag de robots, ela não é colocada no HTML da página. Pode ser assim:

x robôs tag 1

Verificar os cabeçalhos HTTP é um pouco mais complicado. Você pode fazê-lo da maneira antiga nas ferramentas de desenvolvedor  ou usar uma extensão do navegador como ” ao vivo HTTP cabeçalhos .

A extensão Live HTTP Headers monitora todo o tráfego HTTP(S) que seu navegador envia(cabeçalhos de solicitação) e recebe (cabeçalhos de resposta). É capturado ao vivo, então certifique-se de que o plugin está ativado. Em seguida, vá para a página ou arquivo que deseja inspecionar e verifique o plug-in para os logs. Se parece com isso:

livehttpheaders 1

Como configurar a X‑Robots-Tag

A configuração depende do tipo de servidor da web que você está usando e quais páginas ou arquivos você deseja manter fora do índice.

A linha de código é semelhante a esta:

Header set X-Robots-Tag “noindex”

Este exemplo leva em consideração o tipo de servidor mais difundido – Apache. A maneira mais prática de adicionar o cabeçalho HTTP é modificando o arquivo de configuração principal (geralmente httpd.conf ) ou os  arquivos .htaccess. Soa familiar? Este é o lugar onde os redirecionamentos  também acontecem.

Você usa os mesmos valores e diretivas para a tag x ‑ robots como uma metatag de robôs. Dito isso, a implementação dessas mudanças deve ser deixada para os experientes. Os backups são seus amigos porque até mesmo um pequeno erro de sintaxe pode corromper todo o site.PRO TIP

Se você usar um CDN que ofereça suporte a aplicativos sem servidor para o Edge SEO , poderá modificar as metatags de robôs e X ‑ Robots-Tags no servidor de borda sem fazer alterações na base de código subjacente.

Quando usar a metatag de robts em comparação com a tag x‑robots?

Embora adicionar um snippet de HTML pareça a opção mais fácil e direta, é insuficiente em alguns casos.

Arquivos não HTML

Você não pode colocar um trecho HTML em um arquivo não-HTML, como PDFs ou imagens. X‑Robots-Tag é a única maneira.

O seguinte snippet (em um servidor Apache) configuraria cabeçalhos HTTP noindex  em todos os arquivos PDF no site.

<Arquivos ~ "\ .pdf $">
Cabeçalho definido X-Robots-Tag "noindex"
</Files>

Aplicação de diretivas em escala

Se você precisar noindex em um (sub)domínio inteiro, subdiretório, páginas com determinados parâmetros ou qualquer coisa que requeira edição em massa, use x‑robots-tags. É mais fácil.

As modificações do cabeçalho HTTP podem ser comparadas com URLs e nomes de arquivo usando expressões regulares. A edição em massa complexa em HTML usando a função de pesquisa e substituição normalmente requer mais tempo e capacidade de computação.

Tráfego de mecanismos de pesquisa diferentes do Google

O Google oferece suporte a meta tags de robots e x‑robots-tags, mas esse não é o caso para todos os mecanismos de pesquisa.

Por exemplo, Seznam, um mecanismo de busca tcheco só oferece suporte a metatags de robots. Se você deseja controlar como este mecanismo de pesquisa rastreia e indexa suas páginas, o uso de x ‑ robots-tags não funcionará. Você precisa usar os trechos de HTML .

Como evitar erros de rastreabilidade e (des)indexação

Você deseja mostrar todas as páginas valiosas, evitar conteúdo duplicado , problemas e manter páginas específicas fora do índice. Se você gerencia um site enorme, o rastreamento do  gerenciamento de orçamento é outra coisa a se prestar atenção.

Vamos dar uma olhada nos erros mais comuns que as pessoas cometem em relação às diretivas de robots.

Erro nº 1: adicionar diretivas noindex a páginas não permitidas em robots.txt

Nunca proíba o rastreamento de conteúdo que você está tentando desindexar em robots.txt. Isso evita que os mecanismos de pesquisa rastreiem novamente a página e descubram a diretiva noindex.

Se você acha que pode ter cometido esse erro no passado, rastreie seu site com o Ahrefs Site Audit. Procure páginas com erros “A página Noindex recebe tráfego orgânico”.

Captura de tela 2019 09 22 em 23.54.19 1
fonte: ahrefs

As páginas não indexadas que recebem tráfego orgânico ainda estão claramente indexadas. Se você não adicionou a tag noindex recentemente, provavelmente isso ocorreu devido a um bloqueio de rastreamento em seu arquivo robots.txt. Verifique se há problemas e corrija-os conforme apropriado.

Erro nº 2: gerenciamento de sitemaps ruim

Se você estiver tentando desindexar o conteúdo usando uma meta tag de robôs ou x‑robots-tag, não remova-o do seu sitemap  até que tenha sido desindexado com sucesso. Caso contrário, o Google pode demorar para rastrear novamente a página.

Para potencialmente acelerar ainda mais o processo de desindexação, defina a data do último mod em seu mapa do site como a data em que você adicionou a tag noindex. Isso incentiva o rastreio e o reprocessamento.

Não inclua páginas não indexadas em seu sitemap a longo prazo. Assim que o conteúdo tiver sido desindexado, remova-o do mapa do site.

Se você estiver preocupado com a possibilidade de que conteúdo antigo e desindexado com êxito ainda exista no mapa do site, verifique o erro “mapa do site da página Noindex” em Auditoria do site do Ahrefs .

Captura de tela 2019 09 23 em 00.23.07 1

Erro nº 3: não remover as diretivas noindex do ambiente de produção

Evitar que robôs rastreiem e indexem qualquer coisa no ambiente de teste é uma boa prática. No entanto, às vezes é empurrado para a produção, esquecido e seu tráfego orgânico cai.

Pior ainda, a queda do tráfego orgânico pode não ser tão perceptível se você estiver envolvido em uma migração de site usando redirecionamentos 301. Se os novos URLs contiverem a diretiva noindex ou não forem permitidos no robots.txt, você ainda receberá tráfego orgânico dos antigos por algum tempo. O Google pode levar algumas semanas para desindexar os URLs antigos.

Sempre que houver essas alterações em seu site, fique de olho nos avisos da “página Noindex” na Auditoria do Site do Ahrefs :

ahrefs internalpages 1

Para ajudar a evitar problemas semelhantes no futuro, enriqueça a lista de verificação da equipe de desenvolvimento com instruções para remover regras de proibição do robots.txt e diretivas noindex antes de enviar para produção.

Erro nº 4: adicionar URLs “secretos” ao robots.txt em vez de não indexá-los

Os desenvolvedores geralmente tentam ocultar páginas sobre as próximas promoções, descontos ou lançamentos de produtos, proibindo o acesso a eles no arquivo robots.txt do site. Esta é uma prática inadequada porque os humanos ainda podem visualizar um arquivo robots.txt. Como tal, essas páginas vazam facilmente.

Corrija isso mantendo as páginas “secretas” fora do arquivo robots.txt e não indexando-as.

Pensamentos finais

Compreender e gerenciar adequadamente o rastreamento e a indexação do seu site é a base do SEO. O SEO técnico  pode ser bastante complicado, mas as metatags de robôs não são nada para se temer.

Espero que agora você esteja preparado para aplicar as melhores práticas para soluções de longo prazo em grande escala.

Fonte: https://ahrefs.com/

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *