Begin deze maand publiceerde Google officieel een statement dat zij stoppen met het verwerken van no-index richtlijnen in de robots.txt. Dit in navolging van een ander bericht waarin Google bekendmaakt dat zij de robots.txt parser open source maken om er uiteindelijk een officiële internetstandaard van te maken.
Het Robots Exclusion Protocol (REP) is een standaard waarmee website-eigenaren kunnen bepalen welke URL’s kunnen worden geopend door geautomatiseerde clients (bijvoorbeeld crawlers) via een eenvoudig tekstbestand met een specifieke syntax (de specifieke taalregels van een programmeertaal). Dit zijn de codes die een programmeertaal (bijvoorbeeld Java) gebruikt. Elke programmeertaal heeft weer een andere syntax. Het is een van de basisbouwstenen van het internet zoals we het kennen en wat zoekmachines mogelijk maakt om te werken.
Omdat de REP de afgelopen 25 jaar slechts een niet formele standaard was, implementeren verschillende implementeerders het parsen van robots.txt enigszins anders, wat leidt tot verwarring. Dit project probeert dit te verhelpen door de parser die Google gebruikt, vrij te geven zodat het tot een formele internetstandaard kan worden verklaard.
De bibliotheek is enigszins aangepast (d.w.z. enkele interne headers en equivalente symbolen) productiecode die wordt gebruikt door Googlebot, de crawler van Google, om te bepalen tot welke URL’s deze toegang kan hebben op basis van regels die worden aangeboden door webmasters in robots.txt-bestanden. De bibliotheek is open-source vrijgegeven om ontwikkelaars te helpen tools te ontwikkelen die een beter beeld geven van het parseren en matchen van robots.txt.
Vanaf 1 september stopt Google dus met verwerken van no-index instructies in robots.txt. Google heeft dit al jaren willen veranderen en met het standaardiseren van het protocol kan het nu verder gaan. Google zei dat het het gebruik van robots.txt-regels heeft geanalyseerd. Google richt zich op het kijken naar niet-ondersteunde implementaties van de internet-trekking, zoals crawl-delay, nofollow en noindex. “Aangezien deze regels nooit door Google zijn gedocumenteerd, is het gebruik ervan in relatie tot Googlebot natuurlijk erg laag,” zei Google. “Deze fouten hebben betrekking op de aanwezigheid van websites in de zoekresultaten van Google op manieren die volgens ons niet door webmasters zijn bedoeld.”
Als je nu nog gebruikmaakt van no-index regels in de robots.txt, dan is het zaak om voor 1 september gebruik te maken van de volgende alternatieven:
1. Noindex toepassen in meta tags: Je kunt deze zowel toepassen in de HTML als in de HTTP-reactieheader van een specifieke pagina. Bijvoorbeeld via Yoast SEO meta box.
2. 404 of 410 HTTP statuscode: Beide codes geven aan dat een pagina niet bestaat, waardoor deze URL’s niet geïndexeerd worden wanneer ze gecrawld zijn.
3. Wachtwoord eis: Door content alleen beschikbaar te maken voor bezoekers die een wachtwoord invullen, zorg je ervoor dat deze pagina niet geïndexeerd wordt.
4. URL’s verwijderen in Search Console: Met de tool ‘URL’s verwijderen‘ kun je pagina’s op jouw website tijdelijke blokkeren voor weergave in de Google-zoekresultaten.
Is SEO nog een onontgonnen terrein voor jouw IT-bedrijf? Of boek je op dit moment nog weinig resultaat? Download dan ons E-book Website-optimalisatie voor IT-bedrijven. Je krijgt handige tips & tricks om direct de SEO-resultaten van jouw website te boosten.