Wat is het Robots.txt-bestand in een domein?
Webmasterhulpprogramma's Websites Seo Held / / March 19, 2020
Laatst geupdate op
Een van de grootste fouten voor nieuwe website-eigenaren is niet kijken naar hun robots.txt-bestand. Dus wat is het eigenlijk en waarom zo belangrijk? We hebben uw antwoorden.
Als u een website bezit en u geeft om de SEO-gezondheid van uw site, moet u zich vertrouwd maken met het robots.txt-bestand op uw domein. Geloof het of niet, dat is een verontrustend hoog aantal mensen dat snel een domein lanceert, een snelle WordPress-website installeert en nooit de moeite neemt om iets te doen met hun robots.txt-bestand.
Dit is gevaarlijk. Een slecht geconfigureerd robots.txt-bestand kan de SEO-gezondheid van uw site vernietigen en de kans op groei van uw verkeer schaden.
Wat is het Robots.txt-bestand?
De Robots.txt bestand heeft de toepasselijke naam omdat het in wezen een bestand is met richtlijnen voor de webrobots (zoals robots van zoekmachines) over hoe en wat ze op uw website kunnen crawlen. Dit is een webstandaard, gevolgd door websites sinds 1994 en alle grote webcrawlers houden zich aan de standaard.
Het bestand wordt in tekstformaat (met de extensie .txt) opgeslagen in de hoofdmap van uw website. U kunt zelfs het robot.txt-bestand van elke website bekijken door het domein te typen gevolgd door /robots.txt. Als je dit probeert met groovyPost, zie je een voorbeeld van een goed gestructureerd robot.txt-bestand.
Het bestand is eenvoudig maar effectief. In dit voorbeeldbestand wordt geen onderscheid gemaakt tussen robots. De opdrachten worden aan alle robots gegeven met behulp van de User-agent: * richtlijn. Dit betekent dat alle opdrachten die erop volgen van toepassing zijn op alle robots die de site bezoeken om deze te crawlen.
Webcrawlers specificeren
U kunt ook specifieke regels specificeren voor specifieke webcrawlers. U kunt bijvoorbeeld toestaan dat Googlebot (de webcrawler van Google) alle artikelen op uw site crawlt, maar misschien wilt u dat wel niet toestaan dat de Russische webcrawler Yandex Bot artikelen op uw site crawlt die minachtende informatie bevatten Rusland.
Er zijn honderden webcrawlers die op internet zoeken naar informatie over websites, maar de 10 meest voorkomende waarover u zich zorgen moet maken, worden hier vermeld.
- Googlebot: Google-zoekmachine
- Bingbot: De Bing-zoekmachine van Microsoft
- Slurp: Yahoo-zoekmachine
- DuckDuckBot: DuckDuckGo-zoekmachine
- Baiduspider: Chinese Baidu-zoekmachine
- YandexBot: Russische Yandex-zoekmachine
- Exabot: Franse Exalead-zoekmachine
- Facebot: De kruipende bot van Facebook
- ia_archiver: Alexa's webcrawler
- MJ12bot: Indexering van grote koppelingen
Als u het voorbeeldscenario hierboven gebruikt, als u Googlebot alles wilde laten indexeren op uw site, maar dat wel wilde om te voorkomen dat Yandex de inhoud van uw Russische artikel indexeert, voegt u de volgende regels toe aan uw robots.txt het dossier.
User-agent: googlebot
Disallow: Disallow: / wp-admin /
Niet toestaan: /wp-login.php
User-agent: yandexbot
Disallow: Disallow: / wp-admin /
Niet toestaan: /wp-login.php
Niet toestaan: / russia /
Zoals u kunt zien, blokkeert het eerste gedeelte alleen Google om uw WordPress-inlogpagina en administratieve pagina's te crawlen. Het tweede gedeelte blokkeert Yandex van hetzelfde, maar ook van het hele gebied van je site waar je artikelen hebt gepubliceerd met anti-Russische inhoud.
Dit is een eenvoudig voorbeeld van hoe u de kunt gebruiken Niet toestaan commando om specifieke webcrawlers te beheren die uw website bezoeken.
Andere Robots.txt-opdrachten
Disallow is niet de enige opdracht waartoe u toegang heeft in uw robots.txt-bestand. U kunt ook een van de andere opdrachten gebruiken die aangeven hoe een robot uw site kan crawlen.
- Niet toestaan: Vertelt de user-agent om het crawlen van specifieke URL's of volledige secties van uw site te voorkomen.
- Toestaan: Hiermee kunt u specifieke pagina's of submappen op uw site verfijnen, ook al heeft u mogelijk een bovenliggende map niet toegestaan. U kunt bijvoorbeeld: / about / niet toestaan, maar dan toestaan: / about / ryan /.
- Kruipvertraging: Dit vertelt de crawler om xx seconden te wachten voordat hij begint met het crawlen van de inhoud van de site.
- Sitemap: Geef zoekmachines (Google, Ask, Bing en Yahoo) de locatie van uw XML-sitemaps.
Houd er rekening mee dat bots dat zullen doen enkel en alleen luister naar de opdrachten die je hebt gegeven wanneer je de naam van de bot opgeeft.
Een veelgemaakte fout die mensen maken is het niet toestaan van gebieden zoals / wp-admin / van alle bots, maar specificeer dan een googlebot-sectie en alleen andere gebieden (zoals / about /).
Aangezien bots alleen de opdrachten volgen die u in hun sectie opgeeft, moet u al die andere opdrachten die u voor alle bots hebt opgegeven, opnieuw uitvoeren (met behulp van de * user-agent).
- Niet toestaan: De opdracht die wordt gebruikt om een user-agent te vertellen dat een bepaalde URL niet moet worden gecrawld. Voor elke URL is slechts één regel "Disallow:" toegestaan.
- Toestaan (alleen van toepassing op Googlebot): De opdracht om Googlebot te vertellen dat deze toegang heeft tot een pagina of submap, ook al is de bovenliggende pagina of submap mogelijk niet toegestaan.
- Kruipvertraging: Hoeveel seconden een crawler moet wachten voordat de pagina-inhoud wordt geladen en gecrawld. Merk op dat Googlebot deze opdracht niet erkent, maar de crawlsnelheid kan worden ingesteld in Google Search Console.
- Sitemap: Wordt gebruikt om de locatie op te roepen van een XML-sitemap (s) die is gekoppeld aan deze URL. Merk op dat deze opdracht alleen wordt ondersteund door Google, Ask, Bing en Yahoo.
Houd er rekening mee dat robots.txt is bedoeld om legitieme bots (zoals bots van zoekmachines) te helpen uw site effectiever te crawlen.
Er zijn veel snode crawlers die uw site crawlen om bijvoorbeeld e-mailadressen te schrapen of uw inhoud te stelen. Als u wilt proberen uw robots.txt-bestand te gebruiken om te voorkomen dat die crawlers iets op uw site crawlen, hoeft u zich geen zorgen te maken. De makers van die crawlers negeren doorgaans alles wat je in je robots.txt-bestand hebt geplaatst.
Waarom iets weigeren?
De meeste Google-eigenaren zorgen ervoor dat de zoekmachine van Google zoveel mogelijk hoogwaardige inhoud op uw website doorzoekt.
Google geeft echter slechts een beperkt bedrag uit crawl budget en crawlsnelheid op individuele sites. De crawlsnelheid is het aantal verzoeken per seconde dat Googlebot tijdens het crawlgebeurtenis naar uw site zal sturen.
Belangrijker is het crawlbudget, het totale aantal verzoeken dat Googlebot zal doen om uw site in één sessie te crawlen. Google 'besteedt' zijn crawlbudget door zich te concentreren op delen van uw site die erg populair zijn of onlangs zijn gewijzigd.
Je bent niet blind voor deze informatie. Als je bezoekt Google Webmaster Toolskunt u zien hoe de crawler met uw site omgaat.
Zoals u kunt zien, houdt de crawler de activiteit op uw site elke dag vrij constant. Het crawlt niet alle sites, maar alleen de sites die hij het belangrijkst vindt.
Waarom zou u het aan Googlebot overlaten om te beslissen wat belangrijk is op uw site, wanneer u uw robots.txt-bestand kunt gebruiken om het te vertellen wat de belangrijkste pagina's zijn? Dit voorkomt dat Googlebot tijd verspilt aan laagwaardige pagina's op uw site.
Uw crawlbudget optimaliseren
Met Google Webmaster Tools kunt u ook controleren of Googlebot uw robots.txt-bestand goed leest en of er fouten zijn.
Zo kunt u controleren of u uw robots.txt-bestand correct heeft gestructureerd.
Welke pagina's moet u niet toestaan van Googlebot? Het is goed voor de SEO van uw site om de volgende categorieën pagina's niet toe te staan.
- Dubbele pagina's (zoals printervriendelijke pagina's)
- Bedankt pagina's na formuliergebaseerde bestellingen
- Bestel- of informatie-aanvraagformulieren
- Contactpagina's
- Login pagina's
- Lead sales verkooppagina's
Negeer uw Robots.txt-bestand niet
De grootste fout die nieuwe website-eigenaren maken, is zelfs nooit naar hun robots.txt-bestand te kijken. De ergste situatie kan zijn dat het robots.txt-bestand ervoor zorgt dat uw site of delen van uw site helemaal niet worden gecrawld.
Controleer uw robots.txt-bestand en zorg ervoor dat het is geoptimaliseerd. Op deze manier "zien" Google en andere belangrijke zoekmachines alle fantastische dingen die u de wereld aanbiedt met uw website.