Robots

In de inmiddels zo vertrouwde html boilerplate komen we het volgende meta tag tegen:
<meta name="robots" content="index, follow">
Waarvoor dient dit? Uitleg hierover vind je op deze pagina en deze pagina. Het komt er op neer dat de spiders die ten behoeve van de zoekmachines het web afzoeken hier geïnstrueerd worden wat wel en wat niet geïndexeerd mag worden. D.w.z. wat wel en wat niet gevonden dient te kunnen worden via de zoekmachines. Dit metatag heeft alleen invloed op de inhoud (content) van deze specifieke pagina. Het indexeren is een proces waarbij de inhoud toegankelijk gemaakt wordt voor zoekakties. Dat schijnt via zgn. hashtables te gebeuren. Het resultaat is in ieder geval dat als iemand een zoekterm invult die aansluit bij de content van een zekere pagina, deze pagina ook gevonden wordt.

Het kan zijn dat je site hele mappen bevat met content die helemaal niet voor anderen is bestemd. In dat vaak voorkomende geval kan je dat aangeven d.m.v. een 'robots.txt' bestand in de hoofddirectory (root) van de website. In dit bestand kan je keurig opsommen welke mappen je niet gevonden wilt laten worden. Zo kan je dus ook nog eens iets privé houden. Dit textfile kan er bijvoorbeeld zo uitzien:

User-agent: *
Disallow: /safaripark/
Disallow: /disneyland/

Je kunt via deze site je robots.txt file laten checken. Als je zaken echt geheim wilt houden dan moet je toch andere maatregelen treffen. Zoals je ziet heeft iedereen toegang tot het robots.txt bestand en langs deze weg wordt dus ook de naam bekend van de 'geheime'mappen.