Egy igen érdekes problémába futottunk. A Google sok olyant is meglát, amit igazán nem kéne neki, és ez teremthet kellemetlen helyzetet. Az történt, hogy egy tesztoldalt (ami egy fejlesztő szerveren van) az adott kulcsszóra a Google előbbre hozta, mint a valós, éles oldalt. Holott jó lenne, ha egyáltalán nem hozná. Tiltsuk ki hát a google-t.
A google user-agent-je:
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Tehát ezt kell globálisan tiltani a tesztszerverről:
BrowserMatch ^.*(google|SIMBAR) tilt <DirectoryMatch ".*"> Order allow,deny Allow from all Deny from env=tilt </DirectoryMatch>
Az itt lévő dolgok közül a BrowserMatch és a Deny from eny= sorok érdemelnek magyarázatot. A BrowserMatch egy reguláris kifejezést vár, és ha az illeszkedik, akkor az “env” változó “tilt” értéket kap. A tiltás akkor fog teljesülni, ha az “env=tilt”.
Mint látható, bővíthetőre írtuk a listát, tehát egy sorral több user-agent-et is ki lehet tiltani: ^.*(google|SIMBAR|other1|other2|othern)
Jó kérdés, miért nem tiltatjuk ki a robots.txt-vel. Mert attól még benézhet…
Referenciák: BrowserMatch | DirectoryMatch | Order | Allow | Deny
robots.txt-ről nem is hallottunk.
Az a többit is kiírtja.
Jó a módszer, de a Googlebot értelmezi és betartja a robots.txt-ben lévő bejegyzéseket is, így akinek nincs hozzásférése apache konfigurációhoz (netán még .htaccess szinten sem), azoknak segítség lehet a
Disallow: [url]
bejegyzések beírása a robots.txt-be is.
sok minden elő van írva, és sokan nem tartják be. de így “fizikailag” van neki megakadályozva. így globálisan van kitiltva, nem kell minden vhostra egyenként.
“Jó kérdés, miért nem tiltatjuk ki a robots.txt-vel. Mert attól még benézhet…”
Nem nézhet be. Pont. Mellesleg így csak a Google-t tiltottad ki. Mi lesz a többivel? Azok jöhetnek?
User-agent: *
Disallow: ⁄
Akkor hagyják a botok figyelmen kívül a robots.txt-t, amikor akarják. Bármelyik. Pont. Ilyenre nem bízhatod. Ha meg látok a logba új botot, beteszem a sorba, és kész. Plusz utólag pl 40 vhosthoz a figyelmen kívül hagyható txt-t bekopizni tényleg egyszerűbb, mint beírni egy helyre a fentieket. Vélhetően a spyderek is nézik…
ez igaz. tiltsak ip tartományt? nem is rossz ötlet. de az, mert ip tartományt is cserélhet a google.
mint írtam, elkerülve a sok robotst.txt írkálást, meg véletlenül felmásoltam élesbe helyzeteket akarom ezzel elkerülni.