Böngésző tiltása

Egy igen érdekes problémába futottunk. A Google sok olyant is meglát, amit igazán nem kéne neki, és ez teremthet kellemetlen helyzetet. Az történt, hogy egy tesztoldalt (ami egy fejlesztő szerveren van) az adott kulcsszóra a Google előbbre hozta, mint a valós, éles oldalt. Holott jó lenne, ha egyáltalán nem hozná. Tiltsuk ki hát a google-t.

A google user-agent-je:

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Tehát ezt kell globálisan tiltani a tesztszerverről:

BrowserMatch ^.*(google|SIMBAR)  tilt
<DirectoryMatch ".*">
Order allow,deny
Allow from all
Deny from env=tilt
</DirectoryMatch>

Az itt lévő dolgok közül a BrowserMatch és a Deny from eny= sorok érdemelnek magyarázatot. A BrowserMatch egy reguláris kifejezést vár, és ha az illeszkedik, akkor az “env” változó “tilt” értéket kap. A tiltás akkor fog teljesülni, ha az “env=tilt”.

Mint látható, bővíthetőre írtuk a listát, tehát egy sorral több user-agent-et is ki lehet tiltani: ^.*(google|SIMBAR|other1|other2|othern)

Jó kérdés, miért nem tiltatjuk ki a robots.txt-vel. Mert attól még benézhet…

Referenciák: BrowserMatch | DirectoryMatch | Order | Allow | Deny

A bejegyzés kategóriája: Nincs kategorizálva
Kiemelt szavak: , , , , .
Közvetlen link.

Böngésző tiltása bejegyzéshez 6 hozzászólás

  1. Argathron hozzászólása:

    robots.txt-ről nem is hallottunk.
    Az a többit is kiírtja.

  2. melon hozzászólása:

    Jó a módszer, de a Googlebot értelmezi és betartja a robots.txt-ben lévő bejegyzéseket is, így akinek nincs hozzásférése apache konfigurációhoz (netán még .htaccess szinten sem), azoknak segítség lehet a
    Disallow: [url]
    bejegyzések beírása a robots.txt-be is.

  3. cadmagician hozzászólása:

    sok minden elő van írva, és sokan nem tartják be. de így “fizikailag” van neki megakadályozva. így globálisan van kitiltva, nem kell minden vhostra egyenként.

  4. zsolti hozzászólása:

    “Jó kérdés, miért nem tiltatjuk ki a robots.txt-vel. Mert attól még benézhet…”

    Nem nézhet be. Pont. Mellesleg így csak a Google-t tiltottad ki. Mi lesz a többivel? Azok jöhetnek?

    User-agent: *
    Disallow: ⁄

  5. cadmagician hozzászólása:

    Akkor hagyják a botok figyelmen kívül a robots.txt-t, amikor akarják. Bármelyik. Pont. Ilyenre nem bízhatod. Ha meg látok a logba új botot, beteszem a sorba, és kész. Plusz utólag pl 40 vhosthoz a figyelmen kívül hagyható txt-t bekopizni tényleg egyszerűbb, mint beírni egy helyre a fentieket. Vélhetően a spyderek is nézik…

  6. cadmagician hozzászólása:

    ez igaz. tiltsak ip tartományt? nem is rossz ötlet. de az, mert ip tartományt is cserélhet a google.

    mint írtam, elkerülve a sok robotst.txt írkálást, meg véletlenül felmásoltam élesbe helyzeteket akarom ezzel elkerülni.

ITT és MOST VÁRJUK A HOZZÁSZÓLÁST!

Email cím (nem tesszük közzé) A kötelezően kitöltendő mezőket * karakterrel jelöljük

*

A következő HTML tag-ek és tulajdonságok használata engedélyezett: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>