Robots.txt и Robots мета тагове
Методът robots.txt (не robot.txt както често се пише грешно) и robots мета тагове са два подобни метода за изключване на търсачките да индексират целия или част от вашия уебсайт.
Може би не искате търсачките да се ровят в някои папки(наприемер cgi) или страници
Файлът robots.txt
трябва да е във главната папка (в същата папка в която е и файлът index.html).
За да изключване търсачките от целия или части то вашия уебсайт, много webmaster-и използват файла robots.txt. Този файл е само текст (без html) и има две специфични зони, които изискват специфична информация.
User-Agent
Зоната user-agent съдържа името на търсачка или всички на всички търсачки.
Пример 1:
User-agent: *
В този пример, * означава всички роботи (търсачки).
Пример 2:
User-agent: googlebot
В този пример, само търсачката Google се изключва.
Disallow
Следващата зона във файла robots.txt file е зоната Disallow. В тази зона можете да изключите търсачка или търсачки да да индексират вашите папки, изображения, скриптове или други файлове.
Пример 1:
Disallow: /cgi-bin В този пример само папката cgi-bin се изключва.
Пример 2:
Disallow: /query.html В този пример само файлът query.html се изключва.
Ако искате целия ви сайт да не бъде индексиран от някоя от търсачките ще включете това във файла robots.txt:
User-agent: *
Disallow: /
Ако искате изключите всички роботи (търсачки) от определена директория на вашия уебсайт, вашия файл robots.txt трябва да изглежда така:
User-agent: *
Disallow: /images/
Ако искате да изключите робот (търсачка) да индексира определен дайл в дадена директория, файлът robots.txt трябва да изглежда така:
User-agent: *
Disallow: /stuff/wacky.html
Ако искате да спрете даден (робот) търсачка да индексира опрелен файл, файлът robots.txt трябва да изглежда така:
User-agent: googlebot
Disallow: /stuff/wacky.html
Ако искате да видите какво прави най-добрата търсачка на света – Google, да погледнем нейния файл robots.txt:
User-agent: *
Disallow: /search
Disallow: /groups
Disallow: /images
Disallow: /catalogs
Disallow: /catalog_list
Disallow: /news
Disallow: /pagead/
Disallow: /imgres
Disallow: /keyword/
Disallow: /u/
Disallow: /univ/
Disallow: /cobrand
Disallow: /custom
Disallow: /advanced_group_search
Disallow: /advanced_search
Disallow: /googlesite
Disallow: /preferences
Disallow: /setprefs
Disallow: /swr
Disallow: /url
Disallow: /wml
Disallow: /hws
Disallow: /bsd?
Disallow: /linux?
Disallow: /mac?
Disallow: /microsoft?
Disallow: /unclesam?
Disallow: /answers/search?q=
Disallow: /local
Disallow: /froogle?
Disallow: /froogle_
Ако искате какво прави Белия Дом да погледнем малка част от файла whitehouse.gov robots.txt (целия файл е твърде голям, за да го показваме тук):
User-agent: *
Disallow: /cgi-bin
Disallow: /search
Disallow: /query.html
Disallow: /help
Disallow: /360pics/iraq
Disallow: /360pics/text
Disallow: /911/911day/iraq
Disallow: /911/911day/text
Disallow: /911/heroes/iraq
Disallow: /911/heroes/text
Disallow: /911/iraq
Disallow: /911/patriotism/iraq
Disallow: /911/patriotism/text
Disallow: /911/patriotism2/iraq
Disallow: /911/patriotism2/text
Disallow: /911/progress/iraq
Disallow: /911/progress/text
Disallow: /911/remembrance/iraq
Disallow: /911/remembrance/text
Disallow: /911/response/iraq
Disallow: /911/response/text
Disallow: /911/sept112002/iraq
Disallow: /911/sept112002/text
Disallow: /911/text
Disallow: /afac/index.htm/text
Disallow: /afac/iraq
Disallow: /afac/text
Disallow: /agencycontact/iraq
Disallow: /agencycontact/text
Disallow: /appointments/iraq
Disallow: /appointments/text
Знакът # се използва за коментар във файла robots.txt и символа # се слага винаги в началото на реда.
Robots мета тагове
Друг начин, за да изключите роботите (търсачките) да индексират html страници от даден уебсайт или да не следват линковете, е да използвате robots мета тагове. Има 4 главни robots мета тагове, които могат да се използват за да инструктирате робот (търсачка).
Example:
<HEAD>
<meta name="robots" content="index,follow">
<meta name="robots" content="noindex,follow">
<meta name="robots" content="index,nofollow">
<meta name="robots" content="noindex,nofollow">
</HEAD>
Index – инструктира робота (търсачката) да индексира страницата.
Noindex – инструктира робота (търсачката) да не индексира страницата.
Follow – инструктира робота (търсачката) да следва линковете от страницата и да ги индексира.
Nofollow – инструктира робота (търсачката) да не следва линковете от страницата и да не ги индексира.
Ако няма robots мета тагове на уебсайта, то по подразбиране са командите "index,follow", които означават, че всички роботи (търсачки) ще индексират страницата и ще следват линковете към други страници, за да ги индексира.
Може би не искате търсачките да се ровят в някои папки(наприемер cgi) или страници
Файлът robots.txt
трябва да е във главната папка (в същата папка в която е и файлът index.html).
За да изключване търсачките от целия или части то вашия уебсайт, много webmaster-и използват файла robots.txt. Този файл е само текст (без html) и има две специфични зони, които изискват специфична информация.
User-Agent
Зоната user-agent съдържа името на търсачка или всички на всички търсачки.
Пример 1:
User-agent: *
В този пример, * означава всички роботи (търсачки).
Пример 2:
User-agent: googlebot
В този пример, само търсачката Google се изключва.
Disallow
Следващата зона във файла robots.txt file е зоната Disallow. В тази зона можете да изключите търсачка или търсачки да да индексират вашите папки, изображения, скриптове или други файлове.
Пример 1:
Disallow: /cgi-bin В този пример само папката cgi-bin се изключва.
Пример 2:
Disallow: /query.html В този пример само файлът query.html се изключва.
Ако искате целия ви сайт да не бъде индексиран от някоя от търсачките ще включете това във файла robots.txt:
User-agent: *
Disallow: /
Ако искате изключите всички роботи (търсачки) от определена директория на вашия уебсайт, вашия файл robots.txt трябва да изглежда така:
User-agent: *
Disallow: /images/
Ако искате да изключите робот (търсачка) да индексира определен дайл в дадена директория, файлът robots.txt трябва да изглежда така:
User-agent: *
Disallow: /stuff/wacky.html
Ако искате да спрете даден (робот) търсачка да индексира опрелен файл, файлът robots.txt трябва да изглежда така:
User-agent: googlebot
Disallow: /stuff/wacky.html
Ако искате да видите какво прави най-добрата търсачка на света – Google, да погледнем нейния файл robots.txt:
User-agent: *
Disallow: /search
Disallow: /groups
Disallow: /images
Disallow: /catalogs
Disallow: /catalog_list
Disallow: /news
Disallow: /pagead/
Disallow: /imgres
Disallow: /keyword/
Disallow: /u/
Disallow: /univ/
Disallow: /cobrand
Disallow: /custom
Disallow: /advanced_group_search
Disallow: /advanced_search
Disallow: /googlesite
Disallow: /preferences
Disallow: /setprefs
Disallow: /swr
Disallow: /url
Disallow: /wml
Disallow: /hws
Disallow: /bsd?
Disallow: /linux?
Disallow: /mac?
Disallow: /microsoft?
Disallow: /unclesam?
Disallow: /answers/search?q=
Disallow: /local
Disallow: /froogle?
Disallow: /froogle_
Ако искате какво прави Белия Дом да погледнем малка част от файла whitehouse.gov robots.txt (целия файл е твърде голям, за да го показваме тук):
User-agent: *
Disallow: /cgi-bin
Disallow: /search
Disallow: /query.html
Disallow: /help
Disallow: /360pics/iraq
Disallow: /360pics/text
Disallow: /911/911day/iraq
Disallow: /911/911day/text
Disallow: /911/heroes/iraq
Disallow: /911/heroes/text
Disallow: /911/iraq
Disallow: /911/patriotism/iraq
Disallow: /911/patriotism/text
Disallow: /911/patriotism2/iraq
Disallow: /911/patriotism2/text
Disallow: /911/progress/iraq
Disallow: /911/progress/text
Disallow: /911/remembrance/iraq
Disallow: /911/remembrance/text
Disallow: /911/response/iraq
Disallow: /911/response/text
Disallow: /911/sept112002/iraq
Disallow: /911/sept112002/text
Disallow: /911/text
Disallow: /afac/index.htm/text
Disallow: /afac/iraq
Disallow: /afac/text
Disallow: /agencycontact/iraq
Disallow: /agencycontact/text
Disallow: /appointments/iraq
Disallow: /appointments/text
Знакът # се използва за коментар във файла robots.txt и символа # се слага винаги в началото на реда.
Robots мета тагове
Друг начин, за да изключите роботите (търсачките) да индексират html страници от даден уебсайт или да не следват линковете, е да използвате robots мета тагове. Има 4 главни robots мета тагове, които могат да се използват за да инструктирате робот (търсачка).
Example:
<HEAD>
<meta name="robots" content="index,follow">
<meta name="robots" content="noindex,follow">
<meta name="robots" content="index,nofollow">
<meta name="robots" content="noindex,nofollow">
</HEAD>
Index – инструктира робота (търсачката) да индексира страницата.
Noindex – инструктира робота (търсачката) да не индексира страницата.
Follow – инструктира робота (търсачката) да следва линковете от страницата и да ги индексира.
Nofollow – инструктира робота (търсачката) да не следва линковете от страницата и да не ги индексира.
Ако няма robots мета тагове на уебсайта, то по подразбиране са командите "index,follow", които означават, че всички роботи (търсачки) ще индексират страницата и ще следват линковете към други страници, за да ги индексира.