• Здраво и добредојдовте на форумот на IT.mk.

    Доколку сеуште не сте дел од најголемата заедница на ИТ професионалци и ентузијасти во Македонија, можете бесплатно да се - процесот нема да ви одземе повеќе од 2-3 минути, а за полесна регистрација овозможивме и регистрирање со Facebook и Steam.

Web Robots

Статус
Затворена за нови мислења.
  • Ја почнал/а темата
  • #1

psybaron

Intern
10 април 2007
745
49
Куманово
markoaleksic.com
Eве баш пред некое време "закачував" веб страна. Па ми текана да напишам нешто за роботчиња. Можеби ке послужи на некого.

Web Robots (веб роботи) се програми што патуваат по Web-ot автомаски. Претражубачи како што се Google, Yahoo итн., ги користат за да ги сортираат веб страните што излегуваат на Интернетот, спамерите ги користат за да бараат незаштитени е-маилови како и ред други потреби.

Администратори на веб сајтови ги корстат фајл robots.txt кој е сместен најчесто во root-to на сајтот за да дадат инструкции за нивниот сајт на роботот. Процесот е наречен The Robots Exclusion Protocol.

Пример за содржина на robots.txt фајлот:

Код:
User-agent: *
Disallow: /
Users-agent:* во овој случај означува дека сајтот е дозволен за сите роботи, а Diasallow: / означува дека роботот не смее да посети ниедна од страниците на сајтот.
* - ознака за "се"
/ - oзнака за root

BAЖНО:

  • Роботите можат да го избегнат фајлот robots.txt, oсобено спамерските, малверските итн, роботи.
  • Фајлот robots.txt е јавно видлив. Секој може да види кој дел од серверот не сакате да биде посетен од роботите. Затоа не користете го овој фајл да криете некои битни податоци. :)
  • Пример можете да го видите моето robots.txt на http://www.psybaron.mkd.net/robots.txt , како и на скоро сите други сајтови.

Користење:

Најкраток одговор е ставете го robots.txt фајлот во root-ot на вашиот веб сервер. ex. http://www.primer.com/robots.txt

Следат неколку пример за користенје на robots.txt фајлот:

Забрана за сите роботи на целот сервер:
Код:
User-agent: *
Disallow: /
Дозвола за сите робот на целиот сервер:
Код:
User-agent: *
Disallow:
Забрана за сите робот на одредени фолдери/фајлови од серверот:
Код:
User-agent: *
Disallow: /sliki/
Disallow: /muzika/
Disallow: /mesto/ajax.php
Забрана за еден робот:
Код:
User-agent: Bot
Disallow: /
Дозвола за еден робот:
Код:
User-agent: Google
Disallow:

User-agent: *
Disallow: /
Напомена:
  • Секое ново Disallow: се пишува во нова линија. Значи за секој фолдер, секој фајл мора да пишувате ново Disallow:.
  • Знапомнете да го креирате фајлот robots.txt со МАЛИ букви. Значи не Robots.txt.
 

S

pwnz0r1lla
8 март 2007
1,550
52
www.it.com.mk
:bravo: Psybaron :)

Da dodadam, isto taka mozhe da koristite regular expresions za da zabranite (ili dozvolite) pristap kon fajlovi/folderi kade go zadovoluvaat izrazot, na primer:
Код:
Disallow: /*.exe$
Disallow: /^privatno*
Disallow: /*privatno*
* - za 'bilo shto'
$ - za 'na kraj na string'
^ - za 'na pochetok na string'
 
Статус
Затворена за нови мислења.

Нови мислења

Последни Теми

Статистика

Теми
43,516
Мислења
858,264
Членови
29,926
Најнов член
Trafika
На врв Дно