• Здраво и добредојдовте на форумот на IT.mk.

    Доколку сеуште не сте дел од најголемата заедница на ИТ професионалци и ентузијасти во Македонија, можете бесплатно да се - процесот нема да ви одземе повеќе од 2-3 минути, а за полесна регистрација овозможивме и регистрирање со Facebook и Steam.

Web Robots

Статус
Затворена за нови мислења.
  • Ја почнал/а темата
  • #1

psybaron

Intern
10 април 2007
745
48
Куманово
markoaleksic.com
Eве баш пред некое време "закачував" веб страна. Па ми текана да напишам нешто за роботчиња. Можеби ке послужи на некого.

Web Robots (веб роботи) се програми што патуваат по Web-ot автомаски. Претражубачи како што се Google, Yahoo итн., ги користат за да ги сортираат веб страните што излегуваат на Интернетот, спамерите ги користат за да бараат незаштитени е-маилови како и ред други потреби.

Администратори на веб сајтови ги корстат фајл robots.txt кој е сместен најчесто во root-to на сајтот за да дадат инструкции за нивниот сајт на роботот. Процесот е наречен The Robots Exclusion Protocol.

Пример за содржина на robots.txt фајлот:

Код:
User-agent: *
Disallow: /
Users-agent:* во овој случај означува дека сајтот е дозволен за сите роботи, а Diasallow: / означува дека роботот не смее да посети ниедна од страниците на сајтот.
* - ознака за "се"
/ - oзнака за root

BAЖНО:

  • Роботите можат да го избегнат фајлот robots.txt, oсобено спамерските, малверските итн, роботи.
  • Фајлот robots.txt е јавно видлив. Секој може да види кој дел од серверот не сакате да биде посетен од роботите. Затоа не користете го овој фајл да криете некои битни податоци. :)
  • Пример можете да го видите моето robots.txt на http://www.psybaron.mkd.net/robots.txt , како и на скоро сите други сајтови.

Користење:

Најкраток одговор е ставете го robots.txt фајлот во root-ot на вашиот веб сервер. ex. http://www.primer.com/robots.txt

Следат неколку пример за користенје на robots.txt фајлот:

Забрана за сите роботи на целот сервер:
Код:
User-agent: *
Disallow: /
Дозвола за сите робот на целиот сервер:
Код:
User-agent: *
Disallow:
Забрана за сите робот на одредени фолдери/фајлови од серверот:
Код:
User-agent: *
Disallow: /sliki/
Disallow: /muzika/
Disallow: /mesto/ajax.php
Забрана за еден робот:
Код:
User-agent: Bot
Disallow: /
Дозвола за еден робот:
Код:
User-agent: Google
Disallow:

User-agent: *
Disallow: /
Напомена:
  • Секое ново Disallow: се пишува во нова линија. Значи за секој фолдер, секој фајл мора да пишувате ново Disallow:.
  • Знапомнете да го креирате фајлот robots.txt со МАЛИ букви. Значи не Robots.txt.
 

S

pwnz0r1lla
8 март 2007
1,550
52
www.it.com.mk
:bravo: Psybaron :)

Da dodadam, isto taka mozhe da koristite regular expresions za da zabranite (ili dozvolite) pristap kon fajlovi/folderi kade go zadovoluvaat izrazot, na primer:
Код:
Disallow: /*.exe$
Disallow: /^privatno*
Disallow: /*privatno*
* - za 'bilo shto'
$ - za 'na kraj na string'
^ - za 'na pochetok na string'
 

StarBuck

Intern
16 февруари 2008
1,295
48
Берлин
StarBuck's setup  
Processor & Cooler
Quad-Core Intel Xeon E5 3,7
Storage
256 GB SSD
RAM
12 GB DDR3-RAM
Video card
Dual AMD FirePro D300 GDDR5 4GB
Monitor
IPS
OS
Yosemite
Под robots подразбираш spiders или за нешто сосема 10то збориш?
 

StarBuck

Intern
16 февруари 2008
1,295
48
Берлин
StarBuck's setup  
Processor & Cooler
Quad-Core Intel Xeon E5 3,7
Storage
256 GB SSD
RAM
12 GB DDR3-RAM
Video card
Dual AMD FirePro D300 GDDR5 4GB
Monitor
IPS
OS
Yosemite
Статус
Затворена за нови мислења.

Нови мислења

Последни Теми

Статистика

Теми
43,530
Мислења
822,710
Членови
28,053
Најнов член
ro0tkid
На врв Дно