1. Здраво и добредојдовте на форумот на IT.mk.

    Доколку сеуште не сте дел од најголемата заедница на ИТ професионалци и ентузијасти во Македонија, можете бесплатно да се - процесот нема да ви одземе повеќе од 2-3 минути, а за полесна регистрација овозможивме и регистрирање со Facebook и Steam.
    Сокриј

Web Crawler

Дискусија во форумот 'Perl // Ruby // Python' започната од Xenor, 2 Јули 2011.

  1. Xenor

    Xenor
    Intern

    812
    41
    12 Март 2009
    Ме интересира дали некој има правено некој web crawler, што програмски јазик препорачувате за употреба и пример некој да не има во python или php.
     
  2. SkyDriver

    SkyDriver
    Intern

    61
    10
    18 Јули 2009
    Јас имам правено некои експерименти поврзани со оваа тема во Python, незнам што точно те интересира за да би можел да прецизирам... Конкретно јас имам правено crawler за линкови и обид за SEO crawler/checker, се тоа во Python користејки ги urllib, urllib2, HTMLParser, re, robotparser и urlparse модулите (овие имиња се за 2.* верзијата, за 3.* сменети се)...
    Разгледај ја класата HTMLParser, содржи функции за обработка на HTML документи, за понатака... зависи што сакаш да правиш. :)
    HTMLParser ти доаѓа во стандардната библиотека на Python, имаш и други модули за обработка на HTML, али не сум имал искуство со други парсери.

    Исто така и Perl и Ruby ти се добри за кравлери, само тие имаат „мачна“ синтакса (Ruby ќе помине некако, ама Perl е ужас со синтаксата) ако претходно не си работел со нив.
     
  3. B^nDIT

    B^nDIT
    Gaining Experience

    1,124
    311
    6 Февруари 2010
    Машко
    Јас имав нешто склопено. Користејќи PHP + xPath. Се се состои во рекурзија на зачувување на линковите се додека сите не се исчешлаат.

    Не го чувам , ама знам дека бараше многу ЦПУ. Доколку му ставев sleep() , тогаш па идеше многу споро. А и цедеше интернет. Така да не е препорачливо за на локален сервер :)
     
  4. sojic

    sojic
    Intern

    435
    23
    29 Април 2007
    При правење на кролери, треба да обратиш внимание ОБАВЕЗНО да ставиш „пауза“ помеѓу request-и. Можеби за наши, македонски, сервери не е битно, меѓутоа ако кролаш нешто поозбилно, ако немаш пауза помеѓу рикуести, серверот може да детектира напад.

    Поради тоа, крокерот го стартам на повише сервери кои се врзуваат на иста база, и читаат и упишуваат у иста база.
     
  5. petelko23

    petelko23
    Intern

    31
    18
    5 Август 2011
    Од скоро почнав да правам кролери во пајтон со scrapy framework. Предходно користев www-mechanize во перл, и во споредба со ова сум екстремно задоволен од Scrapy.

    Користи XPath и може да направиш едноставен кролер за онлајн продавница во 50 реда код.

    Еве ви прост туторијал од каде што почнав јас:
    http://doc.scrapy.org/en/latest/intro/tutorial.html

    Имаат добра доументација, така да повеќето од одговорите што ги барате ќе ги најдете таму, ако не тогаш сигурно на stackoverflow.
     
Слични теми
  1. vladence
    Одговори:
    3
    Прегледи:
    759
Вчитување...

Сподели

Вчитување...