Эксперт Semalt Islamabad - Што вам трэба ведаць пра вэб-гусеніцу

Сканер пошукавай сістэмы - гэта аўтаматызаванае прыкладанне, сцэнар альбо праграма, які праграмуецца па ўсёй сусветнай павуціне, каб забяспечыць абноўленую інфармацыю для пэўнай пошукавай сістэмы. Ці задумваліся вы, чаму вы атрымліваеце розныя наборы вынікаў кожны раз, калі вы набіраеце адны і тыя ж ключавыя словы ў Bing ці Google? Таму што вэб-старонкі загружаюцца кожную хвіліну. І калі яны загружаюць вэб-сканеры, перабягайце новыя вэб-старонкі.

Майкл Браўн, вядучы эксперт кампаніі Semalt , распавядае, што вэб-сканеры, таксама вядомыя як аўтаматычныя індэксатары і павукі, працуюць над рознымі алгарытмамі для розных пошукавых сістэм. Працэс сканавання вэб-сайтаў пачынаецца з выяўлення новых URL-сайтаў, якія трэба наведаць альбо таму, што яны толькі што былі загружаныя, альбо таму, што некаторыя з іх вэб-старонак маюць свежы змест. Гэтыя ідэнтыфікаваныя URL-адрасы ў тэрміне пошукавай сістэмы вядомыя як насенне.

Гэтыя URL-сайты ў рэшце рэшт наведваюцца і паўторна наведваюцца ў залежнасці ад таго, наколькі часта на іх загружаецца новы змест і палітыкі, якія кіруюць павукамі. Падчас візіту ўсе гіперспасылкі на кожнай з вэб-старонак ідэнтыфікуюцца і дадаюцца ў спіс. У гэты момант важна дакладна сказаць, што розныя пошукавыя сістэмы выкарыстоўваюць розныя алгарытмы і палітыкі. Вось чаму будуць адрозьнівацца вынікі Google і вынікі Bing для адных і тых жа ключавых слоў, нягледзячы на тое, што падобнага таксама будзе шмат.

Вэб-сканеры выконваюць велізарную працу, пастаянна падтрымліваючы пошукавыя сістэмы. На самай справе іх праца вельмі складаная з трох прычын.

1. Аб'ём вэб-старонак у Інтэрнэце ў любы момант часу. Вы ведаеце, што ў Інтэрнэце ёсць некалькі мільёнаў сайтаў, і кожны дзень яны запускаюцца больш. Чым больш аб'ём вэб-сайта ў сеціве, тым складаней будзе абслугоўванне сканераў.

2. Тэмп, з якім запускаюцца вэб-сайты. Ці маеце вы ідэю, колькі новых сайтаў запускаецца кожны дзень?

3. Частата змены зместу нават на існуючых сайтах і даданне дынамічных старонак.

Гэта тры праблемы, якія абцяжарваюць павукі ў Інтэрнэце. Замест таго, каб сканіраваць вэб-сайты па прынцыпе "першы прыйшоў-пачаў", шмат павукоў-сайтаў аддаюць перавагу вэб-старонкам і гіперспасылкам. Прыярытэтызацыя заснавана на чатырох агульных палітыках пошукавых сістэм.

1. Палітыка выбару выкарыстоўваецца для выбару, якія старонкі спачатку загружаюцца.

2. Тып палітыкі паўторнага наведвання выкарыстоўваецца для вызначэння, калі і як часта пераглядаюцца вэб-старонкі для магчымых змяненняў.

3. Палітыка паралелізацыі выкарыстоўваецца для каардынацыі распаўсюджвання гусениц для хуткага пакрыцця ўсіх насення.

4. Палітыка ветлівасці выкарыстоўваецца для вызначэння таго, як праглядаюцца URL, каб пазбегнуць перагрузкі вэб-сайтаў.

Для хуткага і дакладнага пакрыцця насення, гусеніцы павінны мець выдатную тэхніку сканіравання, якая дазваляе расстаўляць прыярытэты і звужаць вэб-старонкі, а таксама яны павінны мець аптымізаваную архітэктуру. Гэта дазволіць ім прасцей сканаваць і загружаць сотні мільёнаў вэб-старонак за некалькі тыдняў.

У ідэальнай сітуацыі кожная вэб-старонка выцягваецца з сусветнай павуціны і праходзіць праз шматпаточны загрузнік, пасля чаго вэб-старонкі ці URL ставяцца ў чаргу, перш чым праходзіць іх праз спецыяльны планавальнік для атрымання прыярытэту. Прыярытэтызаваныя URL-адрасы зноў прымаюцца праз шматпаточны загрузнік, каб іх метададзеныя і тэкст былі захаваны для правільнага прагляду.

У цяперашні час існуе некалькі павукоў пошукавых машын альбо гусеніц. Той, які выкарыстоўваецца Google, - гусеничный Google. Без павукоў, пошукавыя старонкі будуць вяртаць нулявыя вынікі альбо састарэлы змест, бо новыя вэб-старонкі ніколі не будуць унесены ў спіс. На самай справе, не будзе нічога падобнага на інтэрнэт-даследаванні.