Пошукові системи і каталоги

Сучасний Інтернет є унікальним безмежним сховищем знань, де можна отримати відповідь практично на будь-яке питання. Тут зібрано все краще, що винайдено і створено людством як за всю його довгу історію, так і новинки, що з'явилися щойно. Користувачі розшукують в Інтернеті не лише текстові документи чи новини, але і фото, аудіо, відеоматеріали, товари, послуги, вакантні посади тощо.
Поява такої величезного масиву інформації може привести до перевантаженості інформаційного простору. Фахівці по-різному оцінюють розміри Інтернету, проте в більшості сходяться на думці, що зараз тут знаходяться мільйони сторінок, причому велика частина їх зникає або оновлюється протягом нетривалого періоду часу.  Чи існує яка-небудь можливість орієнтуватися в цьому практично нескінченному невичерпному швидкозмінному потоці інформації?
Вирішити цю проблему можуть спеціальні інформаційно-пошукові системи, які спроможні самостійно збирати інформацію. Це складні технічні комплекси, що містять десятки швидкодіючих комп'ютерів, обслуговування яких ведуть сотні фахівців.
Якщо розумно використати пошукову систему, можна протягом достатньо короткого часу знайти інформацію, на пошук якої без використання Інтернет можна витратити місяці і навіть роки. Але, практика доводить, що ефективно і правильно використовувати пошукові системи вміють не більше 3% користувачів. Зазвичай, пересічний користувач на запит з 1-2 слів отримує інформацію, що охоплює значно більший простір ніж потрібно.
Пошукові системи інакше називають: пошуковими засобами або пошуковими машинами, жаргонною назвою є пошуковики. Еквівалентними іноземними термінами є: англійською - Search Engines, німецькою - Suchmaschinen, французькою - Le systeme de prospection.

Пошукові системи містять три основні компоненти:

·      Веб-сторінка з пошуковим механізмом, яку користувачі використовують як інтерфейс для взаємодії з базою даних.
·      База даних, де міститься інформація, що зібрана спеціальними програмами пошукової системи. Власне наявністю баз даних пояснюється висока швидкість виведення результатів пошуку на сторінку пошукової системи.
·      Пошукові роботи (Robots), павуки (Spiders) або хробаки (Worms) -  спеціальні програми, які автоматично періодично «відвідують» сайти, збирають відомості про вміст сторінок, тобто індексують їх і наповнюють бази даних пошукової системи.
Щоб скористатися пошуковою системою потрібно завантажити її веб-сторінку і сформувати запит, за яким відбувається відбір документів з розподіленої бази даних, що зберігається на серверах в Інтернеті. Запит формується за допомогою ключових слів (одного або кількох). Результати пошуку видаються користувачу у вигляді переліку адрес сторінок (гіперпосилань) і короткої анотації до них.
Пошук - це процедура відбору потрібних документів, що зберігаються в Інтернеті. Пошук здійснюється або автоматично за допомогою ключових слів, або шляхом послідовного проходження користувачем по рубриках в каталогах.
Ключове слово - це будь-яка лексична одиниця природної мови, яка найбільшою мірою відображає зміст шуканого документа. При формуванні запиту можуть використовуватися не лише окремі ключові слова, але і словосполучення, що складаються з кількох ключових слів.
Запит - це набір ключових слів, за допомогою яких пошукова система автоматично проводить пошук і відбір необхідних документів. Іншими словами, запит - це інструкція (команда) для пошукової системи на пошук потрібних документів.
Запити бувають двох типів: прості і складні (або розширені, advanced). Прості запити складаються з окремих ключових слів або словосполучень. Складні запити, окрім ключових слів, містять логічні чи інші оператори.
Індексація - це процедура автоматичного заповнення бази даних пошукової системи, в якій зберігаються короткий зміст та анотації до сторінок і доменні адреси, за якими розміщені сторінки.
Коли пошукова система отримує конкретний запит на пошук потрібної інформації, то її пошуковий механізм порівнює ключові слова, що введені користувачем, з ключовими словами, що отримані під час індексації і збережені в базі даних системи. При збіганні цих слів користувачу видається назва сторінки, короткий опис, або абзац, де зустрічаються пошукові слова і доменна адреса даної сторінки.
Сучасні пошукові системи постійно вдосконалюють свої алгоритми роботи, і прагнуть проводити індексацію всього документа, а не лише його назви чи перших абзаців тексту. Найбільш досконалі роботи при індексації сканують і головну сторінку і решту сторінок, заходячи за гіперпосиланнями вглиб сайту. Попередня індексація документів Інтернету дозволяє згодом за кілька секунд обслуговування запиту обробити (відсортувати) гігабайти різноманітної інформації. За допомогою механізму попередньої індексації можна отримати якісний результат пошуку у випадках, коли вдається точно сформувати запит за допомогою невеликого числа ключових слів. В інших випадках користувач або отримує велике число посилань, які є лише "інформаційним шумом", або зовсім не знаходить необхідного документа.
Значно підвищують вибірковість пошуку фільтри, якими забезпечуються пошукові системи.

Фільтри дозволяють:

·      Обмежити список відібраних документів за допомогою логічних операторів (так званий складний пошук).
·      Обмежити простір пошуку типом протоколу, за допомогою якого було створено документ (пошук на сайтах або у телеконференціях).
·      Обмежити відібраний матеріал часовим відрізком, певними датами створення шуканого документа (наприклад, між 1 вересня 2005 р. і 20 вересня 2007 р.).
·      Відібрати документи, що складені однією мовою (українською, російською тощо).
·      Обмежити відбір документів територією розміщення серверів (наприклад, тільки з Європи, України чи навіть, лише з Львівської області).
·      Обмежити пошук певною частиною документа (заголовок, доменна адреса).
·      Відібрати документи, які містять фразу із заданим порядком розташування ключових слів.
При пошуку інформації пошукова система може робити дві помилки: не відбирати потрібні користувачеві документи і, навпаки, відбирати зайві документи, що містять інформаційний шум. Для уникнення цих помилок варто ознайомитися з поняттями "чутливість" і "вибірковість".
Чутливість - здатність пошукової системи відбирати документи, що відповідають запиту, не пропускаючи потрібних документів. Чутливість характеризується числом пропусків потрібних документів. Чим вищою є чутливість, тим менше вірогідність пропуску потрібного документа.
Вибірковість - здатність пошукової системи відбирати документи, що відповідають запиту і не виводити невідповідні документи. Якість вибірковості характеризується числом відібраних документів, що не відповідають запиту. Чим вищою є вибірковість, тим менше сторонніх документів потрапляє до користувача.
Вибірковість можна змінювати (регулювати) за допомогою логічних операторів (фільтрів).

Для уточнення запиту (фільтрації інформації) призначені логічні оператори OR, AND, NOT. Використання логічного оператора AND (І) приводить до відбору документів, які обов'язково містять всі перелічені в запиті ключові слова, що сполучені цим оператором.
Оператор NOT (НІ) дозволяє виключити документи, які містять ключове слово, вказане після цього оператора.
За допомогою оператора NEAR (поблизу, поряд) користувач може відбирати документи, в яких ключові слова, що сполучені цим оператором, будуть міститися поблизу один від одного, а не в різних кінцях документа.
Оператор FOLLOWED BY дозволяє відбирати документи, в яких ключові слова слідують один за одним в заданому порядку.
Оператор ADJ відбирає документи, в яких ключові слова є суміжними (слідують одне за іншим).
На жаль, кожна пошукова система має власний синтаксис запитів. Тому, перед формуванням розширених запитів необхідно з’ясувати правила використання логічних та інших операторів власне у цій пошуковій системі.
Сучасні пошукові системи стають інтелектуальними. Використовуючи принципи штучного інтелекту, вони формують список документів (посилань на них), відповідно до ступеня їх релевантності.
Релевантність – відповідність знайденого в процесі пошуку документа до зробленого запиту. При цьому пошукові системи аналізують розташування знайдених ключових слів в документі (заголовку або тексті), число повторень ключових слів, їх взаємне розташування в документі.
Найбільш точно відібрані документи розташовуються на початку списку документів, що  знайдені в процесі пошуку.  Для ранжирування знайдених документів використовують наступні показники.
Розташування ключового слова на сторінці (keyword prominence) - показник, що визначає, як близько від початку документа знаходиться задане ключове слово. Як правило, чим ближче до початку сторінки розташовується ключове слово, тим точніше документ відповідає запиту.
Частота ключового слова (keyword frequency) - показник, що враховує абсолютну частоту використання ключових слів (скільки разів зустрічається дане ключове слово на сторінці). Найбільшу «вагу» при ранжируванні документів мають слова, що розташовані в заголовку сторінки (так званий титул, він міститься між тегами title). Саме цей заголовок відображається в рядку заголовка браузера при перегляді сторінки, і слова, що там вказані мають найбільшу цінність (вагу) для пошукової системи.
Деякі пошукові системи при ранжируванні враховують індекс цитування (посилальна популярність, авторитетність, тематичний індекс цитування, ІЦ, ТІЦ, Page Rank, Link Popularity) - кількість посилань в Інтернеті, що вказують на конкретний сайт. Чим їх є більше, тим вищим є індекс цитування.
Результати пошуку за допомогою різних пошукових систем будуть різнитися між собою. Це пояснюється тим, що в кожній пошуковій системі застосовуються різні алгоритми індексації, різна періодичність оновлення інформації в базі даних, охоплюється різний простір навколишніх серверів, і відповідно індексується різне число документів.

Спеціалізовані пошукові системи

Метапошукова система дозволяє вести автоматичний пошук за запитом з використанням відразу кількох пошукових машин.

Метапошукові системи:

Пошукові системи, що призначені для пошуку файлів:

Інші спеціалізовані пошукові системи

www.midi.ru                             Музичні файли.
www.graphscarch.com                       Малюнки.
http://bukinist.agava.ru             Книги.
www.cooking.ru/search.html   Кулінарні рецепти.

В спеціалізованих системах пошук часто відбувається не за допомогою ключових слів, а за відомими іменами файлів.
Окрім пошукових систем, використовуються інші механізми пошуку і збереження інформації в глобальній мережі.
Природним чином утворилися комбіновані (гібридні) пошукові системи, які називають порталами. Вони містять відомості про сторінки різних тематичних напрямів і дозволяють проводити пошук, як за допомогою ключових слів, так і за допомогою каталогів.

Каталог

Каталоги – це є ієрархічні структури, що містять впорядкований перелік сайтів, які супроводжуються короткими коментарями (анотаціями). Ресурси каталогів можна сортувати за датою долучення, за популярністю, за алфавітом тощо.
Каталоги можуть бути глобальними, національними, загальними і спеціалізованими (галузевими, тематичними тощо).
Каталоги з'явилися самим природним чином: користувачі відбирали для себе посилання на улюблені місця в Інтернеті і складали впорядковані тематичні списки з деталізацією кожного розділу (рубрики). Саме так виник всесвітньо відомий каталог Yahoo!, що створено студентами Стендфордського університету Девідом Філо і Джері Янгом.
Рубрикація - розміщення документа у відповідний розділ (підрозділ, рубрику), яке, як правило, проводиться власноруч модераторами, розробниками чи власниками сайтів. Процедура рубрикації є достатньо суб'єктивною і здійснюється на підставі індивідуальних уявлень людей про дану наочну область. Автори при розміщенні своїх сторінок деколи керуються не точною відповідністю документа до назви рубрики, а іншими міркуваннями. Наприклад, з метою збільшення відвідуваності своїх сторінок їх поміщають в популярні рубрики. Сайт, що містить різноманітну інформацію інколи поміщають в кілька рубрик.
Модератор – співробітник, що відповідає за вміст каталогу (його окремого розділу, підрозділу тощо), за його достовірність та актуальність.
Окрім ієрархічних каталогів, зустрічаються і інші типи каталогів - неієрархічні, в яких немає супідрядності, наприклад, каталоги, що використовують алфавітно-наочну класифікацію, наприклад, енциклопедії, музичні сайти, телефонні довідники тощо.

Особливості та відмінності пошукових систем та каталогів

Отже, пошукові системи і тематичні каталоги мають свої особливості і взаємно доповнюють один одного.
Пошукові системи «оглядають» велике число сайтів, що знаходяться на різних серверах. Тут, нажаль, автоматичний відбір шуканих документів супроводжується чималим числом помилок.
База даних каталогу зберігається на одному сервері і містить менший об'єм інформації, ніж в базі даних пошукової системи. Проте, результати пошуку за допомогою каталогів мають більшу релевантність в порівнянні з пошуком за допомогою пошукової системи.

Пошукові машини

·      Індексація сайтів відбувається в автоматичному режимі за допомогою спеціальних програм - роботів.
·      Пошукові системи переглядають кожну сторінку сайту окремо. Може бути проіндексована як одна, так і всі сторінки сайту.
·      Зазвичай, сучасні пошукові системи самостійно знаходять та індексують нові сайти. Але, іноді за певних умов, пошукові системи цього не роблять і сайт потрібно самостійно зареєструвати у пошуковій системі. Термін долучення сайту до бази даних (за умови відповідності сайту до вимог, що пред'являються) може складати від 1 до 2 тижнів.
·      Сайт може бути знайдений як результат обробки різноманітних запитів, що можуть відноситься до абсолютно різних галузей або видів діяльності.
·      База даних в пошуковій системі постійно оновлюється. Алгоритм роботи пошукової системи є циклічним.
·      При роботі з пошуковими системами кожна окрема сторінка сайту може бути оптимізованою під визначені ключові слова окремо від решти сторінок.
·      Алгоритм кожної пошукової системи є унікальним і може бути змінений у будь-який час без повідомлення власників тих сайтів, які розміщені в базі даних пошукової системи. Високий рейтинг сайту в результатах пошуку однієї системи, за певними ключовими словами, не гарантує високий рейтинг в результатах інших пошукових систем.

Каталоги

·      Каталоги містять опис сайту як єдиного цілого. В каталогах немає опису окремих сторінок сайту. Власник сайту самостійно складає короткий опис сайту, що відображає його суть, призначення тощо. Після реєстрації сайту в каталозі, його зазвичай переглядає модератор, що відповідає за вміст каталогу або його окремого розділу. Змінити опис сайту в каталозі може модератор або власник сайту.  
·      Складання каталогу (класифікація і анотація ресурсів) здебільшого є ручною роботою, і зазвичай в базі каталогу міститься значно менше сайтів, ніж в базі пошукової системи.
·      У каталозі, як правило, зазначено доменну адресу головної сторінки сайту.
·      При пошуку в каталозі вирішальну роль має короткий опис сайту, ніж ключові слова і метатеги, що містяться в тексті сторінок.
·      Сайти в каталогах можуть бути знайдені за датою розміщення, за алфавітом, за оцінкою модератора, за індексом цитування, за популярністю (числу відвідувачів) тощо.
·      Сортування сайтів за алфавітом і датою розміщення, пошук за назвами сайтів є абсолютно об'єктивними критеріями і не залежать від модератора.
·      Сортування сайтів за категоріями також є об'єктивним критерієм, якщо власник сайту при додаванні сайту до каталогу доцільно вибрав відповідну категорію, а модератор з цим погодився.
·      Сортування сайтів за іншими критеріями не може мати 100% об'єктивний характер. В певних каталогах рейтинг може мати комерційний характер.
·      Сайт може займати перші позиції в каталозі, якщо назва сайту починається з перших літер алфавіту чи якщо сайт було додано в каталог нещодавно, а сортування застосовано за датою додавання.
·      Виявлення посилань до неіснуючих сайтів в каталозі може бути виконане автоматично, але часто потрібно додатково перевіряти існування ресурсу модератором.

Аналіз популярності пошукових систем

В різних країнах користувачі вважають за краще використовувати різні пошукові системи. І для популяризації сайту та залучення більшої кількості відвідувачів, необхідно знати, якій пошуковій системі користувачі даного регіону віддають перевагу.

Рейтинг пошукових систем в Україні

Сервіс статистики Bigmir.net (http://www.bigmir.net/) надає максимально точну (серед безкоштовних джерел) інформацію для огляду популярності пошукових систем в  Україні. За його статистикою на 2010-й рік ринок пошукових запитів поділено наступним чином:
• Google                        74.94%
• Яндекс                       18.27%
• Ukr.net                       2.10%
• Search.Mail.ru            1.79%
• Meta.ua                      0.73%
• Bigmir.net                   0.69%

    Основна маса українських користувачів використовують для пошуку інформації в Інтернеті саме Google, адже він є світовою пошуковою системою з найширшою базою даних та ефективними алгоритмами пошуку. Google першим впровадив для своєї роботи Активний Java-скрипт і Динамічний HTML. При введенні пошукового запиту в поле, під ним розгортається перелік з найпопулярнішими запитами на введені символи і кількістю документів, що відповідають цьому запиту. Це і багато інших чинників стали основною причиною, за якою багато користувачів не лише України, а і всього світу активно використовують Google.

Рейтинг пошукових систем в Росії

За даними компанії Live Internet (http://www.liveinternet.ru/) в Росії спостерігається інший розподіл популярності:
• Яндекс — 47.4%
• Google — 34.3%
• Search.Mail.ru — 9.0%
• Rambler — 1.9%
• Bing — 0,9%

Тенденції останніх років свідчать, що Google поступово починає наздоганяти Яндекс. Можливо, причина в ширшій базі Google, але російські користувачі все частіше почали звертатися саме до Google зі своїми питаннями.
Bing – це пошукова система від компанії Microsoft, яка з'явилася порівняно, але вже завоювала серця користувачів в світі і деяких користувачів в Росії. Основною її перевагою є те, що для перегляду результатів пошуку необов'язково перегортати сторінки пошуку, їх можна проглянути на одній сторінці.

Google  залишається лідером Європи

За даними компанії Net Applications (http://www.netapplications.com/)     у 2010 року використання пошукових систем на Заході розподілялося таким чином:

• Google  86,30 %
• Yandex - 7,70 %
• Yahoo  5,30 %
• Bing  3,13 %
• Baidu  3,02 %
• Ask  0.67 %
• AOL  0.44 %
• MSN  0.08 %
• AltaVista  0,07 %
• Excite  0,03 %
• Lycos  0,02 %
• All the Web  0,01 %

Google  залишається лідером світу

На  підставі дослідження компанії NetMarketShare (http://marketshare.hitslink.com) на 2010 рік момент світова аудиторія пошукових систем розподілилася таким чином:
·      Google         85,5%
·      Yahoo           5,9%
·      Bing                          3,2%
·      Baidy                        3.0%
·      Ask               0.68%
·      AOL                         0.47%
Популярність пошукових системи Google і Microsoft (Bing.com) продовжує зростати за рахунок аудиторії Yahoo.