Пошукові системи використовують для індексування сайтів так званих "пошукових роботів", спайдеров (від англійського слова "spider", що значить "павук"). Робот - це невелика програма, що ходить по посиланнях на сайте й індексує (збирає і запам'ятовує) зустрінуту на шляху інформацію.
Принцип роботи пошукових роботів приблизно наступний: ви надаєте пошуковій системі точна адреса сторінки, який потрібно зареєструвати. Пошукова система перевіряє, чи існує по цій адресі сторінка, і якщо так, те сторінка вноситься в "графік відвідування". Між часом, коли ви зареєстрували сторінку в пошуковій системі і часом, коли вашу сторінку відвідає пошуковий робот може пройти від декількох хвилин до декількох тижнів. Так що не поспішаєте відразу ж перевіряти наявність вашої чи сторінки сайту в пошуковій системі.
Коли приходить "година Х", на вашу сторінку посилається пошуковий робот. Як правило, схема роботи робота наступна:
1) робот шукає файл robots.txt,
2) робот читає сторінку, для індексування якої він був посланий (глибина індексування, тобто читання сторінки міняється від робота до робота. Деякі зупиняються тільки на читанні заголовка сторінки і вмісту мета-тегів, інші можуть прочитати, скажемо перші 6000 символів на сторінці, а деякі індексують весь зміст веб-сторінки),
3) потім робот може або видалитися або продовжити індексування сайта,
4) через якийсь час робот знову може відвідати цю сторінку, якщо існує тег "revisit" чи відповідно до політики, яка проводиться пошуковою системою.
Відмінність каталогів від пошукових систем полягає в тому, що каталоги не посилають ніяких роботів, щоб індексувати вашу чи сторінку веб-сайту. Найбільш відомим каталогом є Yahoo.com.
Для реєстрації в каталозі вам необхідно знайти розділ, у який ви хочете помістити свою сторінку, послати короткий опис сайта і список ключових слів для пошуку вашої сторінки в каталозі. Потім ця інформація проглядається й оцінюється людьми, що вирішують, чи варто включати ваш інформацію в чи каталог ні.
Варто знати, що вам можуть відмовити в реєстрації, ваш сайт можуть помістити в інший розділ, можуть бути змінені опис сайта і/чи список його ключових слів. Усі залежить від модераторів.
Тому що реєстрація виробляється людиною, а не програмою, то пошук по каталогах дає більш релевантні результати, ніж пошук по пошукових системах. Корінною відмінністю каталогів від розвідувачів також є те, що пошук у них виробляється не по текстової складової всіх сторінок сайта, а тільки по короткому описі сервера й обраним при реєстрації ключовим словам.
Так само, як різні кухарі готують різні блюда з тих самих інгредієнтів, так і пошукові системи одержують різні результати, ґрунтуючись на тих самих вихідних даних. Усі залежить від алгоритмів обробки цих даних, закладених творцями пошукових систем.
Одні системи приділяють більшу увагу "індексу цитування", інші наявності всіх мета-тегов, треті взагалі не приділяють увагу мета-тегам. Rambler, наприклад, цілком ігнорує зміст мета-тегов (крім мета-тега robots). Якщо ви подивитеся на рейтинг вашого сайта в різних пошукових системах, він скрізь виявиться різним.
Тому й існують так називані вхідні сторінки, оптимизированние під роботу окремих пошукових систем.
Як правило, пошукові системи тримають у секреті точні рецепти, свої алгоритми ранжирування, відповідно до яких формуються їхні рейтинги. Цим переслідуються дві мети: захист від конкурентів і захист від спрямованого спама.
Крім того, пошукові системи відрізняються обсягом проіндексованих сторінок і періодом відновлення свого індексу.
В даний час пошукові обсяг індексації пошукових систем оцінюється по двох параметрах: по кількості веб-страниц, що пошукові системи відвідали для створення своєї бази даних і кількості веб-страниц проіндексованих у базі даних.
AltaVista, наприклад, затверджує, що її база даних нараховує 250 млн. сторінок, а число посещенних для індексації сторінок склало 400 млн. У пошукової системи FAST цей показник складає 400 млн. проти 700 млн., Excite - 250/920 млн., Inktomi - 110 млн./1 млрд.
Крім того, пошукові системи розрізняються періодом відновлення свого індексу, тобто часом, за которое відбувається повне відновлення бази даних пошукової системи. Ніж коротше цей період, тим більше релевантні результати ви будете одержувати на свій запит і меншу кількість "мертвих посилань". Саме тому ваш рейтинг в одній і тій же пошуковій системі може змінюватися: чи з'являються зникають якісь сайти, уводяться зміни в алгоритм роботи пошукових систем, міняється структура інформації на вашому сайте. Період відновлення індексу генератора в трьох основних російськомовних пошукових машин - Яndех, Rambler і "Апорт" - тиждень. Тому, зареєструвавши свій ресурс у пошуковій машині, не варто відразу ж шукати посилання на нього в результатах пошуку - він стане доступним тільки тоді, коли буде обновлена база даних пошукової системи.
Другий показник дуже важливий для правильної оцінки "індексу цитування", тому що чим більше число веб-страниц відвідав пошуковий робот, тим більша кількість перехресних посилань він проиндексировал.