Принцип программ индексации сайтов поисковыми системами
Подскажите мне пожалуйста по какому принципу поисковые системы индексируют сайты в интернете. Насколько я знаю есть специальные программы которые каким-то образом пропарсивают сайты (или только тег META) и составляют базу данных с которой в свою очередь и работают поисковые системы.
Таким образом меня интересует следующий вопрос,- как с точки зрения программиста-системщика (C/C++) реализованы системы индексации сайтов, не используются ли там какие-то особые технологии поиска сайтов или специальные протоколы (если да то дайте мне пожалуйста ссылку на соответствующий RFC).
Заранее спасибо.
PS: Отдельное огромное спасибо за ссылки и примеры псевдо-кода
Цитата:
Originally posted by rarelang
Всем привет,
Подскажите мне пожалуйста по какому принципу поисковые системы индексируют сайты в интернете.
Всем привет,
Подскажите мне пожалуйста по какому принципу поисковые системы индексируют сайты в интернете.
Применяемые серьёзными поисковиками алгоритмы индексирования, скорее всего, никто не опубликует, потому как секрет фирмы. Там же не только по словам индексация, ещё и учёт по словоформам, и релевантность каким-то образом подсчитывается...
Серьёзные поисковики, кстати, не только <META> анализируют, но и всё содержимое, и PDF, и JScript с VBScript'ом.