Справочник функций

Ваш аккаунт

Войти через: 
Забыли пароль?
Регистрация
Информацию о новых материалах можно получать и без регистрации:

Почтовая рассылка

Подписчиков: -1
Последний выпуск: 19.06.2015

Опыт написания поисковой системы.

4
17 июля 2001 года
mike
3.7K / / 01.10.2002
Я тут написал простую поисковую систему. И мне хотелось, чтобы вы протестировали ее. Посмотрели основную идею. Предложили бы свой вариант реализации. Я не думаю, что написал ее оптимально, и мне бы хотелось послушать советы третьих лиц.

В частности меня интересует вопрос поиска с учетом морфологии и вычисление релевантности фраз.

Может кто интересные ссылки подкинет.

Читать здесь http://www.codenet.ru/webmast/search/newbee/

_________________
С уважением, Михаил.
Аноним
Цитата:
On 2001-07-17 1523, mike wrote
Я тут написал простую поисковую систему. И мне хотелось, чтобы вы протестировали ее. Посмотрели основную идею. Предложили бы свой вариант реализации. Я не думаю, что написал ее оптимально, и мне бы хотелось послушать советы третьих лиц.

В частности меня интересует вопрос поиска с учетом морфологии и вычисление релевантности фраз.

Может кто интересные ссылки подкинет.

Читать здесь http//www.codenet.ru/progr/other/search/
_________________
С уважением, Михаил.


а где собственно исходные тексты?

4
24 июля 2001 года
mike
3.7K / / 01.10.2002
В правильности исходных текстов я не сомневаюсь, меня интересует правильность самой идеи.

И альтернативные варианты реализации.
Аноним
Таких идей пруд пруди, важен факт технической
реализации.
Объяснять, что одно и тоже можно написать разными способами я думаю не стоит
1.5K
26 июля 2001 года
itman
4 / / 20.06.2000
Существует довольно много написанных таких вариантов. Для одного сайта можно использовать htdig, webglimpse, aspseek и udmsearch (mnogosearch).
aspseek и udmsearch "умееют" работать и с релевантностью.
Хочу, однако, сказать, что 230 кб в секунду довольно высокая скорость индексации, которая принципиально недостижима, если индекс разложить в таблицах базы данных.
230 кб сек, это примерно 23-30 страниц текста.
4
26 июля 2001 года
mike
3.7K / / 01.10.2002
Фокус именно в том, что внешние БД не используются. Все хранится в файле, имеющим древовидную структуру...
Скорость порядка ~230Kb в секунду была достигнута на 2xPIII700 SCSI, при индексации с локальной машины.

1.5K
26 июля 2001 года
itman
4 / / 20.06.2000
Да здесь, как раз, никакого фокуса нет. Если ты не используешь внешнюю БД, или индексный файл, то не "обречен" абсолютно все писать "с нуля". HTdig, насколько я знаю, внешнюю БД не использует.

Я, кстати, тоже делал что-то подобное, правда я делал аналог glimpse'а, но со сжатым индексом и поиском по сходству. У меня тоже скорость индексирования была по твоим меркам невысокой 20-50 документов в секунду. На самом деле, это близко к максимуму, который можно выжать из персоналке.
Аноним
Михаил!

Написание поисковых систем - довольно старая наука. Их разрабатывают уже лет 30. Почитайте Солтона (Salton, Gerald). Что касается Вашей системы, то для поиска с морфологией структура индекса не подходит. По меньшей мере, словоформы одного слова долны лежать поблизости. Если же говорить о скорости индексации, то лучше посчитайте сколько Гб в час или хотя бы Mb в мин. То есть пока Вы не проидексировали хотя бы 100 Мб, и говорить не о чем - это не система, а так, игрушка.
4
26 июля 2001 года
mike
3.7K / / 01.10.2002
Спасибо за отзывы.

Пока я проиндексировал ~1.5Gb. Я вполне осознаю, что Google я врядли напишу.

Можно более подробно на счет литературы. Особенно хочится почитать про поиск с учетом морфологии.

Все это лишь мои эксперименты.
1.5K
27 июля 2001 года
itman
4 / / 20.06.2000
Не стоит писать Гугл, потому как туда вбухали 20 млн. долларов инвестиций

Поиск с учетом морфологии дело абсолютно не интересное, если понимать его как поиск с учетом грамматических форм. В общем случае там много можно чего накрутить. Например, возникает вопрос, как обрабатывать и индексировать слова типа
черно-красный, написанные через тире (а принципе можно и слитно).

Литературы разной и хорошей очень много... Поищи на Yahoo по запросу
information retrieval

Цитата:

On 2001-07-26 19:40, mike wrote:
Спасибо за отзывы.

Пока я проиндексировал ~1.5Gb. Я вполне осознаю, что Google я врядли напишу.

Можно более подробно на счет литературы. Особенно хочится почитать про поиск с учетом морфологии.

Все это лишь мои эксперименты.

449
20 августа 2001 года
Fantasist
124 / / 20.06.2000
Хм. Ничего полезного сказать не могу но за статью спасибо. Было интересно. И два вопроса:
1)Так на каком алгоритме хеширования Вы
остановились?
2)Разве скорость индексатора не зависит от скорости соеденения?
4
20 августа 2001 года
mike
3.7K / / 01.10.2002
1. CRC32.
2. Да, но на скорость соединения я программно повлиять не могу, а вот на скорость обработки документов могу. Чем успешно и занимаюсь.
1.5K
17 сентября 2001 года
itman
4 / / 20.06.2000
Михаил, я хотел бы пообщаться с Вами по
поводу одной небольшой задачки, связанной
с поисковыми системами.

Леонид.
4.4K
08 июня 2003 года
Leek
5 / / 08.06.2003
Сорри за дурацкий вопрос, но я правильно понял, что индексатора под FreeBSD нет?
С уважением, Leek.
6.5K
15 января 2004 года
Эридан
1 / / 15.01.2004
Прошу прощения за ламерство, я только недавно заинтересовался темой. Вопрос такой: как быть со словоформами при использовании поиска по CRC? к примеру, если CRC слова МИР 173h, то как соотносится с ним CRC слова МИРА, МИРУ и т.д?

(Посмотрел поиск на этом сайте - он находит эти словоформы и выделяет их жирным.)
4
26 января 2004 года
mike
3.7K / / 01.10.2002
Я бы построил словарь соотвествий.

CRC слова - CRC основной формы слова

Допустим слово:

МИР - 1
МИРА - 2
МИРУ - 3
МИРОМ - 4
МАМА - 5
МАМУ - 6
МАМЕ - 7

Тогда таблица соответсий:

1 - 1
2 - 1
3 - 1
4 - 1
5 - 5
6 - 5
7 - 5

Честно признаюсь, на этом сайте так и сделано :)
7.6K
11 мая 2004 года
panfiloff
1 / / 11.05.2004
Михайл, мне понравилась Ваша работа.
Подскажите как проиндексировать сайт
по заданному имени, например:
http://www.mysite.org
И как это можно сделать в Perl.
Как реализуете функцию сканирования
в своей системе? Не могли бы показать
примеры кода?
Я не могу понять как поисковый робот
закачивает html-файлы на сервер.
С уважением Александр.
Большая просьба ответ оправить не
в форум, а [email]panfiloff@rambler.ru[/email]
338
11 мая 2004 года
chigevara
529 / / 29.09.2003
Вау!
Какой жутко интересный топик. И жутко взрослый(я о возрасте ;) )
Mike, а с нейросетями не пробовал заморочиться? У меня давно есть такая мыслишка, но всерьез взяться всё никак- время, которого нет, а кодить там серьёзно прийдется. Зато можно круто поднять и скорость работы и релевантность результатов. Правда сетку обучать долго придется, но я думаю выход в том чтобы создать несколько сетей обученных на запросы в наиболее популярных областях. Кроме того, если в результатах выдавать не прямые ссылки, а редиректом через поисковик, то сетка может сама потихоньку "дообучиваться" исходя из запроса и выбора клиента. А на прочие не популярные запросы оставить обычный линейный алгоритм. Причем если популярность запроса возрастает, одна сетка определяет, какой области принадлежит запрос, если в этой области уже есть обученная сеть, запрос такого плана передается ей и в будущем, если сетки нет- значит надо новую создавать. Первоначально её можно обучать на результатах линейного алгоритма и поведении пользователей, когда уровень ошибок снижается, линейный алгоритм отключается, работает только сетка(обучение с учителем). Но это так, мысли вслух, на грани флейма ;)
Да, сетки и на индексации и на поиске. И лучше не одну мощную машину, а несколько маленьких(толпа 486-ых рулит)
4
11 октября 2004 года
mike
3.7K / / 01.10.2002
Цитата:
Originally posted by chigevara
Вау!Кроме того, если в результатах выдавать не прямые ссылки, а редиректом через поисковик, то сетка может сама потихоньку "дообучиваться" исходя из запроса и выбора клиента.



Ты думаешь рядовой пользователь интернета кликнет на ссылку так что сетка сможет получить долю корректной информации ??

Сразу скажу, что есть контингент, не просто неспособный выбрать правильную ссылку в результатах поиска, а вводящий адреса сайтов не в адресной строке, а в строке поиска, например Яндекса.

338
16 октября 2004 года
chigevara
529 / / 29.09.2003
Цитата:
Originally posted by mike
Сразу скажу, что есть контингент, не просто неспособный выбрать правильную ссылку в результатах поиска, а вводящий адреса сайтов не в адресной строке, а в строке поиска, например Яндекса.


Есть, не спорю. К счастью не все. А по поводу выделить информацию - именно сетка это и сможет сделать, ибо заточена под выделение "идеала" среди шума. Начальное обучение будет дорогостоящей операцией, но по моему, других путей нет - достаточно взглянуть на результаты, которые выдают поисковики. Вот такое вот МОЁ мнение.

291
16 октября 2004 года
gufy
703 / / 08.01.2003
а что, есть информация, что какая-то из поисковых систем работает на нейросетях?
вообще, это интересно. я тут недавно почитал о нейросетях, это должно сильно помочь в деле поиска:)
338
16 октября 2004 года
chigevara
529 / / 29.09.2003
Цитата:
Originally posted by gufy
а что, есть информация, что какая-то из поисковых систем работает на нейросетях?
вообще, это интересно. я тут недавно почитал о нейросетях, это должно сильно помочь в деле поиска:)


Из попсовых насколько я знаю нет, а эксперименты ведут конечно. Помочь должно, вот доживем ли, когда оно начнет. :D
[offtop]там в привате. :D [/offtop]

Знаете кого-то, кто может ответить? Поделитесь с ним ссылкой.

Ваш ответ

Реклама на сайте | Обмен ссылками | Ссылки | Экспорт (RSS) | Контакты
Добавить статью | Добавить исходник | Добавить хостинг-провайдера | Добавить сайт в каталог