Справочник функций

Ваш аккаунт

Войти через: 
Забыли пароль?
Регистрация
Информацию о новых материалах можно получать и без регистрации:

Почтовая рассылка

Подписчиков: -1
Последний выпуск: 19.06.2015

Посоветуйте алгоритм реферирования текста

402
14 февраля 2007 года
ToRNaDo
70 / / 27.01.2004
Посоветуйте алгоритм извлечения нескольких основных предложений из текста, которые бы содержали смысл всего текста.

Или хотя бы направьте, куда пойти :-)
499
14 февраля 2007 года
madjahed
149 / / 14.01.2004
У-у-у.... Тебе минимум нейронные сети помогут правильно выделить эти слова, но эта штука не легкая...
402
14 февраля 2007 года
ToRNaDo
70 / / 27.01.2004
э... э... э... А что нибудь по проще?

вот, сам нашёл... но только описание экспериментов
http://company.yandex.ru/grant/2005/11_Braslavski_102707.pdf
239
23 февраля 2007 года
Dolonet
1.7K / / 20.05.2000
Цитата: ToRNaDo
Посоветуйте алгоритм извлечения нескольких основных предложений из текста, которые бы содержали смысл всего текста.

Или хотя бы направьте, куда пойти :-)


Ого запросики!

Что могу посоветовать, это вычленить наиболее повторяющиеся корни в достаточно длинных словах (причем не путать с суффиксами) от 5 символов, и построить БД с ассоциативно-синонимичными рядами. Яндекс и Гугл постоянно над этим карпеют. Ведь они понимают, к какой теме относится той или иной сайт.

505
23 февраля 2007 года
vAC
343 / / 28.02.2006
Нуздесь без словаря сложно будет...В голову пришло пока одно решение, но не к каждому тексту применимо: можно сначала подсчитать статистику использования слов (их форм) (в процентах от их общего числа в тексте, например). Затем выделить те предложения, в которых сумма процентов по словам наибольшая. Т.е. это алгоритм, выделяющий предложение, в котором больше всего наиболее встречающихся слов. Например идет повествование о чем-либо, и в конце что-то вроде вывода, в нем-то и будет упоминание о большинстве распространенных слов в тексте. Конечно не всякий текст прокатит такой анализ...
239
26 февраля 2007 года
Dolonet
1.7K / / 20.05.2000
Цитата: vAC
Нуздесь без словаря сложно будет...В голову пришло пока одно решение, но не к каждому тексту применимо: можно сначала подсчитать статистику использования слов (их форм) (в процентах от их общего числа в тексте, например). Затем выделить те предложения, в которых сумма процентов по словам наибольшая. Т.е. это алгоритм, выделяющий предложение, в котором больше всего наиболее встречающихся слов. Например идет повествование о чем-либо, и в конце что-то вроде вывода, в нем-то и будет упоминание о большинстве распространенных слов в тексте. Конечно не всякий текст прокатит такой анализ...


Хороший вариант. Я о нем и говорил. Надо также устанавливать, что в начале абзаца больший приоритет, чем в конце абзаца у предложения. Если популярное слово в начале предложения, то оно больше по приоритету. Фактически, подсчет "цены" отдельных слов, их форм и словосочетаний, а потом - расположений.
Интересная тема. Делись впечатлениями и результатами. Чем могу, помогу :)

239
26 февраля 2007 года
Dolonet
1.7K / / 20.05.2000
Кстати, как ты собираешься различать слова? Какие алгоритмы и словари у тебя уже есть? Какая тебе требуется производительность?
Реклама на сайте | Обмен ссылками | Ссылки | Экспорт (RSS) | Контакты
Добавить статью | Добавить исходник | Добавить хостинг-провайдера | Добавить сайт в каталог