Посоветуйте алгоритм реферирования текста

0 спам

499

14 февраля 2007 года

madjahed

149 / / 14.01.2004

У-у-у.... Тебе минимум нейронные сети помогут правильно выделить эти слова, но эта штука не легкая...

Цитировать

0 спам

402

14 февраля 2007 года

ToRNaDo

70 / / 27.01.2004

э... э... э... А что нибудь по проще?

вот, сам нашёл... но только описание экспериментов
http://company.yandex.ru/grant/2005/11_Braslavski_102707.pdf

Цитировать

0 спам

239

23 февраля 2007 года

Dolonet

1.7K / / 20.05.2000

Цитата: ToRNaDo

Посоветуйте алгоритм извлечения нескольких основных предложений из текста, которые бы содержали смысл всего текста.

Или хотя бы направьте, куда пойти :-)

Ого запросики!

Что могу посоветовать, это вычленить наиболее повторяющиеся корни в достаточно длинных словах (причем не путать с суффиксами) от 5 символов, и построить БД с ассоциативно-синонимичными рядами. Яндекс и Гугл постоянно над этим карпеют. Ведь они понимают, к какой теме относится той или иной сайт.

Цитировать

0 спам

505

23 февраля 2007 года

vAC

343 / / 28.02.2006

Нуздесь без словаря сложно будет...В голову пришло пока одно решение, но не к каждому тексту применимо: можно сначала подсчитать статистику использования слов (их форм) (в процентах от их общего числа в тексте, например). Затем выделить те предложения, в которых сумма процентов по словам наибольшая. Т.е. это алгоритм, выделяющий предложение, в котором больше всего наиболее встречающихся слов. Например идет повествование о чем-либо, и в конце что-то вроде вывода, в нем-то и будет упоминание о большинстве распространенных слов в тексте. Конечно не всякий текст прокатит такой анализ...

Цитировать

0 спам

239

26 февраля 2007 года

Dolonet

1.7K / / 20.05.2000

Цитата: vAC

Нуздесь без словаря сложно будет...В голову пришло пока одно решение, но не к каждому тексту применимо: можно сначала подсчитать статистику использования слов (их форм) (в процентах от их общего числа в тексте, например). Затем выделить те предложения, в которых сумма процентов по словам наибольшая. Т.е. это алгоритм, выделяющий предложение, в котором больше всего наиболее встречающихся слов. Например идет повествование о чем-либо, и в конце что-то вроде вывода, в нем-то и будет упоминание о большинстве распространенных слов в тексте. Конечно не всякий текст прокатит такой анализ...

Хороший вариант. Я о нем и говорил. Надо также устанавливать, что в начале абзаца больший приоритет, чем в конце абзаца у предложения. Если популярное слово в начале предложения, то оно больше по приоритету. Фактически, подсчет "цены" отдельных слов, их форм и словосочетаний, а потом - расположений.
Интересная тема. Делись впечатлениями и результатами. Чем могу, помогу :)

Цитировать

0 спам

239

26 февраля 2007 года

Dolonet

1.7K / / 20.05.2000

Кстати, как ты собираешься различать слова? Какие алгоритмы и словари у тебя уже есть? Какая тебе требуется производительность?

Цитировать

Ваш аккаунт

Последние темы форума

Почтовая рассылка

Посоветуйте алгоритм реферирования текста

6 ответов