Посоветуйте алгоритм реферирования текста
Или хотя бы направьте, куда пойти :-)
У-у-у.... Тебе минимум нейронные сети помогут правильно выделить эти слова, но эта штука не легкая...
вот, сам нашёл... но только описание экспериментов
http://company.yandex.ru/grant/2005/11_Braslavski_102707.pdf
Цитата: ToRNaDo
Посоветуйте алгоритм извлечения нескольких основных предложений из текста, которые бы содержали смысл всего текста.
Или хотя бы направьте, куда пойти :-)
Или хотя бы направьте, куда пойти :-)
Ого запросики!
Что могу посоветовать, это вычленить наиболее повторяющиеся корни в достаточно длинных словах (причем не путать с суффиксами) от 5 символов, и построить БД с ассоциативно-синонимичными рядами. Яндекс и Гугл постоянно над этим карпеют. Ведь они понимают, к какой теме относится той или иной сайт.
Нуздесь без словаря сложно будет...В голову пришло пока одно решение, но не к каждому тексту применимо: можно сначала подсчитать статистику использования слов (их форм) (в процентах от их общего числа в тексте, например). Затем выделить те предложения, в которых сумма процентов по словам наибольшая. Т.е. это алгоритм, выделяющий предложение, в котором больше всего наиболее встречающихся слов. Например идет повествование о чем-либо, и в конце что-то вроде вывода, в нем-то и будет упоминание о большинстве распространенных слов в тексте. Конечно не всякий текст прокатит такой анализ...
Цитата: vAC
Нуздесь без словаря сложно будет...В голову пришло пока одно решение, но не к каждому тексту применимо: можно сначала подсчитать статистику использования слов (их форм) (в процентах от их общего числа в тексте, например). Затем выделить те предложения, в которых сумма процентов по словам наибольшая. Т.е. это алгоритм, выделяющий предложение, в котором больше всего наиболее встречающихся слов. Например идет повествование о чем-либо, и в конце что-то вроде вывода, в нем-то и будет упоминание о большинстве распространенных слов в тексте. Конечно не всякий текст прокатит такой анализ...
Хороший вариант. Я о нем и говорил. Надо также устанавливать, что в начале абзаца больший приоритет, чем в конце абзаца у предложения. Если популярное слово в начале предложения, то оно больше по приоритету. Фактически, подсчет "цены" отдельных слов, их форм и словосочетаний, а потом - расположений.
Интересная тема. Делись впечатлениями и результатами. Чем могу, помогу :)
Кстати, как ты собираешься различать слова? Какие алгоритмы и словари у тебя уже есть? Какая тебе требуется производительность?