Методы программного определения тематики текста
В частности меня интересует как это делается и как это можно сделать.
Искал в гугле, нашел страничек всего ничего и лишь на одной описан метод с использованием словаря, в котором каждому термину присвоен определенный вес, и если в тексте перевешывают термины из определенной области, тексту и присваивается перевесившая тематика.
Думаю что конечно есть другие способы, в частности на той странице что-то сказано про методы машинного обучения, но как заставить нейронку заняться определением темы я не очень себе представляю.
Приветствуются сслыки на статьи :D
Да как бы в таких областях готового решения обычно не бывает! Можете попробовать методы непараметрической классификации, главное правильно выделить признаки. Идея со словарями довольно хороша, развивайте ее.
Цитата: Lei fang
Думаю что конечно есть другие способы, в частности на той странице что-то сказано про методы машинного обучения, но как заставить нейронку заняться определением темы я не очень себе представляю.
может там имеются ввиду нейронные сети? тогда вот ссылка на википедию, там внизу есть список литературы http://ru.wikipedia.org/wiki/%D0%98%D1%81%D0%BA%D1%83%D1%81%D1%81%D1%82%D0%B2%D0%B5%D0%BD%D0%BD%D0%B0%D1%8F_%D0%BD%D0%B5%D0%B9%D1%80%D0%BE%D0%BD%D0%BD%D0%B0%D1%8F_%D1%81%D0%B5%D1%82%D1%8C
вот ещё что то по этим сетям(тут про распознавание графического образа написано): http://alife.narod.ru/lectures/neural/Neu_ch08.htm
может быть поможет... а может и нет:)
To Artem_3A, да идея хороша, но как-то требует большого словаря и как-то прямолинейно. Хотелось бы что-нибудь похитрее
Цитата: Lei fang
Что подавать на вход сети?
да вот в том то и дело, что термины, других отличительных признаков нет... еще можно конечно анализировать стиль, но это не однозначно...
http://krondix.blogspot.com/search/label/text%20mining%20explained - Хороший блог на эту тему.
http://en.wikipedia.org/wiki/Text_mining
http://krondix.blogspot.com/search/label/books.
Сама задача классификации / кластеризации документов распадается на две:
- техническая задача его преобразования в некоторую матричную/векторную / любую другу модель
- И математическая задача его классификации, например, на основе вероятностных классификаторов Байеса, метода опорных векторов или какой угодно другой метод.