Справочник функций

Ваш аккаунт

Войти через: 
Забыли пароль?
Регистрация
Информацию о новых материалах можно получать и без регистрации:

Почтовая рассылка

Подписчиков: -1
Последний выпуск: 19.06.2015

Методы программного определения тематики текста

408
21 мая 2010 года
Lei fang
265 / / 01.10.2005
Здравствуйте, если кто-нибудь встречал такую проблему, не могли бы вы поделиться литературой / статьями или знаниями по этой части?
В частности меня интересует как это делается и как это можно сделать.
Искал в гугле, нашел страничек всего ничего и лишь на одной описан метод с использованием словаря, в котором каждому термину присвоен определенный вес, и если в тексте перевешывают термины из определенной области, тексту и присваивается перевесившая тематика.
Думаю что конечно есть другие способы, в частности на той странице что-то сказано про методы машинного обучения, но как заставить нейронку заняться определением темы я не очень себе представляю.

Приветствуются сслыки на статьи :D
307
21 мая 2010 года
Artem_3A
863 / / 11.04.2008
Да как бы в таких областях готового решения обычно не бывает! Можете попробовать методы непараметрической классификации, главное правильно выделить признаки. Идея со словарями довольно хороша, развивайте ее.
2.1K
21 мая 2010 года
Norgat
452 / / 12.08.2009
Цитата: Lei fang

Думаю что конечно есть другие способы, в частности на той странице что-то сказано про методы машинного обучения, но как заставить нейронку заняться определением темы я не очень себе представляю.



может там имеются ввиду нейронные сети? тогда вот ссылка на википедию, там внизу есть список литературы http://ru.wikipedia.org/wiki/%D0%98%D1%81%D0%BA%D1%83%D1%81%D1%81%D1%82%D0%B2%D0%B5%D0%BD%D0%BD%D0%B0%D1%8F_%D0%BD%D0%B5%D0%B9%D1%80%D0%BE%D0%BD%D0%BD%D0%B0%D1%8F_%D1%81%D0%B5%D1%82%D1%8C

вот ещё что то по этим сетям(тут про распознавание графического образа написано): http://alife.narod.ru/lectures/neural/Neu_ch08.htm


может быть поможет... а может и нет:)

408
21 мая 2010 года
Lei fang
265 / / 01.10.2005
Стопудово про нейронку, и мне ясно как распознавать образы. Не ясно как определять тематику текста. Что подавать на вход сети? что будет на выходе? вообще какой должна быть структура сети?

To Artem_3A, да идея хороша, но как-то требует большого словаря и как-то прямолинейно. Хотелось бы что-нибудь похитрее
307
22 мая 2010 года
Artem_3A
863 / / 11.04.2008
Цитата: Lei fang
Что подавать на вход сети?



да вот в том то и дело, что термины, других отличительных признаков нет... еще можно конечно анализировать стиль, но это не однозначно...

63
22 мая 2010 года
Zorkus
2.6K / / 04.11.2006
Гуглите по словам - Text Mining. Достаточно новая область, выкристализовавшаяся из Data Mining-a. Я по ней диплом писал...

http://krondix.blogspot.com/search/label/text%20mining%20explained - Хороший блог на эту тему.

http://en.wikipedia.org/wiki/Text_mining
http://krondix.blogspot.com/search/label/books.

Сама задача классификации / кластеризации документов распадается на две:
- техническая задача его преобразования в некоторую матричную/векторную / любую другу модель
- И математическая задача его классификации, например, на основе вероятностных классификаторов Байеса, метода опорных векторов или какой угодно другой метод.
Реклама на сайте | Обмен ссылками | Ссылки | Экспорт (RSS) | Контакты
Добавить статью | Добавить исходник | Добавить хостинг-провайдера | Добавить сайт в каталог