Справочник функций

Ваш аккаунт

Войти через: 
Забыли пароль?
Регистрация
Информацию о новых материалах можно получать и без регистрации:

Почтовая рассылка

Подписчиков: -1
Последний выпуск: 19.06.2015

Вопрос о кластеризации документов с помощью карт кохонена

408
16 апреля 2011 года
Lei fang
265 / / 01.10.2005
Здравствуйте, передо мной стоит задача кластеризации документов с помощью карт кохонена.
мне бы хотелось узнать, каким образом вектора документов подаются на вход нейронной сети, ведь количество термов (слов) в документах разное, а количество входных нейронов в сети неизменное.
допустим количество входных нейронов у меня 500 штук
есть 100 документов.
я их них выбрасываю стоп слова, цифры, пунктуацию, преобразую к корневой форме.
далее вычисляю веса каждого терма по методу tf*idf, затем нормализую эти веса чтобы они были больше 0, но меньше 1.
о собственно я получаю к примеру такие вещи:
1 док: 0.2 0.4 0.7 0.1 0.4
2 док: 0.7 0.9 0.2
3 док: 0.1 0.4 0.3 0.9 0.5 0.7
...
100 док: 0.5 ... ну и придумайте еще мысленно чисел 499

как мне подавать эти веса на вход нейронной сети? может я упустил какой-то шаг?
всмысле не могу же я подать вектор из 40 признаков на 500 нейронов входного слоя. что подавать на оставшиеся 460 нейронов? не нули же? хрень получится какая-то, если все эти нули будут менять связи между нейронами

или кластеризация с помощью карт кохонена вообще не так делается?
61K
28 апреля 2011 года
termoyad_121
3 / / 11.06.2010
А не могли бы вы более детально описать задачу? Саму задачу, а не метод решения.

А то не совсем понятно, на кой хрен нужно 500 рецепторов во входном слое.
408
03 мая 2011 года
Lei fang
265 / / 01.10.2005
спасибо, хоть и не за скорый, ответ, но я уже продвинулся далеко вперед, успел застрять на построении U-матрицы и разобраться с этим. плыву на полных парусах дальше :D
делается это совсем не так.
нужно было составить словарь уникальных слов во всех документах, и это было бы количеством входных нейронов сети.
каждый документ надо представить в виде вектора, с размерность аналогичной количеству уникальных слов, где элемент равен 0, если данное слово не встречается в документе, и чему-то иному вычисленному по методу tf*idf, в случае если это слово встречается.
подаем этот вектор на вход сети и понеслись аццкие вычисления... 10 дней по подсчетам на обучение должно уйти %)
61K
07 мая 2011 года
termoyad_121
3 / / 11.06.2010
ну вот теперь все понятно)

а не могли бы вы отписываться в теме по ходу вашей работы? интересны результаты и как решали.
408
10 мая 2011 года
Lei fang
265 / / 01.10.2005
постараюсь отписаться одним постом, когда все закончу :P так то все это дело уже успещно разбивает документы на кластеры, надо только редукцию пространства признаков прикрутить. хочу латентно семантический анализ для этого использовать
Реклама на сайте | Обмен ссылками | Ссылки | Экспорт (RSS) | Контакты
Добавить статью | Добавить исходник | Добавить хостинг-провайдера | Добавить сайт в каталог