Справочник функций

Ваш аккаунт

Войти через: 
Забыли пароль?
Регистрация
Информацию о новых материалах можно получать и без регистрации:

Почтовая рассылка

Подписчиков: -1
Последний выпуск: 19.06.2015

Нужно убрать из текста все не информативные слова

312
22 марта 2013 года
dead_star
392 / / 26.11.2006
есть массив слов составленных из текста
нужно удалить из него все не информативные слова такие как:
а, но, я, мы, твой, о, и, через и тд

аналогично и для английского:
the, at, above, into, we, hers и тд

может кому попадался список таких слов
312
22 марта 2013 года
dead_star
392 / / 26.11.2006
по идее есть два пути решения
  • удаление всех не информативных слов
  • поиск всех информативных и сохранение их
второй мне кажется не совсем разумным так как нужно ориентироваться на список всех существующих слов(Орфографический словарь) и в общем это получается жесть
более разумно ориентироваться на не информативные слова
  • местоимения
  • предлоги
  • числительные
их по крайней мере реально перечислить
20K
22 марта 2013 года
ellor!
198 / / 24.05.2012
Когда-то делал подобное, когда писал программу для дискурсного анализа. Для отсева использовал словари служебных слов (числительные, местоимения).
Реклама на сайте | Обмен ссылками | Ссылки | Экспорт (RSS) | Контакты
Добавить статью | Добавить исходник | Добавить хостинг-провайдера | Добавить сайт в каталог