Справочник функций

Ваш аккаунт

Войти через: 
Забыли пароль?
Регистрация
Информацию о новых материалах можно получать и без регистрации:

Почтовая рассылка

Подписчиков: -1
Последний выпуск: 19.06.2015

PDF parser library

32K
21 августа 2008 года
JihN
13 / / 11.05.2008
Доброго времени суток.
Поскажите, пожалуйста (поделитесь опытом) библиотеку для парсинга PDF.
От библиотеки требуется извлекать из пдфки текст (его фонт, цвет, размер) в порядке, в котором он идёт в пдфке(!!). Помимо этого, текст должен извлекаться не странично, а по абзацам (например, идёт title, затем 5 абзацев, должно получиться 6 кусков текста), желательно, чтобы извлекалась инфа о пдфке (автора, чем создана и тп).
Проект пишется на С++ в MS VisualStudio 2005.
На данный момент используется стандартный COM'овский парсер документов(для индексирования) - IFIlter. Он, как раз, выдирает куски постранично и совсем не сохраняет инфу о фонтах.
Из того, что нагуглил, подходит Xpdf, однако, я не нашёл библиотку под win, только сэмплы, да парсит он иногда не совсем корректно.
спасибо за помощь..
40K
23 августа 2008 года
Walain
17 / / 23.08.2008
По моему в среде GSTools было что-то подобное.
Реклама на сайте | Обмен ссылками | Ссылки | Экспорт (RSS) | Контакты
Добавить статью | Добавить исходник | Добавить хостинг-провайдера | Добавить сайт в каталог