PDF parser library
Поскажите, пожалуйста (поделитесь опытом) библиотеку для парсинга PDF.
От библиотеки требуется извлекать из пдфки текст (его фонт, цвет, размер) в порядке, в котором он идёт в пдфке(!!). Помимо этого, текст должен извлекаться не странично, а по абзацам (например, идёт title, затем 5 абзацев, должно получиться 6 кусков текста), желательно, чтобы извлекалась инфа о пдфке (автора, чем создана и тп).
Проект пишется на С++ в MS VisualStudio 2005.
На данный момент используется стандартный COM'овский парсер документов(для индексирования) - IFIlter. Он, как раз, выдирает куски постранично и совсем не сохраняет инфу о фонтах.
Из того, что нагуглил, подходит Xpdf, однако, я не нашёл библиотку под win, только сэмплы, да парсит он иногда не совсем корректно.
спасибо за помощь..
По моему в среде GSTools было что-то подобное.