PDF_viewer
Появилась необходимость парсить pdf файл на С++ builder xe3, нарыл инфу по компоненту PDF_viewer, но сами файлы найти не могу. Может кто сталкивался с такой же необходимостью работы с pdf файлами, возможно есть другой вариант.
Заранее спасибо за помощь.
Но как вытянуть текст из загруженного в компонент файла?????
Тем не менее можно попытаться угадать нужный метод для извлечения текста. Посмотрите, нет ли в списке свойств появившегося компонента (это просто билдеровская обертка над ком-технологией с ее интерфейсами и типами данных; названия функций обычно сохраняются) чего-то типа getText(). Короче, метод тыка.
Либо искать аналоги с документацией. Было бы идеально. Надо только, чтобы извлечение текста в них поддерживалось.
Более сложно - ручной парсинг (вот пример на php). Трудоемко и требуется знание спецификации на pdf формат, плюс отслеживание нововведений в ней. Думаю, не стоит связываться.
Еще вариант - сторонние библиотеки, типа бесплатной, использованной в Sumatra PDF (muPDF) или SDK, подобных платному Foxit. В этих упомянутых с текстом должен быть порядок.
Можно полазить по сайтам бесплатных читалок pdf и посмотреть, не предлагают ли они что для разработчиков. У SumatraPDF, например, надеялся увидеть тулы, SDK или ActiveX, но не обнаружил, к сожалению. Но, много есть и других. Может, что есть на очень крупном сайте свободного ПО sourceforge.net