Справочник функций

Ваш аккаунт

Войти через: 
Забыли пароль?
Регистрация
Информацию о новых материалах можно получать и без регистрации:

Почтовая рассылка

Подписчиков: -1
Последний выпуск: 19.06.2015

PDFBox. Парсинг PDF-файла

31K
07 марта 2008 года
Большой Синий Кит
5 / / 21.11.2007
Собственно, нашел указанную библиотеку... Вытянуть весь текст из pdf-файла можно вот так:
 
Код:
FileInputStream fileInputStream=new FileInputStream("1.pdf");
            PDFParser parser = new PDFParser(fileInputStream);
            parser.parse();
            COSDocument cosDocument=parser.getDocument();
            PDDocument pdfDocument=new PDDocument(cosDocument);
            PDFTextStripper stripper = new PDFTextStripper();
            String contents = stripper.getText(pdfDocument);

Вытянуть все картинки можно вот так:
Код:
try{
              List pages = pdfDocument.getDocumentCatalog().getAllPages();
                 Iterator iter = pages.iterator();
                 while( iter.hasNext() )
                 {
                     PDPage page = (PDPage)iter.next();
                     PDResources resources = page.getResources();
                     Map images = resources.getImages();
                     
                     if( images != null )
                     {
                         Iterator imageIter = images.keySet().iterator();
                        while( imageIter.hasNext() )
                         {
                             String key = (String)imageIter.next();
                             PDXObjectImage image = (PDXObjectImage)images.get( key );
                             String name = getUniqueFileName( key, image.getSuffix() );
                             System.out.println( "Writing image:" + name );
                             image.write2file( name );
                         }
                     }

                     

                 }
             }
             finally
            {
                if( pdfDocument != null )
                 {
                     pdfDocument.close();
                 }
            }

Может, кто знает, как парсировать pdf-документ по порядку - то есть идем с начала документы к концу, находим элемент, определяем, что это за элемент - и в зависимости от этого парсируем в текст или изображение...
Буду очень благодарен!
Реклама на сайте | Обмен ссылками | Ссылки | Экспорт (RSS) | Контакты
Добавить статью | Добавить исходник | Добавить хостинг-провайдера | Добавить сайт в каталог