PDFBox. Парсинг PDF-файла

31K

07 марта 2008 года

5 / / 21.11.2007

Собственно, нашел указанную библиотеку... Вытянуть весь текст из pdf-файла можно вот так:

Код:

FileInputStream fileInputStream=new FileInputStream("1.pdf");

            PDFParser parser = new PDFParser(fileInputStream);

            parser.parse();

            COSDocument cosDocument=parser.getDocument();

            PDDocument pdfDocument=new PDDocument(cosDocument);

            PDFTextStripper stripper = new PDFTextStripper();

            String contents = stripper.getText(pdfDocument);

Вытянуть все картинки можно вот так:

Свернуть исходник

Код:

try{

              List pages = pdfDocument.getDocumentCatalog().getAllPages();

                 Iterator iter = pages.iterator();

                 while( iter.hasNext() )

                 {

                     PDPage page = (PDPage)iter.next();

                     PDResources resources = page.getResources();

                     Map images = resources.getImages();

                     if( images != null )

                     {

                         Iterator imageIter = images.keySet().iterator();

                        while( imageIter.hasNext() )

                         {

                             String key = (String)imageIter.next();

                             PDXObjectImage image = (PDXObjectImage)images.get( key );

                             String name = getUniqueFileName( key, image.getSuffix() );

                             System.out.println( "Writing image:" + name );

                             image.write2file( name );

                         }

                     }

                 }

             }

             finally

            {

                if( pdfDocument != null )

                 {

                     pdfDocument.close();

                 }

            }

Может, кто знает, как парсировать pdf-документ по порядку - то есть идем с начала документы к концу, находим элемент, определяем, что это за элемент - и в зависимости от этого парсируем в текст или изображение...
Буду очень благодарен!

Подписаться на вопросНеобходима регистрация

Ваш аккаунт

Последние темы форума

Почтовая рассылка

PDFBox. Парсинг PDF-файла