class PdfController extends CController
{

    public $layout='main';

    public $defaultAction='index';   

    private $pdfInfoPath = '/usr/bin/pdfinfo'; // полный путь к pdfinfo

    private $pdfToTextPath = '/usr/bin/pdftotext'; // полный путь к pdftotext

    private $name = '/test3.pdf';

    private $title = '';

    private $keywords = '';

    private $description = '';

    private $short_description = '';

    private $text = '';

    public function actionIndex()

    {

        $file_path = dirname(dirname(dirname(__FILE__))).'/download/'.$this->name;

        $pdfInfo = array();

        $strInfo = array();     

        $str = shell_exec(escapeshellcmd($this->pdfInfoPath . ' ' . $file_path));  

        $strInfo = explode("\n", $str);    

        foreach($strInfo as $string)

        {

            $pdfInfo[]= explode(":", $string);

        }

        foreach($pdfInfo as $array)

        {

           switch ($array[0])

            {

             case 'Title':

                 $this->title = $array[1];

                 break;

             case 'Keywords':

                 $this->keywords = $array[1];

                 break;

             case 'Description':

                 $this->description = $array[1];

                 break;

            }

        }

        shell_exec(escapeshellcmd($this->pdfToTextPath . ' ' . $file_path));       

        $file_path_txt = dirname(dirname(dirname(__FILE__))).'/download/test3.txt';

        $this->text = file_get_contents($file_path_txt);

    }
}

Цитировать

-9 спам

30 декабря 2011 года

hardcase

4.5K / / 09.08.2005

Насколько мне известно есть лишь единственный адекватный способ разбора PDF - это оптическое распознавание (сделать можно например FineReader-ом либо RS-ом).

Цитировать

0 спам

277

30 декабря 2011 года

arrjj

1.7K / / 26.01.2011

Цитата: hardcase

Это если в пдф-е сканы, а если в пдф-е текст, то думаю каким нибудь просмотрщиком можно вытянуть, например pdftotext :D

Цитировать

0 спам

30 декабря 2011 года

hardcase

4.5K / / 09.08.2005

Цитата: arrjj

Совсем не обязательно сканы. Все "вытаскивалки" текста очень сильно мусорят и могут доставать текст непоследовательно. Я участвовал в разработке поисковика, который индексировал в том числе и PDF-ки. Пока не прикрутили RS - результаты извлечения текста были сильно посредственными.

Цитировать

2 спам

31 декабря 2011 года

@pixo $oft

3.4K / / 20.09.2006

Интересное дело—значит,всякие Foxit reader'ы вытаскивают текст нормально,а остальные программы не способны?:) Что-то странное

Цитировать

-1 спам

297

02 января 2012 года

koodeer

1.2K / / 02.05.2009

Как я понимаю, всякие pdf-reader'ы просто рендерят документ в соответствии с его внутренней структурой и определёнными правилами. А "вытаскивалки" вынуждены будут копаться и в этой структуре, и в разметке для содержания, заметок, и всём прочем. В том числе javascript'ы в документе могут мешаться.
Это как разбор html. Браузер нормально показывает документ, а вытащить из него нужный текст программно - бывает проблематично.

В общем, реквестирую статью хардкейса на эту тему. Если это не коммерческая тайна. Потому что любопытная тема.

Цитировать

0 спам

277

03 января 2012 года

arrjj

1.7K / / 26.01.2011

Просто в pdf-ке может быть текст перемешан. Например в несколько столбцов текст идет - ocr'ы понимают "столбик" и правильно его распознают, а более простая утилита может не понять это и делать строку из кусочков нескольких столбиков. Чем проще структура пдф'а будет тем правильней его расчленят дешевые утилитки :)

Цитировать

Ваш аккаунт

Последние темы форума

Почтовая рассылка

Парсинг PDF средствами PHP

8 ответов