неструктурированный файл
Прошу сильно не судить, я только начинаю просвещаться в этом языке программирования.
Спасибо заранее всем тем, кто чем-то сможет помочь.
Хотя, можно подумать и написать просто автозакрыватель тегов (или удаление лишних), но тогда получится просто каша, которая визаульно просто убъет выводимое содержимое. Так что остается либо придумывать какой-то ИИ, либо не париться.
Какого рода данные содержатся в файле?
и пример файла
Файл *.doc, в самом файле храниться текст, записанный всё в одну строчку и есть нумерация страниц. необходимо из всего этого сборища сделать нормальный текст.
Ну дык, делайте=) Вперед использовать COM-объекты для работы с Word-форматом. В PHP есть такие функции, надо поискать. А далее, как получите текст, делайте с ним, что хотите.
Спасибо, идею понял, осталась единственная проблема - каким образом можно текст привести к упорядоченному(литературному) виду.
Т.е. вам нужно разделить страницы или абзацы. Если первое- делайте автомат, чтоб как увидит число похожее на номер страницы, вставлял перенос страницы, а если второе - без ИИ никак.
Мгм, понял, спасибо. сейчас буду всё это реализовывать:)
Есть такая волшебная и необычная штука - называется поиск.
Огромное спасибо)) Вы мне очень помогли. Даже что-то получается!
простите за нескромный вопрос, а подскажите плз как в php обозначается перенос страницы?
Понятие "перенос страницы" - это всего лишь какая-то заранее обговоренная последовательность байтов, которая указывает просмотрщику документа (в данном случае Microsoft Word) на то, что сейчас идет перенос на новую страницу.
примного благодарен