Html в древовидную структуру

385

03 ноября 2004 года

477 / / 25.07.2004

Уважаемые посетители форума может кто подскажет... Требуется реализовать парсинг хтмл файла в древовидную структуру, где каждый элемент дерева это таг с какими-то свойствами и пр. Проблема заключается в том что многие страницы написаны синтаксически не верно (не закрытые таги, или лишние закрывающие таги и пр.) что затрудняет определение области действия того или иного тага. Например в перле и жаваскрипте есть уже стандартные готовые функции которые парсят любые хтмл страницы в дерево (по-моему они так и называются HTML::TreeBuilder и HTML::Element) соответственно вопрос есть ли что-то подобное для билдера. Решения типа "поискать компонент на торри.нет" или "утилиткой типа tidy переконвертить html в xml а потом передать это xml парсеру" не катят. Нужно либо компонент парсер хтмл либо компонент с интерпретатором перла или жаваскрипта ну или если знаете как можно иначе решить проблему с удовольствием выслушаю! Спасибо.

Подписаться на вопросНеобходима регистрация

По порядку

Сначала полезные

Сначала решения

2 ответа

0 спам

385

03 ноября 2004 года

SomewherSomehow

477 / / 25.07.2004

Ура !! Я нашел решение проблемы, точнее мне его подсказали...Если кому-то интересно то с помощью стандартного компонента TCppWebBrowser можно получить доступ к ком- интерфэйсу експлорера и юзать его парсер! Все оказалось так просто!

Цитировать

0 спам

310

03 ноября 2004 года

fellow

853 / / 17.03.2003

Цитата:

Originally posted by SomewherSomehow
Ура !! Я нашел решение проблемы, точнее мне его подсказали...Если кому-то интересно то с помощью стандартного компонента TCppWebBrowser можно получить доступ к ком- интерфэйсу експлорера и юзать его парсер! Все оказалось так просто!

Отлично! Вот молодчина! И сам разобрался, и другим подсказал. Спасибо! Все бы так же поступали!

Цитировать

Ваш аккаунт

Последние темы форума

Почтовая рассылка

Html в древовидную структуру

2 ответа