Html в древовидную структуру
Уважаемые посетители форума может кто подскажет... Требуется реализовать парсинг хтмл файла в древовидную структуру, где каждый элемент дерева это таг с какими-то свойствами и пр. Проблема заключается в том что многие страницы написаны синтаксически не верно (не закрытые таги, или лишние закрывающие таги и пр.) что затрудняет определение области действия того или иного тага. Например в перле и жаваскрипте есть уже стандартные готовые функции которые парсят любые хтмл страницы в дерево (по-моему они так и называются HTML::TreeBuilder и HTML::Element) соответственно вопрос есть ли что-то подобное для билдера. Решения типа "поискать компонент на торри.нет" или "утилиткой типа tidy переконвертить html в xml а потом передать это xml парсеру" не катят. Нужно либо компонент парсер хтмл либо компонент с интерпретатором перла или жаваскрипта ну или если знаете как можно иначе решить проблему с удовольствием выслушаю! Спасибо.
Ура !! Я нашел решение проблемы, точнее мне его подсказали...Если кому-то интересно то с помощью стандартного компонента TCppWebBrowser можно получить доступ к ком- интерфэйсу експлорера и юзать его парсер! Все оказалось так просто!
Цитата:
Originally posted by SomewherSomehow
Ура !! Я нашел решение проблемы, точнее мне его подсказали...Если кому-то интересно то с помощью стандартного компонента TCppWebBrowser можно получить доступ к ком- интерфэйсу експлорера и юзать его парсер! Все оказалось так просто!
Ура !! Я нашел решение проблемы, точнее мне его подсказали...Если кому-то интересно то с помощью стандартного компонента TCppWebBrowser можно получить доступ к ком- интерфэйсу експлорера и юзать его парсер! Все оказалось так просто!
Отлично! Вот молодчина! И сам разобрался, и другим подсказал. Спасибо! Все бы так же поступали!