Справочник функций

Ваш аккаунт

Войти через: 
Забыли пароль?
Регистрация
Информацию о новых материалах можно получать и без регистрации:

Почтовая рассылка

Подписчиков: -1
Последний выпуск: 19.06.2015

Как узнать, что страница с JS (AJAX)?

5.7K
25 октября 2011 года
Lindemann66
193 / / 21.07.2011
Всем привет!

У меня следующий нетривиальный вопрос:

Задача - загрузить из интернета код страницы и осуществить его парсинг, как-то:
  • Получить содержимое всех ссылок <a>
  • Получить содержимое контентных тэгов, таких как <p>, <table> и т.д.
  • и т.д. и т.п.

Какие средства можно использовать для решения данной проблемы?
  • Средства, предоставляемые QtWebKit
  • Другие средства (допустим, htmlcxx)

Всё бы хорошо, но у QtWebKit есть один большой минус - он производит рендер страницы - для того, чтобы, если сайт типа facebook.com (имеющий исключительно JS-код) - на выходе давать "человеческий" html
На эту операцию по рендеру и получению JS -> html тратится достаточно много ресурсов - по сравнению с другими средствами, которые осуществляют парсинг страницы исключительно в виде "как есть" - т.е. пришёл html код - всё ок, пришёл js код (с twitter'а, например) - ну чтож, значит, пропарсить и получить ссылки не удастся

Так вот, выходит, что использование QtWebKit обосновано только в том случае, если на сайте преобладает JS-код, AJAX-вставки и т.п.

Отсюда вопрос - есть ли какие-то адекватные способы осуществления проверки того, что на старнице присутствует динамический JS-код для показа контента?
Знает ли кто-то такие способы?

Буду очень признателен за любой ответ!
316
25 октября 2011 года
Alm3n
889 / / 29.05.2009
QNetworkAccessManager , не?
5.7K
25 октября 2011 года
Lindemann66
193 / / 21.07.2011
И как с его помощью это можно узнать?
Вообще, мы само собой его используем
Но "нормального" способа, а не хака, для определения наличия динамического конента нами там найдено не было
14
25 октября 2011 года
Phodopus
3.3K / / 19.06.2008
"Динамический контент" определяется наличием такого тега как SCRIPT. И смотря где ты хочешь определить его наличие.
5.7K
25 октября 2011 года
Lindemann66
193 / / 21.07.2011
script то понятно. но скриптом может подгружаться какой-то безобидный js-скрипт, который на контент страницы никак не влияет
316
25 октября 2011 года
Alm3n
889 / / 29.05.2009
Собственно, и предлагал получать страницу через NetworkAccess а в ней искать <script>.
Реклама на сайте | Обмен ссылками | Ссылки | Экспорт (RSS) | Контакты
Добавить статью | Добавить исходник | Добавить хостинг-провайдера | Добавить сайт в каталог