Справочник функций

Ваш аккаунт

Войти через: 
Забыли пароль?
Регистрация
Информацию о новых материалах можно получать и без регистрации:

Почтовая рассылка

Подписчиков: -1
Последний выпуск: 19.06.2015

Загрузка и парсинг веб-страницы

7
16 февраля 2014 года
@pixo $oft
3.4K / / 20.09.2006
Стоит задача периодически обновлять данные с одной страницы и парсить их. Парсинг думаю сделать посредством MSXML, ибо уже работал с ним, но если есть вариант получше, возможно, возьму в работу его. А как лучше скачивать само содержимое страницы?
Вижу пока 3 варианта: WinHTTP, WinINet и просто сокеты. Какой из них лучше выбрать?
260
17 февраля 2014 года
Ramon
1.1K / / 16.08.2003
Нэ?
1.8K
16 февраля 2014 года
Kuzya
184 / / 19.03.2008
WinHTTP
7
16 февраля 2014 года
@pixo $oft
3.4K / / 20.09.2006
С чего начать тогда? Ибо весь тот объём, который в MSDN, мне не нужен, понятное дело — требуется только скачать страницу по заданному адресу.
20K
17 февраля 2014 года
ellor!
198 / / 24.05.2012
Введение в WinInet и следующие статьи.
7
17 февраля 2014 года
@pixo $oft
3.4K / / 20.09.2006
О, спасибо. Можно тогда с загрузкой страницы вообще не заморачиваться, раз XML позволяет.

Единственный вопрос — это насколько беспроблемно загрузится страница таким образом (она же HTML, а не XML-файл) и как потом обрабатывать HTML через XML.
8
17 февраля 2014 года
mfender
3.5K / / 15.06.2005
А как быть, если в документе что-то подгружается ajax'ом?
7
17 февраля 2014 года
@pixo $oft
3.4K / / 20.09.2006
Никак, потому что меня это не волнует :) Только статическая часть страницы интересует, а если будет динамика, то хрен с ней.
8
17 февраля 2014 года
mfender
3.5K / / 15.06.2005
Ошибки будут сыпаться как из пистолета. MSXML очень трепетно относится к корректности синтаксиса, и то что в HTML незакрытый блок, например, прокатывает, то в XML это может оказаться критическим.
7
17 февраля 2014 года
@pixo $oft
3.4K / / 20.09.2006
Когда-то давно увидел там это. Не вчитывался, но думаю, что мне пригодится.
Более того, сайт плохим кодом не страдает :)

Единственное, что пугает в методе load — так это "When a document is loaded using this method, URLs will be resolved relative to the directory from which the program executed". Хотя, возможно, это относилось к неполным названиям файлов. Самое главное, чтоб парсер веб-страницу посчитал XML-документом ☺
Реклама на сайте | Обмен ссылками | Ссылки | Экспорт (RSS) | Контакты
Добавить статью | Добавить исходник | Добавить хостинг-провайдера | Добавить сайт в каталог