Загрузка и парсинг веб-страницы
Вижу пока 3 варианта: WinHTTP, WinINet и просто сокеты. Какой из них лучше выбрать?
WinHTTP
С чего начать тогда? Ибо весь тот объём, который в MSDN, мне не нужен, понятное дело — требуется только скачать страницу по заданному адресу.
Введение в WinInet и следующие статьи.
Единственный вопрос — это насколько беспроблемно загрузится страница таким образом (она же HTML, а не XML-файл) и как потом обрабатывать HTML через XML.
А как быть, если в документе что-то подгружается ajax'ом?
Никак, потому что меня это не волнует :) Только статическая часть страницы интересует, а если будет динамика, то хрен с ней.
Ошибки будут сыпаться как из пистолета. MSXML очень трепетно относится к корректности синтаксиса, и то что в HTML незакрытый блок, например, прокатывает, то в XML это может оказаться критическим.
это. Не вчитывался, но думаю, что мне пригодится.
Более того, сайт плохим кодом не страдает :)
Единственное, что пугает в методе load — так это "When a document is loaded using this method, URLs will be resolved relative to the directory from which the program executed". Хотя, возможно, это относилось к неполным названиям файлов. Самое главное, чтоб парсер веб-страницу посчитал XML-документом ☺
Когда-то давно увидел там
Более того, сайт плохим кодом не страдает :)
Единственное, что пугает в методе load — так это "When a document is loaded using this method, URLs will be resolved relative to the directory from which the program executed". Хотя, возможно, это относилось к неполным названиям файлов. Самое главное, чтоб парсер веб-страницу посчитал XML-документом ☺