Грабилка содержимого страницы
Есть страница на сайте, там есть данные в формате HTML. Мне нужно их оттуда сграбить. Как я понимаю, нужно писать парсер? По определенному имени начинать грабить странцу, так?
Да нет. Все очень просто. Грузишь эту страницу в эксплорер, жмешь View->Source, смотришь, действительно ли эта страница содержит HTML-тэги, если да, то закрываешь Notepad, жмешь в эксплорере File->Save As->Save. Все! Страница сграблена! Вместе с картинками.
Сначала получает содержимое страницы, например с помощью функций fsockopen() или file(). А потом разбираешь регулярными выражениями или строковыми функциями:
strpos,substr,explode,implode,ereg и т.п.
Так и есть.
Сначала получает содержимое страницы, например с помощью функций fsockopen() или file(). А потом разбираешь регулярными выражениями или строковыми функциями:
strpos,substr,explode,implode,ereg и т.п.
А вообще, как красивее: строковыми функциями или регулярными выражениями? Регулярные выражения менее читабельны, но выглядят как-то профессиональнее... Извините за офф-топик.
Регулярными выражениями проще, но работают они медленее. В критических местах их лучше не использовать.
А вот как лучше организовать поиск, к примеру, 50-и каких-либо подстрок в символьной строке на perl'е?
Регулярными выражениями проще, но работают они медленее. В критических местах их лучше не использовать.
Все понятно. Спасибо. Мне грабилка была нужна для того, чтобы кждый день не заходить на сайт и не делать save as...
Все понятно. Спасибо. Мне грабилка была нужна для того, чтобы кждый день не заходить на сайт и не делать save as...
Ды-к причем тут парсер?
use LWP 5.64;
open(FILE, ">./FILE.HTM");
my $USAG = LWP::UserAgent->new;
my $CONT = $USAG->get(Тут URL'а);
print FILE $CONT->content;
close(FILE);
Ды-к причем тут парсер?
use LWP 5.64;
open(FILE, ">./FILE.HTM");
my $USAG = LWP::UserAgent->new;
my $CONT = $USAG->get(Тут URL'а);
print FILE $CONT->content;
close(FILE);
Но, таким образом нельзя будет подстроить страницу, которую я граблю под дизайн моего сайта. Вот по этому и нужен парсер.