Парсинг сайтов (просьба ответить)
- выдачи поисковых систем
- парсингом баз данных на других сайтах
в основном использую команду: file_get_contents
Проблемы:
банят ip
Вопрос:
1.как можно решить эту проблему?
2. Как пользоваться анонимными прокси-серверами (ip)?
2.1. if(Вопрос2=='TRUE') Если все пользуются, то ни банят ли их периодически?
3. Верно ли мое предположение?
4. Каким образом можно задержать выполнение скрипта, если парсить все-таки с 1-го ip и насколько микросекунд ставить задержку, если речь, к примеру, идет о парсинге Яндекса?
Мое предположение:
"Как обойти бан ip"
на разные хостинги (с разными ip) выложить файлик get.php:
Код:
<?
// параметры (в данном случае url`ы) передаются через $id, например: site1.ru/get.php?id=yandex.ru
$pars=file_get_contents($id);
echo $pars;
?>
// параметры (в данном случае url`ы) передаются через $id, например: site1.ru/get.php?id=yandex.ru
$pars=file_get_contents($id);
echo $pars;
?>
А в основной программе парсинга, запрашивать в случайном порядке, файлы get.php и передавать им параметр $id (в данном случае url)
Например:
Site.ru1/get.php?id=1.yandex.ru
Site.ru2/get.php?id=1.yandex.ru
Site.ru3/get.php?id=1.yandex.ru
П.С.:
Сталкивался ли кто-то с такой проблемой? Корректно ли мое решение?
Не уверен, что такими вопросами ты заслужишь тут хоть капельку уважения, т.к. мы сами создаём сайты и в общем ты просишь научить тебя воровать наши же труды (тут многие ещё заменяют контент-менеджеров). Воровать это плохо -1.
что касается подсказок, то могу только посоветовать Google APIs, если тебя конечно интерисует результат работы поисковиков (а гугл это тебе не первый год существующая система, так что можно пользоваться ей).
Поищу в рунете…