Справочник функций

Ваш аккаунт

Войти через: 
Забыли пароль?
Регистрация
Информацию о новых материалах можно получать и без регистрации:

Почтовая рассылка

Подписчиков: -1
Последний выпуск: 19.06.2015

Парсинг сайтов (просьба ответить)

15K
03 июля 2007 года
SUMDEX
32 / / 12.06.2007
У меня часто возникают задачи с парсингом:
- выдачи поисковых систем
- парсингом баз данных на других сайтах

в основном использую команду: file_get_contents

Проблемы:
банят ip

Вопрос:
1.как можно решить эту проблему?
2. Как пользоваться анонимными прокси-серверами (ip)?
2.1. if(Вопрос2=='TRUE') Если все пользуются, то ни банят ли их периодически?
3. Верно ли мое предположение?
4. Каким образом можно задержать выполнение скрипта, если парсить все-таки с 1-го ip и насколько микросекунд ставить задержку, если речь, к примеру, идет о парсинге Яндекса?


Мое предположение:
"Как обойти бан ip"

на разные хостинги (с разными ip) выложить файлик get.php:
 
Код:
<?
// параметры (в данном случае url`ы) передаются через $id, например: site1.ru/get.php?id=yandex.ru
$pars=file_get_contents($id);
echo $pars;
?>


А в основной программе парсинга, запрашивать в случайном порядке, файлы get.php и передавать им параметр $id (в данном случае url)
Например:
Site.ru1/get.php?id=1.yandex.ru
Site.ru2/get.php?id=1.yandex.ru
Site.ru3/get.php?id=1.yandex.ru


П.С.:
Сталкивался ли кто-то с такой проблемой? Корректно ли мое решение?
15
03 июля 2007 года
shaelf
2.7K / / 04.05.2005
Не уверен, что такими вопросами ты заслужишь тут хоть капельку уважения, т.к. мы сами создаём сайты и в общем ты просишь научить тебя воровать наши же труды (тут многие ещё заменяют контент-менеджеров). Воровать это плохо -1.
92
03 июля 2007 года
Тень Пса
2.2K / / 19.10.2006
нуууу..... если ты настолько нагло это делаешь, что тебя даже банят :))) то я лично помогать не буду.

что касается подсказок, то могу только посоветовать Google APIs, если тебя конечно интерисует результат работы поисковиков (а гугл это тебе не первый год существующая система, так что можно пользоваться ей).
15K
03 июля 2007 года
SUMDEX
32 / / 12.06.2007
Ладно уж, почитаю мануал…
Поищу в рунете…
Реклама на сайте | Обмен ссылками | Ссылки | Экспорт (RSS) | Контакты
Добавить статью | Добавить исходник | Добавить хостинг-провайдера | Добавить сайт в каталог