url crawling

2.0K

20 октября 2008 года

99 / / 17.10.2006

Извините что обкатанную тему поднимаю. Но я в инете ни чего путевого не нашел.
Как можно url crawling сообразить на php скажем у нас есть URL htpp://www.some_site.com и нам надо все подкаталоги и файлы находящиеся по этому адресу надо извлечь хотябы список файлов.

Пробовал некоторымы встроеннымы функциями на подобии is_dir() readdir() opendir() ...
Но эти фукции только для работы с директориями на локальном компьютере. Может я не прав. Может какие то установки на php.ini изменить чтобы можно было работать и веб ресурсами с этими же функциями...
И возможно ли crawl'ить если данный адрес не реальный то есть rewrite mode стоит ?
Интересно по какому принципу работают поисковики ?
Есть идеи ? Спасибо за ваше терпение и помощь за ранее.:)

Подписаться на вопросНеобходима регистрация

По порядку

Сначала полезные

Сначала решения

2 ответа

0 спам

20 октября 2008 года

alekciy

3.0K / / 13.12.2005

Если на удаленном сервере листинг директорий отключен, то ни какими опция в локальном php.ini ты не чего не сделаешь.

Реально все то, что видно с наружи, даже если мы работаем в виртуальными ресурсами. Реально ли ресур реальный можно узнать только "изнутри" сервера.

Поисковики читают robots.txt и приходят по ссылками. Ни какого сканирования директорий они не ведут.

Цитировать

0 спам

20 октября 2008 года

squirL

5.6K / / 13.08.2003

вообще, если ты некоторым клиентов запрашиваешь страницу, например
http://forum.codenet.ru/index.php, то в ответ получаешь HTML из которого путем несложного парсинга получаешь ссылки. потом выкачиваешь эти ссылки... и повторяешь для каждой все сначала

Цитировать

Ваш аккаунт

Последние темы форума

Почтовая рассылка

url crawling

2 ответа