url crawling
Как можно url crawling сообразить на php скажем у нас есть URL htpp://www.some_site.com и нам надо все подкаталоги и файлы находящиеся по этому адресу надо извлечь хотябы список файлов.
Пробовал некоторымы встроеннымы функциями на подобии is_dir() readdir() opendir() ...
Но эти фукции только для работы с директориями на локальном компьютере. Может я не прав. Может какие то установки на php.ini изменить чтобы можно было работать и веб ресурсами с этими же функциями...
И возможно ли crawl'ить если данный адрес не реальный то есть rewrite mode стоит ?
Интересно по какому принципу работают поисковики ?
Есть идеи ? Спасибо за ваше терпение и помощь за ранее.:)
Реально все то, что видно с наружи, даже если мы работаем в виртуальными ресурсами. Реально ли ресур реальный можно узнать только "изнутри" сервера.
Поисковики читают robots.txt и приходят по ссылками. Ни какого сканирования директорий они не ведут.
http://forum.codenet.ru/index.php, то в ответ получаешь HTML из которого путем несложного парсинга получаешь ссылки. потом выкачиваешь эти ссылки... и повторяешь для каждой все сначала