Справочник функций

Ваш аккаунт

Войти через: 
Забыли пароль?
Регистрация
Информацию о новых материалах можно получать и без регистрации:

Почтовая рассылка

Подписчиков: -1
Последний выпуск: 19.06.2015

url crawling

2.0K
20 октября 2008 года
swordholder
99 / / 17.10.2006
Извините что обкатанную тему поднимаю. Но я в инете ни чего путевого не нашел.
Как можно url crawling сообразить на php скажем у нас есть URL htpp://www.some_site.com и нам надо все подкаталоги и файлы находящиеся по этому адресу надо извлечь хотябы список файлов.

Пробовал некоторымы встроеннымы функциями на подобии is_dir() readdir() opendir() ...
Но эти фукции только для работы с директориями на локальном компьютере. Может я не прав. Может какие то установки на php.ini изменить чтобы можно было работать и веб ресурсами с этими же функциями...
И возможно ли crawl'ить если данный адрес не реальный то есть rewrite mode стоит ?
Интересно по какому принципу работают поисковики ?
Есть идеи ? Спасибо за ваше терпение и помощь за ранее.:)
12
20 октября 2008 года
alekciy
3.0K / / 13.12.2005
Если на удаленном сервере листинг директорий отключен, то ни какими опция в локальном php.ini ты не чего не сделаешь.

Реально все то, что видно с наружи, даже если мы работаем в виртуальными ресурсами. Реально ли ресур реальный можно узнать только "изнутри" сервера.

Поисковики читают robots.txt и приходят по ссылками. Ни какого сканирования директорий они не ведут.
2
20 октября 2008 года
squirL
5.6K / / 13.08.2003
вообще, если ты некоторым клиентов запрашиваешь страницу, например
http://forum.codenet.ru/index.php, то в ответ получаешь HTML из которого путем несложного парсинга получаешь ссылки. потом выкачиваешь эти ссылки... и повторяешь для каждой все сначала
Реклама на сайте | Обмен ссылками | Ссылки | Экспорт (RSS) | Контакты
Добавить статью | Добавить исходник | Добавить хостинг-провайдера | Добавить сайт в каталог