копирование информации
Существует определенный ресурс, на котором например постоянно существует и обновляется таблица, в которой содержится информация по-поводу ближайших концертов в театре :) Мне необходимо без постоянного Ctrl+C автоматически копировать эту информацию на другой ресурс. Так вот, будьте добры, подскажите пожалуйста как это можно реализовать. В принципе можно через фрейм, но там полосы прокрутки и т.д. и т.п. ну не очень удобно. Как еще можно?!
Можно к БД коннектится или какойто интерфейс отдачи инфи продумать.
Можно к БД коннектится или какойто интерфейс отдачи инфи продумать.
Добавлю еще, что многие ресурсы предоставляют rss-канал (например погода гисметео), который вполне можно парсить программно.
Для сокращения трафика используется кэширования на энное кол-во часов, и проблем никаких.
Да даже просто если информация выставлена на всеобщее обозрение - она разрешена для копирования. (Пусть даже со ссылкой на авторов). Не в этом суть.
Вы можете, пожалуйста, привести пример как делать парсинг в виде xml как вы сказали?
Да даже просто если информация выставлена на всеобщее обозрение - она разрешена для копирования. (Пусть даже со ссылкой на авторов). Не в этом суть.
Вы можете, пожалуйста, привести пример как делать парсинг в виде xml как вы сказали?
Дак в каком виде информация-то у тебя?
mfender имел ввиду, что владелец постоянно обновляет какой-либо xml файл с нужной тебе информацией, или же предоставляет rss.
Нужен пример для работы с xml? Парсинг html? RSS?
Да даже просто если информация выставлена на всеобщее обозрение - она разрешена для копирования. (Пусть даже со ссылкой на авторов). Не в этом суть.
Вы можете, пожалуйста, привести пример как делать парсинг в виде xml как вы сказали?
Как парсить... смотришь код хтмл, исчешь стандартные елементы дизайна отсекаешь их строковыми или регулярными функциями - получаешь почти нужный контент и по тихоньку удаляешь не нужную инфу до получения "однородной массы" :) проблема в том что при смене дизайна придецца переписывать парсер.
Загрузку канала и трафика я решал через метод семафоров - . т.е прогонять через определенное время ресурс - методов реализации - туева хуча, так же как и ресурсов :)
Не вижу разници когда контент забираеться через парсер или когда сидит человек который это забивает вручную - точней разница только время и зп сотрудника :)
И если это уголовно наказуемо - то половина инет разработчиков пишут свои коды из отдельной тюрьмы с выделенным каналом :) сообщество :)
function parse_wordstat($keyword) {
$pattern = '/<table border="0" width="100%" cellspacing="0" cellpadding="5">(.*?)<\/table>/is';
$pattern2 = '/<tr class="tlist".*?><td><a href=".*?">(.*?)<\/a><\/td>[\n]*<td align=["]*right["]*>([\d]+)<\/td><\/tr>/is';
$url = 'http://wordstat.yandex.ru/advq?rpt=ppc&text='.urlencode($keyword);
$data = file_get_contents($url);
preg_match_all($pattern, $data, $out, PREG_SET_ORDER);
foreach ($out as $key=>$value) preg_match_all($pattern2, $value[1], $out2[$key], PREG_SET_ORDER);
return $out2;
}
$ws = parse_wordstat('холодильник');
foreach ($ws as $w) {
echo '<hr />';
foreach ($w as $k) echo $k[1].' | '.$k[2].'<br />';
}
?>
вот скрипт нарыл парсинга, но как человек неведующий, не понял принципа, бьясните, будьте добры.
А насчет поста где Вы указали "стандартные елементы дизайна" - вы занимались этим вообще?! Ну Вас не затруднит как-то привести примерчик на парсинг определенного блока страницы, я буду вас очень признателен за это.
т.е. банально нужно поменять адрес ссылки
$url = 'http://wordstat.yandex.ru/advq?rpt=ppc&text='.urlencode($keyword);
на например
$url = 'http://codenet.ru'.urlencode($keyword);
и указать вместо
$ws = parse_wordstat('холодильник');
ключевое слово, например
$ws = parse_wordstat('Форум');
и я получу таблицу с главной страницы этого сайта, со ссылками всех форумов (как на главной codenet)?!
Если что-то упостил, будьте добры, дополните пожалуйста.
$url = 'http://wordstat.yandex.ru/advq?rpt=ppc&text='.urlencode($keyword);
на например
$url = 'http://codenet.ru'.urlencode($keyword);
и указать вместо
$ws = parse_wordstat('холодильник');
ключевое слово, например
$ws = parse_wordstat('Форум');
и я получу таблицу с главной страницы этого сайта, со ссылками всех форумов (как на главной codenet)?!
Если что-то упостил, будьте добры, дополните пожалуйста.
Путаешь код с алгоритмом - я написал алгоритм парсинга его реализация за тобой - никто не приведет тебе пример реального парсера т.к :) ну сам понимаешь :) твой код парсит яндекс - разберись как он работает и поймешь что тебе нужно, универсального парсера для всех ресурсов не существует
Как писалось есть 2 пути первый если отдаеться хмл - парсить его
если нет то писать свой парсер заточенный под определенный ресурс