копирование информации

276

15 апреля 2008 года

1.1K / / 01.08.2005

Сейчас делают роботов которые парсят чужые страницы и берут с них инфу. Это конечно elfh по трафику и времены выполнения и мне такая идея вообще не нравится, но видел уже такое. Это в том случае если ресурс не твой. А если твой то помоему проблем вообще нет.
Можно к БД коннектится или какойто интерфейс отдачи инфи продумать.

Цитировать

0 спам

2.1K

15 апреля 2008 года

wAngel

129 / / 23.11.2004

Цитата: Rebbit

Сейчас делают роботов которые парсят чужые страницы и берут с них инфу. Это конечно elfh по трафику и времены выполнения и мне такая идея вообще не нравится, но видел уже такое. Это в том случае если ресурс не твой. А если твой то помоему проблем вообще нет.
Можно к БД коннектится или какойто интерфейс отдачи инфи продумать.

Добавлю еще, что многие ресурсы предоставляют rss-канал (например погода гисметео), который вполне можно парсить программно.
Для сокращения трафика используется кэширования на энное кол-во часов, и проблем никаких.

Цитировать

0 спам

11K

16 апреля 2008 года

mitrof4nov

68 / / 10.09.2007

ну допустим там нет rss, либо просто данная информация не входит в рассылку. Тупо таблицу можно каким-либо способом дернуть?

Цитировать

0 спам

15

16 апреля 2008 года

shaelf

2.7K / / 04.05.2005

Разрешение от владельца сайта есть на использование его контента?

Цитировать

0 спам

8

16 апреля 2008 года

mfender

3.5K / / 15.06.2005

Описанное является кражей (преступление уголовно-наказуемое) в случае, если владелец не разрешает парсинг. А если он разрешает, то, думаю, проще брать у него дату в виде xml, например.

Цитировать

0 спам

11K

17 апреля 2008 года

mitrof4nov

68 / / 10.09.2007

Разрешение есть - кражей это дело являться не будет.
Да даже просто если информация выставлена на всеобщее обозрение - она разрешена для копирования. (Пусть даже со ссылкой на авторов). Не в этом суть.

Вы можете, пожалуйста, привести пример как делать парсинг в виде xml как вы сказали?

Цитировать

0 спам

2.1K

17 апреля 2008 года

wAngel

129 / / 23.11.2004

Цитата: mitrof4nov

Разрешение есть - кражей это дело являться не будет.
Да даже просто если информация выставлена на всеобщее обозрение - она разрешена для копирования. (Пусть даже со ссылкой на авторов). Не в этом суть.

Вы можете, пожалуйста, привести пример как делать парсинг в виде xml как вы сказали?

Дак в каком виде информация-то у тебя?
mfender имел ввиду, что владелец постоянно обновляет какой-либо xml файл с нужной тебе информацией, или же предоставляет rss.
Нужен пример для работы с xml? Парсинг html? RSS?

Цитировать

0 спам

304

18 апреля 2008 года

Fenyx

707 / / 26.01.2005

Цитата: mitrof4nov

Разрешение есть - кражей это дело являться не будет.
Да даже просто если информация выставлена на всеобщее обозрение - она разрешена для копирования. (Пусть даже со ссылкой на авторов). Не в этом суть.

Вы можете, пожалуйста, привести пример как делать парсинг в виде xml как вы сказали?

Как парсить... смотришь код хтмл, исчешь стандартные елементы дизайна отсекаешь их строковыми или регулярными функциями - получаешь почти нужный контент и по тихоньку удаляешь не нужную инфу до получения "однородной массы" :) проблема в том что при смене дизайна придецца переписывать парсер.
Загрузку канала и трафика я решал через метод семафоров - . т.е прогонять через определенное время ресурс - методов реализации - туева хуча, так же как и ресурсов :)

Цитировать

0 спам

304

18 апреля 2008 года

Fenyx

707 / / 26.01.2005

Цитата: mfender

Описанное является кражей (преступление уголовно-наказуемое) в случае, если владелец не разрешает парсинг. А если он разрешает, то, думаю, проще брать у него дату в виде xml, например.

Не вижу разници когда контент забираеться через парсер или когда сидит человек который это забивает вручную - точней разница только время и зп сотрудника :)
И если это уголовно наказуемо - то половина инет разработчиков пишут свои коды из отдельной тюрьмы с выделенным каналом :) сообщество :)

Цитировать

0 спам

11K

18 апреля 2008 года

mitrof4nov

68 / / 10.09.2007

Свернуть исходник

Код:

<? 

function parse_wordstat($keyword) { 

    $pattern  = '/<table border="0" width="100%" cellspacing="0" cellpadding="5">(.*?)<\/table>/is'; 

    $pattern2 = '/<tr class="tlist".*?><td><a href=".*?">(.*?)<\/a><\/td>[\n]*<td align=["]*right["]*>([\d]+)<\/td><\/tr>/is'; 

    $url = 'http://wordstat.yandex.ru/advq?rpt=ppc&text='.urlencode($keyword); 

    $data = file_get_contents($url); 

    preg_match_all($pattern, $data, $out, PREG_SET_ORDER); 

    foreach ($out as $key=>$value) preg_match_all($pattern2, $value[1], $out2[$key], PREG_SET_ORDER); 

    return $out2; 

} 

$ws = parse_wordstat('холодильник'); 

foreach ($ws as $w) { 

    echo '<hr />'; 

    foreach ($w as $k) echo $k[1].' | '.$k[2].'<br />'; 

} 

?>

вот скрипт нарыл парсинга, но как человек неведующий, не понял принципа, бьясните, будьте добры.

А насчет поста где Вы указали "стандартные елементы дизайна" - вы занимались этим вообще?! Ну Вас не затруднит как-то привести примерчик на парсинг определенного блока страницы, я буду вас очень признателен за это.

Цитировать

0 спам

304

18 апреля 2008 года

Fenyx

707 / / 26.01.2005

Для данного поста например подойдет весь текст между Код: и Редкое западло - ну это простой пример :)

Цитировать

0 спам

11K

20 апреля 2008 года

mitrof4nov

68 / / 10.09.2007

Цитата: Fenyx

Для данного поста например подойдет весь текст между Код: и Редкое западло - ну это простой пример :)

т.е. банально нужно поменять адрес ссылки
$url = 'http://wordstat.yandex.ru/advq?rpt=ppc&text='.urlencode($keyword);

на например
$url = 'http://codenet.ru'.urlencode($keyword);

и указать вместо
$ws = parse_wordstat('холодильник');

ключевое слово, например

$ws = parse_wordstat('Форум');

и я получу таблицу с главной страницы этого сайта, со ссылками всех форумов (как на главной codenet)?!

Если что-то упостил, будьте добры, дополните пожалуйста.

Цитировать

0 спам

304

20 апреля 2008 года

Fenyx

707 / / 26.01.2005

Цитата: mitrof4nov

т.е. банально нужно поменять адрес ссылки
$url = 'http://wordstat.yandex.ru/advq?rpt=ppc&text='.urlencode($keyword);

на например
$url = 'http://codenet.ru'.urlencode($keyword);

и указать вместо
$ws = parse_wordstat('холодильник');

ключевое слово, например

$ws = parse_wordstat('Форум');

и я получу таблицу с главной страницы этого сайта, со ссылками всех форумов (как на главной codenet)?!

Если что-то упостил, будьте добры, дополните пожалуйста.

Путаешь код с алгоритмом - я написал алгоритм парсинга его реализация за тобой - никто не приведет тебе пример реального парсера т.к :) ну сам понимаешь :) твой код парсит яндекс - разберись как он работает и поймешь что тебе нужно, универсального парсера для всех ресурсов не существует
Как писалось есть 2 пути первый если отдаеться хмл - парсить его
если нет то писать свой парсер заточенный под определенный ресурс

Цитировать

Ваш аккаунт

Последние темы форума

Почтовая рассылка

копирование информации

13 ответов