Справочник функций

Ваш аккаунт

Войти через: 
Забыли пароль?
Регистрация
Информацию о новых материалах можно получать и без регистрации:

Почтовая рассылка

Подписчиков: -1
Последний выпуск: 19.06.2015

копирование информации

11K
15 апреля 2008 года
mitrof4nov
68 / / 10.09.2007
Подскажите пожалуйста, будьте добры, решение проблемы. Буду вам очень признателен.
Существует определенный ресурс, на котором например постоянно существует и обновляется таблица, в которой содержится информация по-поводу ближайших концертов в театре :) Мне необходимо без постоянного Ctrl+C автоматически копировать эту информацию на другой ресурс. Так вот, будьте добры, подскажите пожалуйста как это можно реализовать. В принципе можно через фрейм, но там полосы прокрутки и т.д. и т.п. ну не очень удобно. Как еще можно?!
276
15 апреля 2008 года
Rebbit
1.1K / / 01.08.2005
Сейчас делают роботов которые парсят чужые страницы и берут с них инфу. Это конечно elfh по трафику и времены выполнения и мне такая идея вообще не нравится, но видел уже такое. Это в том случае если ресурс не твой. А если твой то помоему проблем вообще нет.
Можно к БД коннектится или какойто интерфейс отдачи инфи продумать.
2.1K
15 апреля 2008 года
wAngel
129 / / 23.11.2004
Цитата: Rebbit
Сейчас делают роботов которые парсят чужые страницы и берут с них инфу. Это конечно elfh по трафику и времены выполнения и мне такая идея вообще не нравится, но видел уже такое. Это в том случае если ресурс не твой. А если твой то помоему проблем вообще нет.
Можно к БД коннектится или какойто интерфейс отдачи инфи продумать.


Добавлю еще, что многие ресурсы предоставляют rss-канал (например погода гисметео), который вполне можно парсить программно.
Для сокращения трафика используется кэширования на энное кол-во часов, и проблем никаких.

11K
16 апреля 2008 года
mitrof4nov
68 / / 10.09.2007
ну допустим там нет rss, либо просто данная информация не входит в рассылку. Тупо таблицу можно каким-либо способом дернуть?
15
16 апреля 2008 года
shaelf
2.7K / / 04.05.2005
Разрешение от владельца сайта есть на использование его контента?
8
16 апреля 2008 года
mfender
3.5K / / 15.06.2005
Описанное является кражей (преступление уголовно-наказуемое) в случае, если владелец не разрешает парсинг. А если он разрешает, то, думаю, проще брать у него дату в виде xml, например.
11K
17 апреля 2008 года
mitrof4nov
68 / / 10.09.2007
Разрешение есть - кражей это дело являться не будет.
Да даже просто если информация выставлена на всеобщее обозрение - она разрешена для копирования. (Пусть даже со ссылкой на авторов). Не в этом суть.

Вы можете, пожалуйста, привести пример как делать парсинг в виде xml как вы сказали?
2.1K
17 апреля 2008 года
wAngel
129 / / 23.11.2004
Цитата: mitrof4nov
Разрешение есть - кражей это дело являться не будет.
Да даже просто если информация выставлена на всеобщее обозрение - она разрешена для копирования. (Пусть даже со ссылкой на авторов). Не в этом суть.

Вы можете, пожалуйста, привести пример как делать парсинг в виде xml как вы сказали?


Дак в каком виде информация-то у тебя?
mfender имел ввиду, что владелец постоянно обновляет какой-либо xml файл с нужной тебе информацией, или же предоставляет rss.
Нужен пример для работы с xml? Парсинг html? RSS?

304
18 апреля 2008 года
Fenyx
707 / / 26.01.2005
Цитата: mitrof4nov
Разрешение есть - кражей это дело являться не будет.
Да даже просто если информация выставлена на всеобщее обозрение - она разрешена для копирования. (Пусть даже со ссылкой на авторов). Не в этом суть.

Вы можете, пожалуйста, привести пример как делать парсинг в виде xml как вы сказали?


Как парсить... смотришь код хтмл, исчешь стандартные елементы дизайна отсекаешь их строковыми или регулярными функциями - получаешь почти нужный контент и по тихоньку удаляешь не нужную инфу до получения "однородной массы" :) проблема в том что при смене дизайна придецца переписывать парсер.
Загрузку канала и трафика я решал через метод семафоров - . т.е прогонять через определенное время ресурс - методов реализации - туева хуча, так же как и ресурсов :)

304
18 апреля 2008 года
Fenyx
707 / / 26.01.2005
Цитата: mfender
Описанное является кражей (преступление уголовно-наказуемое) в случае, если владелец не разрешает парсинг. А если он разрешает, то, думаю, проще брать у него дату в виде xml, например.


Не вижу разници когда контент забираеться через парсер или когда сидит человек который это забивает вручную - точней разница только время и зп сотрудника :)
И если это уголовно наказуемо - то половина инет разработчиков пишут свои коды из отдельной тюрьмы с выделенным каналом :) сообщество :)

11K
18 апреля 2008 года
mitrof4nov
68 / / 10.09.2007
Код:
<?

function parse_wordstat($keyword) {

    $pattern  = '/<table border="0" width="100%" cellspacing="0" cellpadding="5">(.*?)<\/table>/is';
    $pattern2 = '/<tr class="tlist".*?><td><a href=".*?">(.*?)<\/a><\/td>[\n]*<td align=["]*right["]*>([\d]+)<\/td><\/tr>/is';

    $url = 'http://wordstat.yandex.ru/advq?rpt=ppc&text='.urlencode($keyword);
    $data = file_get_contents($url);

    preg_match_all($pattern, $data, $out, PREG_SET_ORDER);

    foreach ($out as $key=>$value) preg_match_all($pattern2, $value[1], $out2[$key], PREG_SET_ORDER);

    return $out2;

}


$ws = parse_wordstat('холодильник');

foreach ($ws as $w) {
    echo '<hr />';
    foreach ($w as $k) echo $k[1].' | '.$k[2].'<br />';
}

?>

вот скрипт нарыл парсинга, но как человек неведующий, не понял принципа, бьясните, будьте добры.

А насчет поста где Вы указали "стандартные елементы дизайна" - вы занимались этим вообще?! Ну Вас не затруднит как-то привести примерчик на парсинг определенного блока страницы, я буду вас очень признателен за это.
304
18 апреля 2008 года
Fenyx
707 / / 26.01.2005
Для данного поста например подойдет весь текст между Код: и Редкое западло - ну это простой пример :)
11K
20 апреля 2008 года
mitrof4nov
68 / / 10.09.2007
Цитата: Fenyx
Для данного поста например подойдет весь текст между Код: и Редкое западло - ну это простой пример :)



т.е. банально нужно поменять адрес ссылки
$url = 'http://wordstat.yandex.ru/advq?rpt=ppc&text='.urlencode($keyword);

на например
$url = 'http://codenet.ru'.urlencode($keyword);

и указать вместо
$ws = parse_wordstat('холодильник');

ключевое слово, например

$ws = parse_wordstat('Форум');


и я получу таблицу с главной страницы этого сайта, со ссылками всех форумов (как на главной codenet)?!

Если что-то упостил, будьте добры, дополните пожалуйста.

304
20 апреля 2008 года
Fenyx
707 / / 26.01.2005
Цитата: mitrof4nov
т.е. банально нужно поменять адрес ссылки
$url = 'http://wordstat.yandex.ru/advq?rpt=ppc&text='.urlencode($keyword);

на например
$url = 'http://codenet.ru'.urlencode($keyword);

и указать вместо
$ws = parse_wordstat('холодильник');

ключевое слово, например

$ws = parse_wordstat('Форум');


и я получу таблицу с главной страницы этого сайта, со ссылками всех форумов (как на главной codenet)?!

Если что-то упостил, будьте добры, дополните пожалуйста.


Путаешь код с алгоритмом - я написал алгоритм парсинга его реализация за тобой - никто не приведет тебе пример реального парсера т.к :) ну сам понимаешь :) твой код парсит яндекс - разберись как он работает и поймешь что тебе нужно, универсального парсера для всех ресурсов не существует
Как писалось есть 2 пути первый если отдаеться хмл - парсить его
если нет то писать свой парсер заточенный под определенный ресурс

Реклама на сайте | Обмен ссылками | Ссылки | Экспорт (RSS) | Контакты
Добавить статью | Добавить исходник | Добавить хостинг-провайдера | Добавить сайт в каталог