Справочник функций

Ваш аккаунт

Войти через: 
Забыли пароль?
Регистрация
Информацию о новых материалах можно получать и без регистрации:

Почтовая рассылка

Подписчиков: -1
Последний выпуск: 19.06.2015

Грабление контента из сайтов.

2.0K
17 июня 2008 года
swordholder
99 / / 17.10.2006
Скажите пожалуйста существуют ли другие пути (кроме RSS) извлечения контента (новостей) из сайтов (в основном новостных).
Например получить доступ к базе в которой хранятся контенты ... А еще есть ?

Спасибо заранее.:rolleyes:
92
17 июня 2008 года
Тень Пса
2.2K / / 19.10.2006
парсить raw-html, что собссна запрещено... ну или разрешается владельцем.
8
17 июня 2008 года
mfender
3.5K / / 15.06.2005
Конечно есть! Договориться с владельцами и они предоставят всё в виде XML\RSS. Всё остальное грабление - грабёж, и преследуется законом.
2.0K
17 июня 2008 года
swordholder
99 / / 17.10.2006
Спасибо :p
304
19 июня 2008 года
Fenyx
707 / / 26.01.2005
Цитата: mfender
Конечно есть! Договориться с владельцами и они предоставят всё в виде XML\RSS. Всё остальное грабление - грабёж, и преследуется законом.


Полностью согласен :D .........

2
19 июня 2008 года
squirL
5.6K / / 13.08.2003
с чего вдруг это преследуется законом? если на сайте размещаются, например, бесплатные объявления - никто не мешает мне их вытянуть оттуда :)
304
19 июня 2008 года
Fenyx
707 / / 26.01.2005
Цитата: squirL
с чего вдруг это преследуется законом? если на сайте размещаются, например, бесплатные объявления - никто не мешает мне их вытянуть оттуда :)


Или ресурс не потрудился сделать элементарной защиты от грабления :) все по сути распарсить можно, но иногда количество ошибок и трудозатраты парсера отвергают грабление :)

251
19 июня 2008 года
SkyMаn
1.7K / / 31.07.2007
Цитата: squirL
с чего вдруг это преследуется законом? если на сайте размещаются, например, бесплатные объявления - никто не мешает мне их вытянуть оттуда :)


Или другой вариант - погодные информеры - я могу их читать с сайта их владельца и распарсивать, переводя, например, на другой язык, убирая ненужные стили итд.

304
19 июня 2008 года
Fenyx
707 / / 26.01.2005
Ща все секреты расскажем :)
Грабление сайта это незаконная операция :) других путей кроме рсс нет :)
2
19 июня 2008 года
squirL
5.6K / / 13.08.2003
Цитата: Fenyx
Ща все секреты расскажем :)


в этом плане - я могу сам кому хош рассказать ;) тока тсссс... я хороший мальчик

8
19 июня 2008 года
mfender
3.5K / / 15.06.2005
Цитата: SkyMаn
Или другой вариант - погодные информеры - я могу их читать с сайта их владельца и распарсивать, переводя, например, на другой язык, убирая ненужные стили итд.


дададад, погодные информеры... открой гисметео, посмотри сколько стоит их "абонемент" на год за прогноз погоды, а потом подумай, почему им не хочется, чтобы их парсили :D

304
20 июня 2008 года
Fenyx
707 / / 26.01.2005
Цитата: mfender
дададад, погодные информеры... открой гисметео, посмотри сколько стоит их "абонемент" на год за прогноз погоды, а потом подумай, почему им не хочется, чтобы их парсили :D


Смотрел я их :) защита - ява скрипт :) была бы необходимость:)

92
20 июня 2008 года
Тень Пса
2.2K / / 19.10.2006
да осспади... забанят и всё...
304
20 июня 2008 года
Fenyx
707 / / 26.01.2005
Цитата: Тень Пса
да осспади... забанят и всё...


:) если грамотоно писать найти по логам парсер ооочень тяжело :) точней его нужно целенаправленно искать а при большой посещаемости это проблематично

832
20 июня 2008 года
Carpus
390 / / 14.04.2005
Цитата: Fenyx
Смотрел я их :) защита - ява скрипт :) была бы необходимость:)


Fenyx, дело ведь не в том, что плоха защита. Да и как можно защитить от воровства контент сайта, если он доступен любому и каждому? Вот ответственность за воровство может быть вполне ощутимой, было бы желание у правообладателя защитить свои права на контент.

8
20 июня 2008 года
mfender
3.5K / / 15.06.2005
Цитата: Fenyx
Смотрел я их :) защита - ява скрипт :) была бы необходимость:)


нет там защиты. да, текст в переменной в javascript заделан, но прямо в документе. парсится так же, как и всё остальное. но факт преступления налицо.

просто меня давным-давно напрягли напейсать эту вороватую программулину. я почитал, полистал и отказался. убедительно боссу всё объяснил. и тот вполне разумно согласился платить за это деньги владельцам информации. вот тогда я с ними вполне познакомился. офис в Перово, хорошая солидная контора.

304
20 июня 2008 года
Fenyx
707 / / 26.01.2005
Цитата: Carpus
Fenyx, дело ведь не в том, что плоха защита. Да и как можно защитить от воровства контент сайта, если он доступен любому и каждому? Вот ответственность за воровство может быть вполне ощутимой, было бы желание у правообладателя защитить свои права на контент.


Есть методы верстки сайта при которых парсить становиться сложней на порядок, а такие конструкции как <div class=text>Text</div> :D ...

Цитата:

просто меня давным-давно напрягли напейсать эту вороватую программулину....



Как же быть с воровством контента между новостными ресурсами? когда указание ссылки на источник являеться единственным требованием? :)

8
20 июня 2008 года
mfender
3.5K / / 15.06.2005
Цитата: Fenyx
Как же быть с воровством контента между новостными ресурсами? когда указание ссылки на источник являеться единственным требованием? :)


Когда указано, что "указание ссылки на источник" является единственным требованием, выясняется внезапно, что источником является ИТАР-ТАСС или ИнтерФакс, которые тоже не приемлют воровство и зарабатывают на информации деньги.

Есть узкоспециализированные источники, которым действительно выгодны ссылки на себя, нежели сама информация. Но это, как правило, реврайтеры, которые публикуют на основе всё тех же основных источников, либо являются заведомо "испорченым телефоном".

832
20 июня 2008 года
Carpus
390 / / 14.04.2005
Цитата: Fenyx
Есть методы верстки сайта при которых парсить становиться сложней на порядок, а такие конструкции как <div class=text>Text</div> :D ...


Не совсем понимаю о каких методах верстки идет речь, можно поподробнее?

Цитата:
Как же быть с воровством контента между новостными ресурсами? когда указание ссылки на источник являеться единственным требованием? :)


Если это единственное требование источника - конечно, воровства нет. Я говорил именно о воровстве, когда копирайты стоят на видном месте, а контент один ...фиг копируют. Бывает, что не просто копируют, особо одаренные еще и размещают его на множестве ресурсов под видом "статей", со своими ссылками. В такой ситуации остается либо морду бить, либо судиться.

304
21 июня 2008 года
Fenyx
707 / / 26.01.2005
Цитата: Carpus
Не совсем понимаю о каких методах верстки идет речь, можно поподробнее?

Если это единственное требование источника - конечно, воровства нет. Я говорил именно о воровстве, когда копирайты стоят на видном месте, а контент один ...фиг копируют. Бывает, что не просто копируют, особо одаренные еще и размещают его на множестве ресурсов под видом "статей", со своими ссылками. В такой ситуации остается либо морду бить, либо судиться.


Методы верстки это вытекающая из парсера, при написании пары десятков парсеров и в процесе решения обходных путей видешь как грамотней было бы писать хтмл, если есть такая необходимость защиты.
Самый простой и тупой на гисметео - простой потому что распарсить не составляет проблемы для веб программера, тупой потому что поисковики не хавают ява скрипт (видать другие методы раскрутки), пример с именованием классов на тег я превел выше.
Но полной защиты от прасера мне кажецца не существует :) можно просто усложнить задачу для того кто собирается парсить, с расчетом что у желающего может банально не хватить знаний :)
Мне правда сталкиваться с защитой контента не приходилось (я не беру бывшего тупого дира который заставил поставить ява скрипт на запрет копирования контента в браузере :) для юзверя)

5.1K
25 июня 2008 года
saturn61
108 / / 25.10.2006
Цитата:
(я не беру бывшего тупого дира который заставил поставить ява скрипт на запрет копирования контента в браузере :) для юзверя)


К слову, которое и то может работать только в осле, в опере же все копируется элементарно...

Реклама на сайте | Обмен ссылками | Ссылки | Экспорт (RSS) | Контакты
Добавить статью | Добавить исходник | Добавить хостинг-провайдера | Добавить сайт в каталог