Грабление контента из сайтов.
Например получить доступ к базе в которой хранятся контенты ... А еще есть ?
Спасибо заранее.:rolleyes:
Полностью согласен :D .........
Или ресурс не потрудился сделать элементарной защиты от грабления :) все по сути распарсить можно, но иногда количество ошибок и трудозатраты парсера отвергают грабление :)
Или другой вариант - погодные информеры - я могу их читать с сайта их владельца и распарсивать, переводя, например, на другой язык, убирая ненужные стили итд.
Грабление сайта это незаконная операция :) других путей кроме рсс нет :)
в этом плане - я могу сам кому хош рассказать ;) тока тсссс... я хороший мальчик
дададад, погодные информеры... открой гисметео, посмотри сколько стоит их "абонемент" на год за прогноз погоды, а потом подумай, почему им не хочется, чтобы их парсили :D
Смотрел я их :) защита - ява скрипт :) была бы необходимость:)
:) если грамотоно писать найти по логам парсер ооочень тяжело :) точней его нужно целенаправленно искать а при большой посещаемости это проблематично
Fenyx, дело ведь не в том, что плоха защита. Да и как можно защитить от воровства контент сайта, если он доступен любому и каждому? Вот ответственность за воровство может быть вполне ощутимой, было бы желание у правообладателя защитить свои права на контент.
нет там защиты. да, текст в переменной в javascript заделан, но прямо в документе. парсится так же, как и всё остальное. но факт преступления налицо.
просто меня давным-давно напрягли напейсать эту вороватую программулину. я почитал, полистал и отказался. убедительно боссу всё объяснил. и тот вполне разумно согласился платить за это деньги владельцам информации. вот тогда я с ними вполне познакомился. офис в Перово, хорошая солидная контора.
Есть методы верстки сайта при которых парсить становиться сложней на порядок, а такие конструкции как <div class=text>Text</div> :D ...
просто меня давным-давно напрягли напейсать эту вороватую программулину....
Как же быть с воровством контента между новостными ресурсами? когда указание ссылки на источник являеться единственным требованием? :)
Когда указано, что "указание ссылки на источник" является единственным требованием, выясняется внезапно, что источником является ИТАР-ТАСС или ИнтерФакс, которые тоже не приемлют воровство и зарабатывают на информации деньги.
Есть узкоспециализированные источники, которым действительно выгодны ссылки на себя, нежели сама информация. Но это, как правило, реврайтеры, которые публикуют на основе всё тех же основных источников, либо являются заведомо "испорченым телефоном".
Не совсем понимаю о каких методах верстки идет речь, можно поподробнее?
Если это единственное требование источника - конечно, воровства нет. Я говорил именно о воровстве, когда копирайты стоят на видном месте, а контент один ...фиг копируют. Бывает, что не просто копируют, особо одаренные еще и размещают его на множестве ресурсов под видом "статей", со своими ссылками. В такой ситуации остается либо морду бить, либо судиться.
Если это единственное требование источника - конечно, воровства нет. Я говорил именно о воровстве, когда копирайты стоят на видном месте, а контент один ...фиг копируют. Бывает, что не просто копируют, особо одаренные еще и размещают его на множестве ресурсов под видом "статей", со своими ссылками. В такой ситуации остается либо морду бить, либо судиться.
Методы верстки это вытекающая из парсера, при написании пары десятков парсеров и в процесе решения обходных путей видешь как грамотней было бы писать хтмл, если есть такая необходимость защиты.
Самый простой и тупой на гисметео - простой потому что распарсить не составляет проблемы для веб программера, тупой потому что поисковики не хавают ява скрипт (видать другие методы раскрутки), пример с именованием классов на тег я превел выше.
Но полной защиты от прасера мне кажецца не существует :) можно просто усложнить задачу для того кто собирается парсить, с расчетом что у желающего может банально не хватить знаний :)
Мне правда сталкиваться с защитой контента не приходилось (я не беру бывшего тупого дира который заставил поставить ява скрипт на запрет копирования контента в браузере :) для юзверя)
К слову, которое и то может работать только в осле, в опере же все копируется элементарно...