Справочник функций

Ваш аккаунт

Войти через: 
Забыли пароль?
Регистрация
Информацию о новых материалах можно получать и без регистрации:

Почтовая рассылка

Подписчиков: -1
Последний выпуск: 19.06.2015

Универсальный Рег Эксп

6.7K
08 мая 2008 года
svd
31 / / 17.12.2005
Доброго времени суток кодеры. Собственно сабж. Много раз сталкивался с написанием разных парсеров, грейберов. Раньше я грабил статьи судя по хтмл коду (составлял рег эксп по типу: здесь у нас таблица с таким то css-классом, в ней дивина, с таким то ид).
Но вот столкнулся с прогой feedReader, которая читает RSS потоки, и более того грейбит контент статей в окошко. Значит это возможно (Написание универсального рег экспа для хтмл контента)? Если кто сталкивался с такой проблемой поделитесь кодом, или хотя бы пните на нужную доку :) . Заранее благодарен.
2
08 мая 2008 года
squirL
5.6K / / 13.08.2003
это значит, что RSS потоки имеют единый формат. а при парсинге контента сайтов - только конкретно заточенные регекспы под конкретное содержимое.
6.7K
08 мая 2008 года
svd
31 / / 17.12.2005
Спасибо за ответ. Однако, в этой проге существует возможность добавления своих url RSS потоков. И по моему формат контента разный. Мне мало верится чтобы сидело несколько программеров и каждый день отслеживали появления новых RSS каналов и писали бы для них рег экспы.
244
08 мая 2008 года
UAS
2.0K / / 19.07.2006
RSS, как и Atom и т.д. - это стандарт! В то время как парсинг сайтов - это каждый раз уникальный парсер
6.7K
08 мая 2008 года
svd
31 / / 17.12.2005
Цитата: UAS
RSS, как и Atom и т.д. - это стандарт! В то время как парсинг сайтов - это каждый раз уникальный парсер


- Это я прекрасно понимаю, что это разные вещи, простите за мое корявое мыслеизвержение (: .
Дело обстоит так:
Задаешь абсолютно любой url RSS потока, во втором окне прога тебе выдает все url`ы документов в этом потоке, при клике на любой из них в третьем окне появляется контент этой статьи, что удивительно без рекламы, левых и правых колонок, кода шапки или подвала, - чисто статья. Просто поразительно, как можно составить такой супералгоритм который бы вырезал все ненужное на хтмл странице, структура которой ему неизвестна.

244
08 мая 2008 года
UAS
2.0K / / 19.07.2006
А может, если подумать, то в этом RSS просто храниться статья. И именно это статья и отдается в этом третьем окне.. Никакой магии
6.7K
09 мая 2008 года
svd
31 / / 17.12.2005
Цитата: UAS
А может, если подумать, то в этом RSS просто храниться статья. И именно это статья и отдается в этом третьем окне.. Никакой магии


Может и так. Надо более подробно просмотреть. Всем спасибо тема закрыта

Реклама на сайте | Обмен ссылками | Ссылки | Экспорт (RSS) | Контакты
Добавить статью | Добавить исходник | Добавить хостинг-провайдера | Добавить сайт в каталог