Универсальный Рег Эксп
Но вот столкнулся с прогой feedReader, которая читает RSS потоки, и более того грейбит контент статей в окошко. Значит это возможно (Написание универсального рег экспа для хтмл контента)? Если кто сталкивался с такой проблемой поделитесь кодом, или хотя бы пните на нужную доку :) . Заранее благодарен.
это значит, что RSS потоки имеют единый формат. а при парсинге контента сайтов - только конкретно заточенные регекспы под конкретное содержимое.
Спасибо за ответ. Однако, в этой проге существует возможность добавления своих url RSS потоков. И по моему формат контента разный. Мне мало верится чтобы сидело несколько программеров и каждый день отслеживали появления новых RSS каналов и писали бы для них рег экспы.
RSS, как и Atom и т.д. - это стандарт! В то время как парсинг сайтов - это каждый раз уникальный парсер
Цитата: UAS
RSS, как и Atom и т.д. - это стандарт! В то время как парсинг сайтов - это каждый раз уникальный парсер
- Это я прекрасно понимаю, что это разные вещи, простите за мое корявое мыслеизвержение (: .
Дело обстоит так:
Задаешь абсолютно любой url RSS потока, во втором окне прога тебе выдает все url`ы документов в этом потоке, при клике на любой из них в третьем окне появляется контент этой статьи, что удивительно без рекламы, левых и правых колонок, кода шапки или подвала, - чисто статья. Просто поразительно, как можно составить такой супералгоритм который бы вырезал все ненужное на хтмл странице, структура которой ему неизвестна.
А может, если подумать, то в этом RSS просто храниться статья. И именно это статья и отдается в этом третьем окне.. Никакой магии
Цитата: UAS
А может, если подумать, то в этом RSS просто храниться статья. И именно это статья и отдается в этом третьем окне.. Никакой магии
Может и так. Надо более подробно просмотреть. Всем спасибо тема закрыта