Справочник функций

Ваш аккаунт

Войти через: 
Забыли пароль?
Регистрация
Информацию о новых материалах можно получать и без регистрации:

Последние темы форума

Показать новые сообщения »

Почтовая рассылка

Подписчиков: 6311
Последний выпуск: 19.06.2015

Список ссылок на картинки из html C#

32K
13 января 2013 года
LawManiak
76 / / 24.10.2011
Нужно парсить список ссылок на картинки из html-кода, вот что получилось:
 
Код:
Queue qe = new Queue();
Regex regexExtractURLs = new Regex(@"(?<=<img .*?src\s*=\s*"")[^""]+(?="".*?>)", RegexOptions.IgnoreCase | RegexOptions.Singleline);
MatchCollection mcURLs = regexExtractURLs.Matches(page);
foreach (Match mMatch in mcURLs)
  qe.Enqueue(mMatch.ToString().Trim());
Проблема в том, что картинки на странице могут быть не только под тегом <img>, как выдернуть ссылки на вообще все картинки со страницы?
например из таких конструкций:

 
Код:
.gbts{background:url(//ssl.gstatic.com/gb/images/b_8d5afc09.png);
8
14 января 2013 года
mfender
3.5K / / 15.06.2005
Не знаю поможет или нет, но я бы не стал связываться с регулярками в этом вопросе. Во-первых, документ может генерироваться при помощи JavaScript например, соответственно в исходном коде может просто не быть того что нужно, и во-вторых CSS часто находится в других файлах.

Есть замечательный интерфейс IHTMLDocument2 и IHTMLDocument3 где можно выбрать все картинки при помощи getElementsByTagName('img')
А в IHTMLStyleSheet и других можно побегать по всем правилам в поисках background'ов

Знаете кого-то, кто может ответить? Поделитесь с ним ссылкой.

Ваш ответ

Реклама на сайте | Обмен ссылками | Ссылки | Экспорт (RSS) | Контакты
Добавить статью | Добавить исходник | Добавить хостинг-провайдера | Добавить сайт в каталог