Отпарсить html-страницу

445

18 мая 2015 года

176 / / 16.08.2011

Здравствуйте, возникла задача отпарсить html. Конкретно, взять весь текст, который находится между тегами, кроме заголовка. Нужно написать регулярную строку.

Свернуть исходник

Код:

string text = "<html><head>Заголовок страницы</head>\r\n"+

             "<body><p>Certificate Subject</p>\r\n"+

                     "дальше код,\* страницы бла-бла-бла?!\r\n"+

                     "<p>Certificate Issuer</p>rn"+

                     "дальше код bla@mail.com страницы\ бла-бла-бла\r\n"+

                         "</body></html>";

            Regex regex = new Regex(@">[a-zA-ZА-Яа-я0-9]+<"); //здесь нужно изменить регулярку

            Match match = regex.Match(text);

            string Out = "";

            while (match.Success)

            {

                Out += match.Value + " ";

                match = match.NextMatch();

            }

            MessageBox.Show(Out);

Мне нужно чтобы показал: "Certificate Subject дальше код,\* страницы бла-бла-бла?! Certificate Issuer дальше код bla@mail.com страницы\ бла-бла-бла"

Подписаться на вопросНеобходима регистрация

По порядку

Сначала полезные

Сначала решения

1 ответ

0 спам

445

20 мая 2015 года

Charley

176 / / 16.08.2011

Ответ:

Свернуть исходник

Код:

SourcePage = SourcePage.Replace("body", "№");//заменяем тег body на любой символ,которого нет в html

                Regex regex = new Regex(@"№[^№]*№");// см. http://habrahabr.ru/post/55766/

                Match match = regex.Match(SourcePage); 

                string Out = "";

                if (match.Success)

                {

                    Out += match.Value + " ";

                }

                SourcePage = Out;

                regex = new Regex(@">([^<])+"); // выделяет >текст

                match = regex.Match(SourcePage);

                Out = "";

                while (match.Success)

                {

                    Out += match.Value + " ";

                    match = match.NextMatch();

                }

                Out = Out.Replace(">", "");

Цитировать

Ваш аккаунт

Последние темы форума

Почтовая рассылка

Отпарсить html-страницу

1 ответ