SourcePage = SourcePage.Replace("body", "№");//заменяем тег body на любой символ,которого нет в html
Regex regex = new Regex(@"№[^№]*№");// см. http://habrahabr.ru/post/55766/
Match match = regex.Match(SourcePage);
string Out = "";
if (match.Success)
{
Out += match.Value + " ";
}
SourcePage = Out;
regex = new Regex(@">([^<])+"); // выделяет >текст
match = regex.Match(SourcePage);
Out = "";
while (match.Success)
{
Out += match.Value + " ";
match = match.NextMatch();
}
Out = Out.Replace(">", "");
Отпарсить html-страницу
Код:
string text = "<html><head>Заголовок страницы</head>\r\n"+
"<body><p>Certificate Subject</p>\r\n"+
"дальше код,\* страницы бла-бла-бла?!\r\n"+
"<p>Certificate Issuer</p>rn"+
"дальше код bla@mail.com страницы\ бла-бла-бла\r\n"+
"</body></html>";
Regex regex = new Regex(@">[a-zA-ZА-Яа-я0-9]+<"); //здесь нужно изменить регулярку
Match match = regex.Match(text);
string Out = "";
while (match.Success)
{
Out += match.Value + " ";
match = match.NextMatch();
}
MessageBox.Show(Out);
"<body><p>Certificate Subject</p>\r\n"+
"дальше код,\* страницы бла-бла-бла?!\r\n"+
"<p>Certificate Issuer</p>rn"+
"дальше код bla@mail.com страницы\ бла-бла-бла\r\n"+
"</body></html>";
Regex regex = new Regex(@">[a-zA-ZА-Яа-я0-9]+<"); //здесь нужно изменить регулярку
Match match = regex.Match(text);
string Out = "";
while (match.Success)
{
Out += match.Value + " ";
match = match.NextMatch();
}
MessageBox.Show(Out);
Ответ: