Не работает регулярка.
Делаю себе на сайт поиск по торрент-трекерам, который по сути парсит результаты bitsnoop.com. Возникла проблема при обработке результа - примитивнейшая регулярка не хочет работать. До этого я уже писал парс "интересных фактов" с википедии, подобных проблем небыло.
Код:
Код:
$up_result = file_get_contents ("http://bitsnoop.com/search/" . $in . "/" . $query . "/");
preg_match_all ("/<li>(.*)<\/li>/U", $up_result, $values);
echo ($values[1][0]);
preg_match_all ("/<li>(.*)<\/li>/U", $up_result, $values);
echo ($values[1][0]);
Да, я проверил - в up_result лежит код нужной мне страницы, и содержание тега title извлекается нормально.
Фрагмент жуткого кода страницы-результата поиска битснупа:
[HTML]<ol id="torrents" start="1"><li><div id="sz"><table border="0" cellspacing="0" cellpadding="3"><tr><td align="right" valign="middle" nowrap="nowrap">1.3 GB<div class="nfiles">3 files</div></td><td align="right" valign="middle" nowrap="nowrap" style="padding-left:6px;"><span class="icon sz3" title="About 3 CDs"></span></td></tr></table></div>
<span class="icon cat_game_pc" title="Games » PC"></span> <a href="/max-payne-2-the-fall-of-max-payne-q1432967.html"><b class=srchHL>Max</b> <b class=srchHL>Payne</b> 2 - The Fall of <b class=srchHL>Max</b> <b class=srchHL>Payne</b></a> <span id="hdr"><span class="icon comment" title="Comments"></span> <span class="small">6</span> <span class="icon ok"></span> <span class="good" style="font-size:11px;">Verified</span> </span><div class="torInfo" style="color:#999;"><span class="health h4" title="Availability"></span> <span class="seeders" title="Seeders">220</span> / <span class="leechers" title="Leechers">47</span> — Games » PC </div></li><li><div id="sz"><table border="0" cellspacing="0" cellpadding="3"><tr><td align="right" valign="middle" nowrap="nowrap">2.0 GB<div class="nfiles">3 files</div></td><td align="right" valign="middle" nowrap="nowrap" style="padding-left:6px;"><span class="icon sz4" title="About 4 CDs"></span></td></tr></table></div>
<span class="icon cat_game_pc" title="Games » PC"></span> <a href="/max-payne-1-2-q1784025.html"><b class=srchHL>Max</b> <b class=srchHL>Payne</b> 1 & 2</a> <span id="hdr"><span class="icon comment" title="Comments"></span> <span class="small">1</span> <span class="icon ok"></span> <span class="good" style="font-size:11px;">Verified</span> </span><div class="torInfo" style="color:#999;"><span class="health h4" title="Availability"></span> <span class="seeders" title="Seeders">203</span> / <span class="leechers" title="Leechers">48</span> — Games » PC </div></li><li><div id="sz"><table border="0" cellspacing="0" cellpadding="3"><tr><td align="right" valign="middle" nowrap="nowrap">1.0 GB<div class="nfiles">3 files</div></td><td align="right" valign="middle" nowrap="nowrap" style="padding-left:6px;"><span class="icon sz2" title="About 2 CDs"></span></td></tr></table></div>
<span class="icon cat_game_pc" title="Games » PC"></span> <a href="/pc-max-payne-2-the-fall-of-max-payn-q1344529.html">[PC] <b class=srchHL>Max</b> <b class=srchHL>Payne</b> 2 The Fall of <b class=srchHL>Max</b> <b class=srchHL>Payne</b> [RIP] [dopeman]</a> <span id="hdr"><span class="icon comment" title="Comments"></span> <span class="small">2</span> — <span class="icon good" title=""Good" votes"></span> <span class="small">4</span></span><div class="torInfo" style="color:#999;"><span class="health h4" title="Availability"></span> <span class="seeders" title="Seeders">81</span> / <span class="leechers" title="Leechers">15</span> — Games » PC </div></li>[/HTML]
Добавлю также, что когда битснуп не находит торренты по запросу, и предлагает список возможных причин, оформленных в теги li, то регулярка их хорошо видит.
Либо я плохо понимаю суть жизни либо здесь не обошлось без вмешательства астральных существ.
Прошу помочь, буду крайне благодарен!
А HTML все присутствующие самостоятельно форматировать обязаны?
2) Какой фрагмент приведенного HTML кода должна была сматчить регулярка?
модификатор s добавь