<div>
<table>
<tr>
<td>
<a href="mail.ru">mail.ru - почта</a>
</td>
</tr>
</table>
</div>
<div>
<table>
<tr>
<td>
<a href="mail.ru">картинка</a>
</td>
</tr>
</table>
</div>
Как идентифицировать элемент?
Требуемый алгоритм
1. Считали HTML
2. Записали в базу
3. Считали ещё раз
4. Профильтровали ссылки (<a>) и отобразили только НОВЫЕ
Вот с 1-3 пунктами всё ок, а с 4 загвостка
Как идентифицировать ссылку, чтобы понять - вот эта ссылка, она есть и там и там, её не отображаем?
Мы можем сохранить путь к <a> (например, div, div, table, td, tr, a)
Но этот путь не идентифицирует ссылку УНИКАЛЬНЫМ образом.
Ссылок с таким текстом и таким путём может быть ОЧЕНЬ много в тексте
Надо как-то по другому
А как - хоть убей, не могу сообразить
Может, у кого-то есть идеи на этот счёт?
P.S. Реализую на Qt
Ссылка (anchor) однозначно идентифицируется атрибутом href. Приведите ваш критерий новизны ссылки.
Цитата: hardcase
Ссылка (anchor) однозначно идентифицируется атрибутом href. Приведите ваш критерий новизны ссылки.
А это вопрос, кстати :)
В рамках идеи, новая ссылка - это ссылка, которой раньше в текущем html НЕ БЫЛО.
То есть, если первый раз придёт
Код:
И второй раз
Код:
<div>
<table>
<tr>
<td>
<a href="mail.ru">mail.ru - почта</a>
</td>
</tr>
</table>
</div>
<div>
<table>
<tr>
<td>
<a href="mail.ru">картинка</a>
</td>
</tr>
</table>
<a href="mail.ru">Домашняя</a>
</div>
<table>
<tr>
<td>
<a href="mail.ru">mail.ru - почта</a>
</td>
</tr>
</table>
</div>
<div>
<table>
<tr>
<td>
<a href="mail.ru">картинка</a>
</td>
</tr>
</table>
<a href="mail.ru">Домашняя</a>
</div>
То первые 2 ссылки - старые, а третья (Домашняя) - новая
Цитата: hardcase
Ссылка (anchor) однозначно идентифицируется атрибутом href. Приведите ваш критерий новизны ссылки.
Сейчас ещё подумал...Возможно, так и буду делать, почему нет
Зачем хранить и показывать одинаковые ссылки?
Цитата: Lindemann66
Сейчас ещё подумал...Возможно, так и буду делать, почему нет
Зачем хранить и показывать одинаковые ссылки?
Зачем хранить и показывать одинаковые ссылки?
Тогда вам видимо стоит включать в отчет ссылки, которые исчезли из исходного документа.
Просто прогармма задумывается как аналог UpdateScanner в Firefox и WebSiteWatcher, т.е. основная задача - показ НОВОГО контента, в данном случае - ссылок
С таким успехом например на yandex почте кнопка проверить почту будет всегда новой ссылкой. + не учитываются onlick'и где document.location меняется и form. Да и реклама контекстная тоже будет практически всегда новой ссылкой.
Не задумывался об этом!
Цитата: arrjj
Да и реклама контекстная тоже будет практически всегда новой ссылкой.
Рекламу можно отфильтровать используя блеклисты того же AdBlock.
Либо запоминать их href