Справочник функций

Ваш аккаунт

Войти через: 
Забыли пароль?
Регистрация
Информацию о новых материалах можно получать и без регистрации:

Почтовая рассылка

Подписчиков: -1
Последний выпуск: 19.06.2015

Как идентифицировать элемент?

5.7K
15 августа 2011 года
Lindemann66
193 / / 21.07.2011
Всем привет!

Требуемый алгоритм
1. Считали HTML
2. Записали в базу
3. Считали ещё раз
4. Профильтровали ссылки (<a>) и отобразили только НОВЫЕ

Вот с 1-3 пунктами всё ок, а с 4 загвостка
Как идентифицировать ссылку, чтобы понять - вот эта ссылка, она есть и там и там, её не отображаем?
Мы можем сохранить путь к <a> (например, div, div, table, td, tr, a)
Но этот путь не идентифицирует ссылку УНИКАЛЬНЫМ образом.
Ссылок с таким текстом и таким путём может быть ОЧЕНЬ много в тексте
Надо как-то по другому

А как - хоть убей, не могу сообразить
Может, у кого-то есть идеи на этот счёт?

P.S. Реализую на Qt
5
15 августа 2011 года
hardcase
4.5K / / 09.08.2005
Ссылка (anchor) однозначно идентифицируется атрибутом href. Приведите ваш критерий новизны ссылки.
5.7K
15 августа 2011 года
Lindemann66
193 / / 21.07.2011
Цитата: hardcase
Ссылка (anchor) однозначно идентифицируется атрибутом href. Приведите ваш критерий новизны ссылки.



А это вопрос, кстати :)

В рамках идеи, новая ссылка - это ссылка, которой раньше в текущем html НЕ БЫЛО.
То есть, если первый раз придёт

Код:
<div>
    <table>
        <tr>
            <td>
                <a href="mail.ru">mail.ru - почта</a>
            </td>
        </tr>
    </table>
</div>
<div>
    <table>
        <tr>
            <td>
                <a href="mail.ru">картинка</a>
            </td>
        </tr>
    </table>
</div>

И второй раз
Код:
<div>
    <table>
        <tr>
            <td>
                <a href="mail.ru">mail.ru - почта</a>
            </td>
        </tr>
    </table>
</div>
<div>
    <table>
        <tr>
            <td>
                <a href="mail.ru">картинка</a>
            </td>
        </tr>
    </table>
    <a href="mail.ru">Домашняя</a>
</div>


То первые 2 ссылки - старые, а третья (Домашняя) - новая
5.7K
15 августа 2011 года
Lindemann66
193 / / 21.07.2011
Цитата: hardcase
Ссылка (anchor) однозначно идентифицируется атрибутом href. Приведите ваш критерий новизны ссылки.



Сейчас ещё подумал...Возможно, так и буду делать, почему нет
Зачем хранить и показывать одинаковые ссылки?

5
15 августа 2011 года
hardcase
4.5K / / 09.08.2005
Цитата: Lindemann66
Сейчас ещё подумал...Возможно, так и буду делать, почему нет
Зачем хранить и показывать одинаковые ссылки?


Тогда вам видимо стоит включать в отчет ссылки, которые исчезли из исходного документа.

5.7K
15 августа 2011 года
Lindemann66
193 / / 21.07.2011
А зачем?
Просто прогармма задумывается как аналог UpdateScanner в Firefox и WebSiteWatcher, т.е. основная задача - показ НОВОГО контента, в данном случае - ссылок
277
15 августа 2011 года
arrjj
1.7K / / 26.01.2011
С таким успехом например на yandex почте кнопка проверить почту будет всегда новой ссылкой. + не учитываются onlick'и где document.location меняется и form. Да и реклама контекстная тоже будет практически всегда новой ссылкой.
5.7K
15 августа 2011 года
Lindemann66
193 / / 21.07.2011
О, понял идею, спасибо
Не задумывался об этом!
5
15 августа 2011 года
hardcase
4.5K / / 09.08.2005
Цитата: arrjj
Да и реклама контекстная тоже будет практически всегда новой ссылкой.

Рекламу можно отфильтровать используя блеклисты того же AdBlock.

5.7K
15 августа 2011 года
Lindemann66
193 / / 21.07.2011
Либо запоминать их href
Реклама на сайте | Обмен ссылками | Ссылки | Экспорт (RSS) | Контакты
Добавить статью | Добавить исходник | Добавить хостинг-провайдера | Добавить сайт в каталог