Справочник функций

Ваш аккаунт

Войти через: 
Забыли пароль?
Регистрация
Информацию о новых материалах можно получать и без регистрации:

Почтовая рассылка

Подписчиков: -1
Последний выпуск: 19.06.2015

Паук(spider) для обработки ХТМЛ-страниц. TWebbrowser или INDY?

36K
13 октября 2011 года
Pcrepair
64 / / 16.01.2011
Добрый день
Что известно:
1. компонент TWebBrowser может загрузить, обработать код (JavaScript и прочее ФЛЭШ) и отобразить страницу
2. для паука отображать страницу в общем ни к чему, кроме отдельных случаев (визуальный контроль оператором), картинки, флэш тоже не нужны, JavaScript обрабатывать нужно во многих случаях, еще нужно в автомате вставлять логины-пароли и отправлять их сервер(кнопочку нажимать). в общем все что нужно - оставить текст со ссылками (УРЛ) и сохранить табличную структуру страницы - чтоб не куча букв

Вопрос
Можно ли средствами INDY10 и RAD2010 сделать следующее (и будет ли это лучше - стабильнее, правильнее идеологически):
1. загрузить код ХТМЛ-страницы по заданному УРЛ
2. обработать JavaScrtipt и ввести результаты обработки в страницу
3. удалить все лишнее (флеш, картинки, фреймы, дивы), оставить только таблицы, текст, ссылки с привязкой к тексту (теги соответсвующие)
4. отобразить на РИЧЕДИТ? документ (для контроля результата)
5. вставлять логины-пароли и отправлять их на сервер
6. Куки тоже нужно обрабатывать (чтоб сессии с сервером сохранялись)

Если у кого есть примеры кода, дайте посмотреть. Заранее спасибо
14
14 октября 2011 года
Phodopus
3.3K / / 19.06.2008
Тот инди что помню я, не поддерживал JS. Не думаю чтобы что-то изменилось.
8
15 октября 2011 года
mfender
3.5K / / 15.06.2005
TWebBrowser - это всё тот же IE, только без оболочки. Делай с ним всё что хочешь, пользуясь нужными интерфейсами.
Хотя проще и правильнее всё вышенаписанное делать в браузере же средствами JavaScript, который как раз для этого и предназначен.
Реклама на сайте | Обмен ссылками | Ссылки | Экспорт (RSS) | Контакты
Добавить статью | Добавить исходник | Добавить хостинг-провайдера | Добавить сайт в каталог