Все для программиста!

Ваш аккаунт

Войти через:

Забыли пароль?
Регистрация

Информацию о новых материалах можно получать и без регистрации:

ВКонтакте

Последние темы форума

Музыка — 2019-04-26 23:59:43 (1)
Общалка :) / Кристина Ивлеева
Как внести числа в сгенерированный массив чисел СЛУЧМЕЖДУ — 2019-04-25 11:15:30 (0)
Visual Basic / wanx
рабочее зеркало гидры — 2019-04-22 13:27:49 (1)
Операционные системы / Tony_Montana
гидра анонимный — 2019-04-21 15:37:08 (0)
Низкоуровневое программирование / Tony_Montana
гидра браузер — 2019-04-21 11:49:42 (0)
Компьютерная безопасность / Tony_Montana
Закрытие главной формы из другой. — 2019-04-19 09:08:27 (1)
Borland C++ Builder / Lazy_Man
гидра оф сайт — 2019-04-18 13:15:50 (0)
Студентам / Tony_Montana
Информация про криптовалюту. — 2019-04-18 04:38:31 (6)
Общалка :) / PotapShavanov
ссылка на гидру зеркало — 2019-04-17 11:53:53 (0)
Базы данных / Tony_Montana
гидра сайт доверенных — 2019-04-16 13:58:20 (0)
Фриланс / Tony_Montana
Delphi Trichview замена текста — 2019-04-16 13:02:35 (0)
Delphi & Kylix / ale-sumkin
Реально ли заработать на ставках? — 2019-04-16 07:34:02 (5)
Общалка :) / Polernik

Показать новые сообщения »

Почтовая рассылка

regexp vs DOM

271

25 апреля 2007 года

721 / / 31.12.2002

есть скрипт, который берёт инфу с другого сайта в формате HTML и вырезает оттуда нужные данные... сейчас вырезка идут с использованием регулярных выражений... недавно прочитал про DOMDocument() и подумал, что будет быстрее - проводить разбор регэкспами или через средства DOM? кто сталкивался с такой проблемой, подскажите..
з.ы. объёмы получаемого документа могут быть очень большими (до 1Мб чистого текста)

Подписаться на вопросНеобходима регистрация

По порядку

Сначала полезные

Сначала решения

21 ответ

239

25 апреля 2007 года

1.7K / / 20.05.2000

Какой язык программирования будет парсить HTML?

Цитировать

271

25 апреля 2007 года

721 / / 31.12.2002

PHP...

Цитировать

239

25 апреля 2007 года

1.7K / / 20.05.2000

На PHP не знаю, но, думаю, все-равно regexp должно быть шустрее.

Цитировать

8

25 апреля 2007 года

3.5K / / 15.06.2005

IMHO, DOM быстрее будет. Ну, а уж по части удобства - совсем здорово.

Цитировать

239

25 апреля 2007 года

1.7K / / 20.05.2000

Ну, Perl-овский regexp быстрее должен быть, особенно, на больших строках.

Цитировать

253

25 апреля 2007 года

1.5K / / 07.08.2004

ИМХО, regexp'ы, ибо пока парсер будет строить дерево из метра кода, regexp быстрее отыщет строку

Цитировать

7.9K

25 апреля 2007 года

191 / / 05.04.2007

Имхо, единственный, кто может решить ваш спор, это тов.Эксперимент.

Цитировать

12

26 апреля 2007 года

3.0K / / 13.12.2005

Через DOM банально удобнее, через регулярками.

Цитировать

239

26 апреля 2007 года

1.7K / / 20.05.2000

Речь идет о скорости для времени работы скрипта на сервере, если я правильно понял. А с регулярками как раз все просто и вообще в одну строку. В буквальном смысле слова. Ну, если в regexp ориентироваться, конечно.

Цитировать

8

26 апреля 2007 года

3.5K / / 15.06.2005

Цитата: alekciy

Через DOM банально удобнее, через регулярками.

Двусмысленно... Надо законспектировать и научится подобным образом водить за нос жену, начальство и прочих... :D :D :D

Цитировать

12

26 апреля 2007 года

3.0K / / 13.12.2005

Цитата: Dolonet

Речь идет о скорости для времени работы скрипта на сервере, если я правильно понял. А с регулярками как раз все просто и вообще в одну строку.

Ну это смотря что и в каком объеме требуется искать. Без всяких опыто думаю ясно, что в одних задачах DOM будет и более удобнее и быстрее, в других регулярка будет быстрее.

Приведу пример. Мне для одной задачи нужно найти некое слово на странице. Причем это слово может быть какое угодно количество раз. При этом я не знаю в какой части страницы располагается это слово. Вот тут DOM очень полезен и регулярками тут врятли что решишь.

Цитировать

239

26 апреля 2007 года

1.7K / / 20.05.2000

alekciy, Не совсем понял про пример. Слово заранее известно?

Цитировать

8

26 апреля 2007 года

3.5K / / 15.06.2005

Цитата: alekciy

Мне для одной задачи нужно найти некое слово на странице. Причем это слово может быть какое угодно количество раз. При этом я не знаю в какой части страницы располагается это слово. Вот тут DOM очень полезен и регулярками тут врятли что решишь.

Помоему, тут как раз таки лучше регулярными оперировать. Ибо, в DOM'е всё равно будешь шарить по узлам и искать строку с помощью strpos или preg_math.

Цитировать

12

26 апреля 2007 года

3.0K / / 13.12.2005

Цитата: mfender

Двусмысленно... Надо законспектировать и научится подобным образом водить за нос жену, начальство и прочих... :D :D :D

Спецом для mfender-а (:D гы гы) разворачиваю ответ.
DOM позволяет абстрагироваться от структуры входных данных. Мы работаем с абстрактной моделью которую к тому же можно еще и сохранять в другие файлы или модифицировать.
А регулярки нередко привязывают нас к определенной структуре данных ибо в регулярке нередко содержиться описание структуры входищих данных. Изменилась структура входных данных (поправили так HTML код страницы) и регулярка может и перестать работать.

Хочу поддчеркнуть, что я не за DOM или регулярки. Я за использование того инструмента, который для текущей задачи оптимален.

Цитировать

12

26 апреля 2007 года

3.0K / / 13.12.2005

Цитата: Dolonet

alekciy, Не совсем понял про пример. Слово заранее известно?

Да. Собственно пример возник из практического опыта написания вот этого сервиса http://alekciy.ru/test/ (так и неделанного, благо сейчас в отпуске и видимо таки допишу).

Цитировать

12

26 апреля 2007 года

3.0K / / 13.12.2005

Цитата: mfender

Помоему, тут как раз таки лучше регулярными оперировать. Ибо, в DOM'е всё равно будешь шарить по узлам и искать строку с помощью strpos или preg_math.

XPath на что? И потом использование DOM не исключает использование регулярок.

Цитировать

239

26 апреля 2007 года

1.7K / / 20.05.2000

Кстати, такой сервис уже делал. Основной проблемой в этом случае было сделать так, чтобы все GET и POST ссылки и формы тоже через сервер проходили. Такая вот прокся :)
И, кстати, для этих нужд нужно всего 2 regexp. ну максимум три. И все дефекты кода можно учесть.

Цитировать

337

26 апреля 2007 года

719 / / 09.06.2006

По-моему это очередной холивар. Типа Win vs Linux, Microsoft vs opensource и т.д. :)

Цитировать

239

26 апреля 2007 года

1.7K / / 20.05.2000

Присоединяйся ;)

Цитировать

12

26 апреля 2007 года

3.0K / / 13.12.2005

Цитата: shine

По-моему это очередной холивар. Типа Win vs Linux, Microsoft vs opensource и т.д. :)

:D мы в привате пришли к такому же выводу. Но я не холиварю. Не пять лет все же ))) Ну поболтали немного... почему бы и нет? :)

Цитировать

92

27 апреля 2007 года

Тень Пса

2.2K / / 19.10.2006

не знаю.... как то мне лично удобнее разбирать regExp'ами..... ну как-то привык )))

PS: а что лучше... таки не скажу - потому что +1 к холивару )))))))))

Цитировать

Реклама на сайте | Обмен ссылками | Ссылки | Экспорт (RSS) | Контакты
Добавить статью | Добавить исходник | Добавить хостинг-провайдера | Добавить сайт в каталог