Все для программиста!

Ваш аккаунт

Войти через:

Забыли пароль?
Регистрация

Информацию о новых материалах можно получать и без регистрации:

ВКонтакте

Последние темы форума

Музыка — 2019-04-26 23:59:43 (1)
Общалка :) / Кристина Ивлеева
Как внести числа в сгенерированный массив чисел СЛУЧМЕЖДУ — 2019-04-25 11:15:30 (0)
Visual Basic / wanx
рабочее зеркало гидры — 2019-04-22 13:27:49 (1)
Операционные системы / Tony_Montana
гидра анонимный — 2019-04-21 15:37:08 (0)
Низкоуровневое программирование / Tony_Montana
гидра браузер — 2019-04-21 11:49:42 (0)
Компьютерная безопасность / Tony_Montana
Закрытие главной формы из другой. — 2019-04-19 09:08:27 (1)
Borland C++ Builder / Lazy_Man
гидра оф сайт — 2019-04-18 13:15:50 (0)
Студентам / Tony_Montana
Информация про криптовалюту. — 2019-04-18 04:38:31 (6)
Общалка :) / PotapShavanov
ссылка на гидру зеркало — 2019-04-17 11:53:53 (0)
Базы данных / Tony_Montana
гидра сайт доверенных — 2019-04-16 13:58:20 (0)
Фриланс / Tony_Montana
Delphi Trichview замена текста — 2019-04-16 13:02:35 (0)
Delphi & Kylix / ale-sumkin
Реально ли заработать на ставках? — 2019-04-16 07:34:02 (5)
Общалка :) / Polernik

Показать новые сообщения »

Почтовая рассылка

preg_match и русские буковы

333

24 марта 2008 года

200 / / 28.12.2004

Здравствуйте!
Старый баян про кодировку UTF-8, PCRE и русские буквы.

setlocale(LC_ALL, array ('ru_RU.UTF-8'));
preg_match_all("/\w+/u", 'one два three', $matches);

В результате в $matches только два слова 'one' и 'three'.

Обратился к Гуглю, было найдено решение:
preg_match_all("/\pL+/", $mods[$i], $matches);

Но проблема в том, что я вообще не понимаю что есть \pL (на php.net не нашел описалова). Хотелось бы разобраться что это за паттерн такой получается...

Возможно-ли использовать дедовский паттерн (\w+) для работы со строками в UTF-8? Если да, то что для этого нужно?

Подписаться на вопросНеобходима регистрация

По порядку

Сначала полезные

Сначала решения

15 ответов

12

24 марта 2008 года

3.0K / / 13.12.2005

Цитата: GHopper

Возможно-ли использовать дедовский паттерн (\w+) для работы со строками в UTF-8? Если да, то что для этого нужно?

Код:

preg_match_all("/[а-я]+/u", 'one два three', $matches);

Цитировать

333

24 марта 2008 года

200 / / 28.12.2004

получается, что вместо "\w" нужно писать "(?i)[a-zа-я]+". А как заставить "\w" работать в данных условиях? Есть такая возможность?

Цитировать

12

24 марта 2008 года

3.0K / / 13.12.2005

Видимо нет. Будем надеятся на 6-ку. Если конечно в ней не убъют удею юникода как в перле (читать "Нормализация и уроды" :D ).

http://www.onphp5.com/article/22

Цитировать

1.8K

24 марта 2008 года

Валериус

190 / / 14.07.2006

Цитата: alekciy

Код:

preg_match_all("/[а-я]+/u", 'one два three', $matches);

Ага, что-то лучше сложно придумать, я на том же остановился. Разве что [a-zA-Zа-яА-Я] запихнуть в переменную и её вставлять в шаблон, но это те же яйца.

Цитировать

333

24 марта 2008 года

200 / / 28.12.2004

а где прочитать по поводу \pL? что это за штука такая?

Цитировать

12

24 марта 2008 года

3.0K / / 13.12.2005

Цитата: Валериус

Ага, что-то лучше сложно придумать, я на том же остановился. Разве что [a-zA-Zа-яА-Я] запихнуть в переменную и её вставлять в шаблон, но это те же яйца.

Вообще то есть флаг i ;)
/[a-zа-я]+/ui

Цитировать

12

24 марта 2008 года

3.0K / / 13.12.2005

Цитата: GHopper

а где прочитать по поводу \pL? что это за штука такая?

А фиг знает....

Цитировать

353

25 марта 2008 года

840 / / 04.01.2007

По-моему, лучше использовать /([a-z\x80-\xFF]+)/i, что делает скрипт менее зависимым от кодировки.

Цитировать

1.8K

25 марта 2008 года

Валериус

190 / / 14.07.2006

Цитата: Nixus

По-моему, лучше использовать /([a-z\x80-\xFF]+)/i, что делает скрипт менее зависимым от кодировки.

Это делает его по-другому зависимым от кодировки :) Если написать а-я, то он будет проверять в той кодировке, в которой сохранён сам, а если \x80-\xFF, то в той, для которой ты подбирал значения.

Кстати, в указанный диапазон входит много больше символов, чем просто алфавит.

Цитировать

12

25 марта 2008 года

3.0K / / 13.12.2005

Но мы то говорим только о UTF-8 кодировке. Можно вообще всю кирилическую собрать:
http://alanwood.net/unicode/cyrillic.html

Цитировать

353

25 марта 2008 года

840 / / 04.01.2007

Цитата: Валериус

Это делает его по-другому зависимым от кодировки :)

Таки зависимым? Примерчик можно?

Цитата: Валериус

Если написать а-я, то он будет проверять в той кодировке, в которой сохранён сам, а если \x80-\xFF, то в той, для которой ты подбирал значения.

Я ничего не подбирал.
1) \x80-\xFF - диапазон, которым все 8-битные кодировки и отличаются, т.е. большинство символов там - это символы кирилицы (для кодировок с кирилицей). Остальные символы в тексте встречаются очень и очень редко.
2) Шаблон отработает даже для utf-8.
3) В диапазон [а-я] не попадает ё почти во всех кодировках (если не во всех абсолютно). В koi-8 [а-я] не даст всех букв от а до я, т.к. алфавит начинается не с а. В случае с utf-8 картина будет совсем печальной.

Цитата: Валериус

Кстати, в указанный диапазон входит много больше символов, чем просто алфавит.

См. выше.

Цитировать

1.8K

27 марта 2008 года

Валериус

190 / / 14.07.2006

Цитата: Nixus

Таки зависимым? Примерчик можно?

Судя по твоему ответу, я не правильно понял задумку.

Цитата: Nixus

1) \x80-\xFF - диапазон, которым все 8-битные кодировки и отличаются, т.е. большинство символов там - это символы кирилицы (для кодировок с кирилицей). Остальные символы в тексте встречаются очень и очень редко.
2) Шаблон отработает даже для utf-8.
3) В диапазон [а-я] не попадает ё почти во всех кодировках (если не во всех абсолютно). В koi-8 [а-я] не даст всех букв от а до я, т.к. алфавит начинается не с а. В случае с utf-8 картина будет совсем печальной.

Задача была в отборе только русских букв, чтобы никаких лишних символов не было, а в диапазон \x80-\xFF входит, собственно, весь Юникод, включая кирилицу, арабский, армянский и прочие алфавиты, а так же руны, клинопись и кхмер, для которых и шрифтов толком не существует. Кто-то решит приколоться и будет тебе полная страничка кракозябров. Так-что [а-яё] (;)) надёжней (проверено!).

Цитировать

63K

02 августа 2010 года

Кузнецофф

2 / / 02.08.2010

Здрасьте. Извините за глупости. У мя тоже проблема "кириллица и регулярки":
1) считываю html страницу в переменную -
$file = file_get_contents(...);
2) парсю её при помощи регулярок и результат заношу в таблицу -
$pattern = "#<div class=\"search-user-info\">(.*?)</div>#is";
while (preg_match_all($pattern, $file, $m))
{
for ($i=0; $i < count($m[0]); $i++)
{
preg_match("#<b>(.*?)</b>#is", $m[0][$i], $r);
preg_match("#Id=(.*?)&#is", $r[1], $id);
preg_match("#>(.*?)</a>#is", $r[1], $nick);
preg_match("#</a>, (.\d)#is", $r[1], $age);

mysql_query("INSERT INTO members VALUES ($id[1], '$nick[1]', $age[1])", $link);
}
...
}

3) распечатываю результат, где в столбце <nick> кириллица выводится как -
РЇСЃСЋРЅСЏ
РќР°С‚Р°Р»Рё
њР°С€РµРЅСЊРєР°

Сначала грешил на мускул, но при записи кириллицы "напрямую", а не через preg_match, всё выглядит нормально. Также нормально выглядит вывод $file.

Пинайте сильнее, потому что я в php полное ламо)
Спасибо.
ЗЫ: капча в форме регистрации - издевательство.

Цитировать

52K

02 августа 2010 года

4 / / 01.10.2009

Скорее всего сайт который ты получаешь file_get_contents не в кириллице, используй iconv

Цитировать

63K

02 августа 2010 года

Кузнецофф

2 / / 02.08.2010

Цитата: arvitaly

Скорее всего сайт который ты получаешь file_get_contents не в кириллице, используй iconv

Трансформация
$file = file_get_contents(...);
в
$file = iconv ('WINDOWS-1251', 'UTF-8', file_get_contents(...));
усугубила ситуацию. Раньше $file хоть выводилось "по-человечески" и парсилось. А вот после трансформации - не парсицо(
Кст, в заголовке страницы таки значицо "charset=UTF-8".

Цитировать

Реклама на сайте | Обмен ссылками | Ссылки | Экспорт (RSS) | Контакты
Добавить статью | Добавить исходник | Добавить хостинг-провайдера | Добавить сайт в каталог