индексирование данных для поиска
1. Выкусываю хтмл-теги
2. Привожу все к нижнему регистру
3. удаляю все предлоги (все слова, у которых длина меньше 3 символов)
при этом у меня два вопроса:
1. Встречал сервера, на которых strtolower для русского текста не срабатывает. Даже при установке русской локали. Может какой-то другой способ есть привести все к нижнему регистру? Сайт в кодировке win1251. Но в перспективе возможен переход на utf-8
2. Как написать регулярное выражение, чтобы оно выкусывало все слова, в которых меньше 3-ех сиволов
Рекоммендую сходить сюда:
Цитата:
Originally posted by Cker
2. Как написать регулярное выражение, чтобы оно выкусывало все слова, в которых меньше 3-ех сиволов
2. Как написать регулярное выражение, чтобы оно выкусывало все слова, в которых меньше 3-ех сиволов
Легко. Надо указать что-то вроде:
Код:
[a-zA-Z0-9а-яА-Я]{4,}
Цитата:
Originally posted by Yurec
Рекоммендую сходить сюда:
http://www.codenet.ru/webmast/php/PHP-Search.php
тут всё подробно.
Рекоммендую сходить сюда:
http://www.codenet.ru/webmast/php/PHP-Search.php
тут всё подробно.
хорошая статейка
а есть что-нибудь с использованием MySQl. Я делаю на пхп инсерты. А может как-то можно на уровне MySQL все сделать? Ну или не все, а хотя-бы большую часть
и все-таки осталась проблема с переводом русских букв из верхнего регистра в нижний
Цитата:
Originally posted by Cker
и все-таки осталась проблема с переводом русских букв из верхнего регистра в нижний
и все-таки осталась проблема с переводом русских букв из верхнего регистра в нижний
Обычным регулярным выражением. Можно сообразить даже что-то негромоздкое.