Задача: поиск записей одинаковых по смыслу, но разных по форме записи.
Мне нужно найти область науки о базах данных занимающююся этой проблематикой (описание проблемы ниже). Как данная проблема правильно называется в академических кругах, под каким названием она упоминается в литературе. О конкретных публикациях\книгах\алгоритмах я даже не мечтаю ибо область оч спецефическая.
Проблема формулируется так:
Есть несколько БД информация в которых (в следствии разных её источников) записана по-разному т.е. в другом формате или просто с ошибкой, а может быть даже и на транслите или с частичной заменой букв цифрами.
Нужно эти базы данных свести воедино т.е. уствновить соответсвие между инфой записанной по-разному.
Например: есть три БД
- в одной БД предприятие числится как "ОАО Укртелеком", приобрело "5" едениц продукции.
- во второй числится как "Отркрытое Акционерное Общество Укрт3лек0м", приобрело "3" ед. продукции
- в третей числится как "OAO Ukrtelekom", приобрело "2" ед. прод.
А после анализа в новой БД должно быть "ОАО Укртелеком", приобрело "10" (5+2+3) ед. прод.
Пожалуйста, дорогие друзья, помогите понять где искать инфу. Пишу диплом, это одна из проблемных областей, сроки горят, а я даже не представляю куда копать...
Это слишком общее понятие... В нем можно блукать очень долго.