Дублированная информация
Я не уверен, что пишу свой вопрос в нужную ветку форума, но ничего более подходящего я не нашел.
У меня есть такая задача:
Существует большьшая папка (порядка 10 Гб) с вложенными папками (глубиной до 10 папок) с большим количеством данных: в основном PDF, PPT, DOC, XLS, архивы (!), но и другие тоже есть.
Эта папка заполнялась разными людьми в разное время, поэтому информация в ней дублирована.
Необходимо найти дублированную информацию:
- по совпадению конрольной суммы (по-видимому с точностью совпанения не выше 70%);
- по совпадению имени, но с различными датами и расщирениями;
- как-нибудь еще;
- лучше найти больше совпадений, т.к. окончательное решение о перемещении файлов будет приниматься человеком;
- да, надо организовать поиск еще и в архивах.
Можете ли посоветовать что-нибудь для некоторой автоматизации процесса? Или это дохлый номер?
За ранее спасибо!