bash поиск одинаковых файлов.
Господа, подскажите скриптик для поиска одинаковых файлов по содержанию (имена могут быть разные). Я как понимаю, команда find плюс еще что-то, в общем я нуб, помогите!
Прямо из коробки, НЯП, find не ищет одинаковые файлы
Могу предложить идею алгоритма: посчитать от всех файлов хеши, остортировать по хешам, за один проход найти файлы с одинаковыми хешами и уже их сравнивать через diff.
Скрипт должен:
1) пройтись по дереву каталогов и составить список путей к файлам
2) к каждому пути в начало дописать md5sum от файла
3) отсортировать через sort
4) в цикле сравнивать ключи, а для совпадающих - файлы через diff
Зачем для совпадающих MD5 еще и diff делать?
Цитата: Samorano
Зачем для совпадающих MD5 еще и diff делать?
В теории MD5 у различных файлов может совпасть. Это маловероятно, но для большей надёжности не помешает сравнить побайтово.