同一内容を検索・識別するんじゃなくて、
ファイルコピー動作とかを認識して重複排除するとかできないんだろうか?
最近読みだしたデータに限って同一判定するとか。