Pierwszym problemem będzie tzw. deduplikacja równościowa. Zakładamy w niej że wybrane przez nas pola muszą być identyczne by zaklasyfikować przykłady jako takie same. W powyższym przykładzie widzimy że rekordy o numerach 1 , 4, 6 przedstawiają tę samą informację, podobnie jak rekordy 2 i 7. W naszym przypadku wszystkie pola (poza Id z oczywistych względów) się pokrywają, jednak moglibyśmy sobie łatwo również wyobrazić sytuację w której wybieramy kilka pół kluczowych, po których rozpoznajemy że przykłady są różne (np: pole Dodatkowe informacje mogłoby być uznane za zbędne i nie rozróżniające przykładów). Przedstawimy teraz dwa, najprostsze sposoby radzenia sobie w takich sytuacjach. Pierwszym z nich jest wykorzystanie narzędzia Unique z pakietu Preparation.
Zaznaczmy w panelu wszystkie pola prócz Id jako unikalne. Narzędzie pod wyjściem U umieści wszystkie, pierwsze w kolejności, unikalne wystąpienia rekordów: