pandy

Jak usunąć zduplikowane wiersze w Pythonie Pandas

Jak usunąć zduplikowane wiersze w Pythonie Pandas
Python jest jednym z najpopularniejszych języków programowania do analizy danych, a także obsługuje różne pakiety zorientowane na dane w Pythonie. Pakiety Pandas to jedne z najpopularniejszych pakietów Pythona, które można importować do analizy danych. W prawie wszystkich zestawach danych często występują zduplikowane wiersze, co może powodować problemy podczas analizy danych lub operacji arytmetycznych. Najlepszym podejściem do analizy danych jest zidentyfikowanie zduplikowanych wierszy i usunięcie ich z zestawu danych. Używając funkcji Pandas drop_duplicates(), możesz łatwo upuścić lub usunąć zduplikowane rekordy z ramki danych.
Ten artykuł pokazuje, jak znaleźć duplikaty w danych i usunąć duplikaty za pomocą funkcji Pandas Python.

W tym artykule wzięliśmy zbiór danych o populacji różnych stanów w Stanach Zjednoczonych, który jest dostępny w kilku językach .format pliku csv. Przeczytamy .plik csv, aby pokazać oryginalną zawartość tego pliku w następujący sposób:

importuj pandy jako PD
stan_df=pd.read_csv("C:/Użytkownicy/DELL/Pulpit/population_ds.csv")
drukuj(stan_df)

Na poniższym zrzucie ekranu możesz zobaczyć zduplikowaną zawartość tego pliku:

Identyfikowanie duplikatów w Pandas Python

Konieczne jest ustalenie, czy dane, których używasz, zawierają zduplikowane wiersze. Aby sprawdzić duplikację danych, możesz użyć dowolnej z metod opisanych w poniższych sekcjach.

Metoda 1:

Przeczytaj plik csv i przekaż go do ramki danych. Następnie zidentyfikuj zduplikowane wiersze za pomocą zduplikowane() funkcjonować. Na koniec użyj instrukcji print, aby wyświetlić zduplikowane wiersze.

importuj pandy jako PD
df_state=pd.read_csv("C:/Użytkownicy/DELL/Pulpit/population_ds.csv")
Dup_Rows = stan_df[stan_df.zduplikowane()]
print("\n\nPowiel wiersze: \n ".format(Dup_Row))

Metoda 2:

Korzystając z tej metody, jest_zduplikowany kolumna zostanie dodana na końcu tabeli i oznaczona jako 'True' w przypadku powielania wierszy.

importuj pandy jako PD
df_state=pd.read_csv("C:/Użytkownicy/DELL/Pulpit/population_ds.csv")
df_state["jest_duplikat"]= df_state.zduplikowane()
print("\n ".format(stan_df))

Upuszczanie duplikatów w Pythonie Pandy

Zduplikowane wiersze można usunąć z ramki danych przy użyciu następującej składni:
drop_duplicates(subset=, keep=, inplace=false)
Powyższe trzy parametry są opcjonalne i zostały szczegółowo wyjaśnione poniżej:
trzymać: ten parametr ma trzy różne wartości: First, Last i False. Wartość First zachowuje pierwsze wystąpienie i usuwa kolejne duplikaty, wartość Last zachowuje tylko ostatnie wystąpienie i usuwa wszystkie poprzednie duplikaty, a wartość False usuwa wszystkie zduplikowane wiersze.
podzbiór: etykieta używana do identyfikacji zduplikowanych wierszy
w miejscu: zawiera dwa warunki: Prawda i Fałsz. Ten parametr usunie zduplikowane wiersze, jeśli jest ustawiony na True.

Usuń duplikaty, zachowując tylko pierwsze wystąpienie

Kiedy użyjesz „keep=first”, tylko pierwsze wystąpienie wiersza zostanie zachowane, a wszystkie inne duplikaty zostaną usunięte.

Przykład

W tym przykładzie zostanie zachowany tylko pierwszy wiersz, a pozostałe duplikaty zostaną usunięte:

importuj pandy jako PD
stan_df=pd.read_csv("C:/Użytkownicy/DELL/Pulpit/population_ds.csv")
Dup_Rows = stan_df[stan_df.zduplikowane()]
print("\n\nPowiel wiersze : \n ".format(Dup_Row))
DF_RM_DUP = stan_df.drop_duplicates(keep='pierwszy')
print('\n\nResult DataFrame po usunięciu duplikatu :\n', DF_RM_DUP.głowa (n=5))

Na poniższym zrzucie ekranu zachowane wystąpienie pierwszego wiersza jest podświetlone na czerwono, a pozostałe duplikaty są usuwane:

Usuń duplikaty zachowując tylko ostatnie wystąpienie O

Gdy użyjesz „keep=last”, wszystkie zduplikowane wiersze z wyjątkiem ostatniego wystąpienia zostaną usunięte.

Przykład

W poniższym przykładzie wszystkie zduplikowane wiersze są usuwane z wyjątkiem ostatniego wystąpienia.

importuj pandy jako PD
df_state=pd.read_csv("C:/Użytkownicy/DELL/Pulpit/population_ds.csv")
Dup_Rows = stan_df[stan_df.zduplikowane()]
print("\n\nPowiel wiersze : \n ".format(Dup_Row))
DF_RM_DUP = stan_df.drop_duplicates(keep='ostatni')
print('\n\nResult DataFrame po usunięciu duplikatu :\n', DF_RM_DUP.głowa (n=5))

Na poniższej ilustracji duplikaty są usuwane i zachowywane jest tylko ostatnie wystąpienie wiersza:

Usuń wszystkie zduplikowane wiersze

Aby usunąć wszystkie zduplikowane wiersze z tabeli, ustaw „keep=False” w następujący sposób:

importuj pandy jako PD
df_state=pd.read_csv("C:/Użytkownicy/DELL/Pulpit/population_ds.csv")
Dup_Rows = stan_df[stan_df.zduplikowane()]
print("\n\nPowiel wiersze: \n ".format(Dup_Row))
DF_RM_DUP = stan_df.drop_duplicates(zachowaj=Fałsz)
print('\n\nResult DataFrame po usunięciu duplikatu :\n', DF_RM_DUP.głowa (n=5))

Jak widać na poniższym obrazku, wszystkie duplikaty są usuwane z ramki danych:

Usuń powiązane duplikaty z określonej kolumny

Domyślnie funkcja sprawdza wszystkie zduplikowane wiersze ze wszystkich kolumn w danej ramce danych. Ale możesz również określić nazwę kolumny za pomocą parametru podzbioru.

Przykład

W poniższym przykładzie wszystkie powiązane duplikaty są usuwane z kolumny „Stany”.

importuj pandy jako PD
df_state=pd.read_csv("C:/Użytkownicy/DELL/Pulpit/population_ds.csv")
Dup_Rows = stan_df[stan_df.zduplikowane()]
print("\n\nPowiel wiersze : \n ".format(Dup_Row))
DF_RM_DUP = stan_df.drop_duplicates(subset='Stan')
print('\n\nResult DataFrame po usunięciu duplikatu :\n', DF_RM_DUP.głowa (n=6))

Wniosek

W tym artykule pokazano, jak usunąć zduplikowane wiersze z ramki danych za pomocą drop_duplikaty() funkcja w Pythonie Pandy. Korzystając z tej funkcji, możesz również usunąć powielanie lub nadmiarowość danych. W artykule pokazano również, jak zidentyfikować duplikaty w ramce danych.

Emulate Mouse clicks by hovering using Clickless Mouse in Windows 10
Using a mouse or keyboard in the wrong posture of excessive usage can result in a lot of health issues, including strain, carpal tunnel syndrome, and ...
Add Mouse gestures to Windows 10 using these free tools
In recent years computers and operating systems have greatly evolved. There was a time when users had to use commands to navigate through file manager...
Control & manage mouse movement between multiple monitors in Windows 10
Dual Display Mouse Manager lets you control & configure mouse movement between multiple monitors, by slowing down its movements near the border. Windo...