Tengo un archivo csv como esto:¿Cómo eliminar duplicados en un archivo csv basado en dos columnas?
column1 column2
john kerry
adam stephenson
ashley hudson
john kerry
etc..
Quiero eliminar los duplicados de este archivo, para obtener sólo:
column1 column2
john kerry
adam stephenson
ashley hudson
Escribí este script que elimina los duplicados basado en apellidos, pero necesita eliminar duplicados basados en apellidos Y nombre.
import csv
reader=csv.reader(open('myfilewithduplicates.csv', 'r'), delimiter=',')
writer=csv.writer(open('myfilewithoutduplicates.csv', 'w'), delimiter=',')
lastnames = set()
for row in reader:
if row[1] not in lastnames:
writer.writerow(row)
lastnames.add(row[1])
"Escribí esta secuencia de comandos que elimina los duplicados en función de los nombres, pero necesito eliminar los duplicados según el nombre Y el nombre." Estoy confundido aquí. Cuando dices nombre, ¿te refieres al primer nombre, apellido o una concatenación? Tu script solo funciona con los apellidos. – Jeff
Lo siento por no estar claro, quiero eliminar duplicados basados en los apellidos (columna2) y los primeros nombres (columna1) – Reveclair