Tengo un marco de datos con valores repetidos en la columna A. Quiero soltar duplicados, manteniendo la fila con el valor más alto en la columna B.python pandas: Eliminar duplicados por columnas A, manteniendo la fila con el valor más alto en la columna B
Así que esto:
A B
1 10
1 20
2 30
2 40
3 10
debe convertirse en esto:
A B
1 20
2 40
3 10
Wes ha añadido algunas funciones agradable para dejar duplicados: http://wesmckinney.com/blog/?p=340. Pero AFAICT está diseñado para duplicados exactos, por lo que no se mencionan los criterios para seleccionar qué filas se guardan.
Supongo que probablemente exista una manera fácil de hacerlo --- quizás tan fácil como ordenar el dataframe antes de descartar duplicados --- pero no conozco la lógica interna de groupby lo suficiente como para resolverlo. ¿Alguna sugerencia?
Tenga en cuenta que la dirección URL en la pregunta aparece EOL. – DaveL17
Para una forma idiomática y de rendimiento, [consulte esta solución a continuación] (https://stackoverflow.com/a/41650846/3707607). –