Zeilen über Join validieren
Ein weiteres Beispiel für das Filtern von Daten ist die Verwendung von Joins, um ungültige Einträge zu entfernen. Du musst überprüfen, ob die Ordnernamen wie erwartet sind, indem du einen DataFrame mit dem Namen valid_folders_df verwendest. Der DataFrame split_df ist so, wie du ihn zuletzt verlassen hast, mit einer Gruppe von geteilten Spalten.
Das Objekt spark ist verfügbar, und pyspark.sql.functions wird als F importiert.
Diese Übung ist Teil des Kurses
Daten bereinigen mit PySpark
Anleitung zur Übung
- Benenne die Spalte
_c0im DataFramevalid_folders_dfinfolderum. - Zähle die Anzahl der Zeilen in
split_df. - Verbinde die beiden DataFrames über den Ordnernamen und nenne den resultierenden DataFrame
joined_df. Achte darauf, dass du den kleineren DataFrame sendest. - Überprüfe die Anzahl der verbleibenden Zeilen im DataFrame und vergleiche.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Rename the column in valid_folders_df
valid_folders_df = ____
# Count the number of rows in split_df
split_count = ____
# Join the DataFrames
joined_df = split_df.____(____(valid_folders_df), "folder")
# Compare the number of rows remaining
joined_count = ____
print("Before: %d\nAfter: %d" % (split_count, joined_count))