fbpx

#04 – Arbeiten mit Dateien

Inhalt
    Add a header to begin generating the table of contents

    Im letzten Teil habe ich dir Colab als alternative rundum-sorglos-Umgebung vorgestellt, mit der du dich ohne Probleme direkt in die Programmierung stürzen kannst!

    Ich hoffe, du hast schon angefangen?!

    Aber was ist, wenn du mit Dateien arbeiten willst?
    Ist ja super, dass alles im Browser läuft, aber wie kannst du auf das neuste Excel mit den Personaldaten zugreifen?
    Oder die Absatzzahlen, die du neulich als CSV Export bekommen hast?
    Immerhin kamen die per E-Mail und liegen bei dir auf der Festplatte …

    Auch das funktioniert sehr komfortabel.
    In den nächsten Minuten zeige ich dir, welche Möglichkeiten du hast und wie einfach es ist, auf Dateien zuzugreifen.

    Auf gehts!

    GitHub lasse ich hier gezielt außen vor, da es eine Versionsverwaltung ist und solche Daten dort nichts verloren haben!

    Dann gibt es noch zwei Möglichkeiten, wie du mit Colab an Dateien kommst:

    • Temporär – Wenn du nur einmal mit einer oder mehreren Dateien arbeiten willst
    • Permanent – Wenn du deine Daten immer wieder brauchst und sauber in Ordnerstrukturen einsortieren möchtest.

    Temporärer Speicher

    Fangen wir mit dem temporären Speicher an.
    Im letzten Video beim Überblick über Colab habe ich dir schon kurz das kleine Ordnersymbol am linken Bildschirmrand gezeigt.

    Ein Klick darauf öffnet die Seitenleiste mit dem Ordner sample_data.
    Hier findest du schonmal ein paar Dateien, mit denen du arbeiten kannst.
    Ich habe mir zum Beispiel einfach die california_housing_test.csv heruntergeladen, um dir jetzt den Upload zu zeigen.

    Um eine Datei hochzuladen, musst du sie einfach nur via Drag & Drop in den freien Bereich unter sample_data ziehen.
    Es erscheint eine kurze Warnmeldung, dass die hochgeladenen Dateien gelöscht werden, sobald diese Umgebung aufgeräumt wird.

    Klick die Meldung einfach weg und du siehst deine Datei.
    Falls nicht, klicke einmal auf das kleine Ordnersymbol mit dem runden Pfeil am oberen Rand.
    Das aktualisiert die Ansicht und die Datei müsste auftauchen.
    Alternativ kannst du auch mit Rechtsklick in den freien Bereich und Refresh die Ansicht aktualisieren.

    Du magst kein Drag&Drop?
    Dann klick einfach auf das Dokument-Symbol links mit dem kleinen Pfeil nach oben.
    Es öffnet sich ein Upload Fenster und du kannst deine Festplatte durchstöbern.

    Mit dem Rechtsklick in den leeren Bereich kannst du auch Dateien hochladen oder einen eigenen Ordner erzeugen, in dem du dann deine Dateien ablegst.

    Laut Google werden Umgebungen nach „einiger Zeit inaktivität“ oder „maximal 12 Stunden“ aufgeräumt.
    Nach meiner Erfahrung sind es eher 30 – 60 Minuten inaktivität.

    Du kannst also sicher sein, nach spätestens 12 Stunden sind die Daten, die du hier hoch lädst, wieder weg.

    Wieviel Speicher dir zur Verfügung steht, siehst du übrigens am unteren Bildschirmrand.

    Zugriff auf temporäre Dateien

    Super, jetzt liegt die Datei also dort bereit.
    Und wie greifen wir darauf zu?
    Einfach als wären wir im selben Verzeichnis.

    import pandas
    daten = pandas.read_csv('california_housing_test.csv')
    daten.head()

    Was genau der Code hier macht, erkläre ich dir mal in einem anderen Video.
    In Kürze: Du gibst die ersten 5 Zeilen der Datei ‘california_housing_test.csv’ aus.

    Willst du also jetzt auf die ‘california_housing_train.csv’ zugreifen, die im Ordner sample_data liegt, gibst du auch einfach so den Pfad an.
    Erst sample_data, dann den Dateinamen:

    import pandas
    daten = pandas.read_csv('sample_data/california_housing_test.csv')
    daten.head()

    Permanenter Speicher

    Wunderbar.
    Temporär mit Dateien arbeiten, klappt also.
    Aber was ist jetzt mit dem permanenten Speicher?
    Du willst ja nicht jedes Mal X Dateien hochladen oder ganze Ordnerstrukturen wiederherstellen.

    Dafür können wir Google Drive anbinden.
    Klick einfach über sample_data auf das dunkle Drive-Symbol.
    Jetzt will das Notebook einmal die Berechtigungen haben, um sich mit Drive zu verbinden.
    Bestätige mit Klick auf „Connect to Google-Drive“.

    Wenn du das zum ersten Mal machst, kann es sein, dass ein kleiner Code-Block erscheint, mit dem Hinweis, dass du ihn ausführen sollst, um die Verbindung herzustellen.
    Sollte das der Fall sein, folge einfach dem Link in der Ausgabe, melde dich mit deinem Google Account an und bestätige die Berechtigungen, die das Notebook auf dein Google Drive haben möchte.
    Dann bekommst du einen Hinweis mit dem authorization code.
    Kopier den Code und schließ den Tab.
    Code in das kleine Fenster einfügen, mit ENTER bestätigen und fertig.
    Jetzt müsstest du eine Meldung Mounted at /content/drive sehen.

    Schau jetzt mal wieder links in die Leiste.
    Da hast du jetzt einen Ordner drive
    Das ist dein Google Drive mit all seinen Inhalten.

    Dateien, die du hier hoch lädst, oder über andere Wege in dein Google Drive bringst, bleiben dort erhalten und werden dir nicht wieder gelöscht.

    Zugriff auf permanente Dateien

    Angenommen du hast die Datei ‘california_housing_test.csv’ auch in deinem Google Drive liegen, dann kannst du so darauf zugreifen:

    import pandas
    daten = pandas.read_csv('/content/drive/MyDrive/california_housing_test.csv')
    daten.head()
    

    Statt mit sample_data fängt dein Pfad jetzt also mit /content/drive/MyDrive/ an.
    Und dann einfach die Ordnerstruktur, die du in deinem Google Drive angelegt hast.

    Zusammenfassung

    Über das kleine Ordnersymbol auf der linken Seite kommst du also an die Dateien ran.

    Ziehst du einfach welche per Drag&Drop in den freien Bereich, werden sie hochgeladen, stehen dir zur Verfügung und werden nach spätestens 12 Stunden automatisch wieder weggeräumt.
    Keine Probleme, kein Aufräumen und trotzdem keine Unordnung 😉

    Ein Klick auf das Google Drive Symbol bindet dein Google Drive an und gibt dir vollen Zugriff auf alle Daten, die du dort hinterlegt hast.
    Hier wird natürlich auch nichts gelöscht oder aufgeräumt.
    Das ist der Ort, an dem du deine Daten permanent verwaltest.

    Willst du auf Dateien zugreifen, machst du das bei temporären Daten so, als wären sie mit deinem Skript im selben Ordner.
    Der Name reicht – fertig.
    Bei Daten in deinem Drive hängst du einfach noch ein /content/drive/MyDrive davor, dann der Name oder die Ordnerstruktur.

    Und war das jetzt so schwer? 😉

    WebScraping Angebot

    Anfang verpasst? Hier gehts zum vollen Kurs:

    Titelbild - Excel zu Python - free
    Picture of Ingo Janßen

    Ingo Janßen

    Lerne nicht einfach programmieren. Löse Probleme und automatisiere Aufgaben!

    Das könnte dich auch interessieren

    Nach oben scrollen
    Newsletter Popup Form

    Keine Inhalte mehr verpassen?

    Melde dich direkt für den "Code-Kompass" an und erhalte nützliche Tipps und Informationen direkt in deinen Posteingang.