Dec 12, 2025
Von Fadel Arnaout, MSc Health Professions Education / BSc Nursing,
Umschüler zum Fachinformatiker für Daten- und Prozessanalyse (IHK Berlin),
Praktikant am Institut für Medizinische Informatik, Charité – Universitätsmedizin Berlin
Fadel Arnaout ist ausgebildete Pflegefachkraft. Seit Sommer 2025 absolviert er ein Praktikum im Projekt KIP-SDM an der Charité – Universitätsmedizin Berlin.
Dies ist der zweite Eintrag seiner Reise in die Welt der Nursing Analytics.
Wenn Daten anfangen, ein Bild zu ergeben
Dieser Beitrag richtet sich an Leser:innen aus Pflege, Pflegeinformatik und Nursing Analytics, die sich dafür interessieren, wie pflegerische Routinedaten analysierbar werden – und welche praktischen Herausforderungen dabei im klinischen Alltag auftreten.
Seit einigen Wochen arbeite ich intensiver mit anonymisierten Routinedaten der Charité – und langsam entsteht ein klareres Verständnis dafür, wie Pflegepraxis und Datenstrukturen miteinander zusammenhängen. Was anfangs wie ein unüberschaubares Netz aus Tabellen wirkte, wird etwas fassbarer. Gleichzeitig merke ich aber auch, wie schnell man sich in der Realität verirren kann: zu viele Notebooks, unterschiedlich benannt, manche unvollständig, manche versehentlich überschrieben.
Im Unterricht wusste ich natürlich, dass Dateien sauber benannt werden sollen – aber im echten Arbeitsalltag wird dieses „Best Practice“ nicht immer konsequent umgesetzt. Und genau das führt dazu, dass Analysen verschwinden, Schritte doppelt gemacht werden müssen und man manche Dinge neu aufbauen muss.
Vom Ausprobieren zu einem echten Workflow
Im zweiten Monat habe ich nach und nach einen vollständigen Workflow aufgebaut – Datenimport, Bereinigung, Mapping, erste statistische Auswertungen und Visualisierungen.
Dabei habe ich gemerkt, wie komplex Routinedaten wirklich sind:
Datumsangaben, die in Sekunden seit 1970 gespeichert sind
fehlende Werte, die Interpretation und Analysen erschweren
Variablen, die je nach Tabelle etwas anderes bedeuten
Dokumentation, die Lücken hat und dadurch erst verstanden werden muss
Um mit dieser Komplexität strukturiert umzugehen, habe ich mich dabei konsequent an CRISP-DM als Best-Practice-Modell im Data Science orientiert. Die Arbeitsschritte ließen sich dabei klar den Phasen Business Understanding, Data Understanding, Data Preparation, Modeling, Evaluation und Deployment zuordnen und gaben meiner Analyse eine verlässliche Struktur.
Auch die Auswahl der passenden deskriptiven und inferenzstatistischen Methoden war eine Herausforderung: Was ist sinnvoll? Was ist interpretierbar?
Und selbst Grafiken sind nicht einfach „schön“, sondern müssen inhaltlich passen und die Daten korrekt darstellen.
Mein pflegerisches Wissen hat hier oft geholfen – weniger technisch, aber dafür kontextbezogen.
Ein konkretes Beispiel dafür waren Zeitangaben, die als Sekunden seit dem Jahr 1970 gespeichert waren. Für den Umgang mit solchen Datumsformaten gibt es etablierte Best Practices, etwa die explizite Identifikation des zugrunde liegenden Zeitformats und eine standardisierte Umwandlung mit dafür vorgesehenen Funktionen. Ich habe mich bewusst an diesen Best-Practice-Ansätzen orientiert und die technische Umrechnung anschließend inhaltlich überprüft. Erst durch Plausibilitätsprüfungen im klinischen Kontext ließ sich beurteilen, ob die Ergebnisse sinnvoll interpretierbar sind: Passt ein Zeitstempel zum Ablauf eines stationären Aufenthalts? Ergibt das berechnete Alter einer Patientin oder eines Patienten Sinn? Hier war es entscheidend, die Daten nicht nur rechnerisch, sondern auch im klinischen Kontext zu betrachten.
Meine Learnings im zweiten Monat
Struktur schafft Orientierung.
Und fehlende Struktur sorgt für Chaos – besonders bei vielen Notebooks.Benennung ist nicht trivial.
Falsch benannte oder gelöschte Dateien führen schnell zu doppelter Arbeit.Datenbereinigung ist anspruchsvoller als gedacht.
Datumsformate, fehlende Werte und Inkonsistenzen brauchen Zeit und Verständnis.Statistik braucht Entscheidungen.
Welche Methode wann sinnvoll ist, ist eine eigene Lernkurve.Visualisierung ist ein Prozess.
Grafiken müssen technisch korrekt und fachlich sinnvoll sein.Pflegewissen bleibt entscheidend.
Es hilft, Muster einzuordnen und Daten im klinischen Kontext zu verstehen.
Ausblick
In den kommenden Wochen möchte ich genauer untersuchen, wie zuverlässig Sturzrisiken dokumentiert werden und welche Unterschiede zwischen Patientengruppen bestehen.
Außerdem werde ich mich erstmals intensiver mit Vorhersagemodellen beschäftigen. Ein Machine-Learning-Modell auf große klinische Datensätze anzuwenden, ist ein spannender nächster Schritt – und sicher herausfordernd.
Ich bin gespannt, wie komplex es wird – und wie mein erstes Modell performt 😊