Werkstudent im Bereich Datenpipeline-Entwicklung und Cloud-Automatisierung
Role details
Job location
Tech stack
Job description
- Implementierung von ETL-Pipelines: Entwurf, Entwicklung und Verwaltung skalierbarer ETL-Pipelines. Abwicklung von Workflows zur Datenextraktion, -transformation und -ladung, um einen effizienten Datenfluss und eine effiziente Datenverarbeitung sicherzustellen
- Erstellung von Unit-Tests in Python: Erstellung umfassender Unit-Tests in Python, um sicherzustellen, dass die Datenverarbeitungsschritte korrekt und effizient funktionieren. Zudem die Konsistenz und Zuverlässigkeit der ETL-Prozesse gewährleisten
- Integration von bestehendem Python-Code in ETL-Pipelines: Intergration von bereits vorhandenen Python-Codes nahtlos in die ETL-Pipelines innerhalb von Docker-Containern, um modulare und wiederverwendbare Codierungspraktiken zu ermöglichen
- Entwicklung einer Web-Benutzeroberfläche für die Datenspeicherung in S3: Erstellung einer benutzerfreundlichen Web-Benutzeroberfläche zur Interaktion mit und Verwaltung von in S3 gespeicherten Daten. Diese sollte Funktionen wie das Hochladen, Abrufen und Visualisieren gespeicherter Daten umfassen
- Bereitstellung und Verwaltung: Sie stellen Docker-Container bereit, in denen ETL-Pipelines in einer Kubernetes-Umgebung ausgeführt werden, um eine effiziente Ressourcennutzung und hohe Verfügbarkeit sicherzustellen. Außerdem Lebenszyklus und die Orchestrierung der Container verwalten
Requirements
Die Stelle umfasst die Implementierung skalierbarer ETL-Pipelines unter Verwendung eines geeigneten Frameworks (z. B. Apache Airflow) sowie die Integration von bestehendem Python-Code in Docker-Container. Sie erstellen umfassende Unit-Tests und entwickeln eine benutzerfreundliche Web-UI zur Verwaltung der in S3-Speichern abgelegten Daten. Darüber hinaus sind Erfahrungen mit Docker, Git und grundlegenden ETL-Prozessen sowie Kenntnisse in der Bereitstellung und Verwaltung von Docker-Containern in einer Kubernetes-Umgebung erforderlich. Diese Stelle ist ideal für Studierende im Bachelor- oder Masterstudiengang der Informatik oder eines verwandten Fachgebiets., * Eingeschrieben in einem Bachelor- oder Masterstudiengang in Informatik oder einem verwandten Fachgebiet
- Erfahrung mit Docker: Sicherer Umgang mit der Erstellung, Verwaltung und Bereitstellung von Docker-Containern sowie Verständnis für Docker-Dateien und Best Practices
- Erfahrung mit Git: Fundierte Kenntnisse in der Verwendung von Git zur Versionskontrolle, einschließlich Branching, Merging und der Bearbeitung von Pull-Anfragen
- Grundkenntnisse in ETL-Prozessen und Datenmanagement-Tools.
- Erfahrung mit Workflow-Automatisierung und Kubernetes (von Vorteil)