Data Scientist - Knime

Westhouse Consulting GmbH
Frankfurt am Main, Germany
4 days ago

Role details

Contract type
Permanent contract
Employment type
Full-time (> 32 hours)
Working hours
Regular working hours
Languages
German
Experience level
Senior

Job location

Frankfurt am Main, Germany

Tech stack

Artificial Intelligence
Amazon Web Services (AWS)
Data analysis
Azure
Continuous Integration
Data Integrity
ETL
KNIME
Azure
Azure
Data Streaming
Feature Engineering
Spark
Data Lake
PySpark
Data Management
Machine Learning Operations
Databricks

Job description

  • Beratung und Durchführung der Architekturkonzeption für ein einheitliches, skalierbares und sicheres Data-Lakehouse auf Basis von Azure Databricks unter Berücksichtigung von Performance-, Sicherheits-, Governance- und Betriebsanforderungen
  • Erarbeitung und Umsetzung einer Zielarchitektur für ein cloudbasiertes Data Lakehouse einschließlich logischer und physischer Architektur, Schichtenmodell (z. B. Bronze/Silver/Gold), Mandantenfähigkeit und Erweiterbarkeit
  • Durchführung des technischen Aufbaus und der Konfiguration der Data-Lakehouse-Plattform in Azure Databricks, einschließlich Workspace-Strukturen, Zugriffsmodellen, Unity Catalog, Identitäts- und Berechtigungskonzepten (Azure Active Directory)
  • Konzeption und Umsetzung der Nutzung zentraler Speichersysteme (Azure Data Lake Storage Gen2 und AWS S3) als persistente Datenebene für strukturierte, semi-strukturierte und unstrukturierte Da-ten
  • Beratung und Durchführung der Migration der bestehenden KNIME Analytics Platform und des KNIME Business Hub in die Zielarchitektur, einschließlich Analyse der bestehenden Workflows, Abhängigkeiten und Betriebsmodelle
  • Erarbeitung und Umsetzung eines Migrationskonzepts für KNIME-basierte Datenverarbeitungspro-zesse unter Berücksichtigung von Datenintegrität, Nachvollziehbarkeit, Performance und Betriebsstabilität
  • Durchführung der technischen Anpassung und Transformation bestehender Analyse- und Datenverarbeitungslogiken zur Integration in das Data-Lakehouse-Konzept (z. B. Ablösung oder Neustrukturierung von KNIME-Workflows)
  • Erarbeitung und Standardisierung von Workflow-, Pipeline- und Komponenten-Templates zur einheitlichen Entwicklung, Wartung und Erweiterung von Datenverarbeitungsprozessen (z. B. ETL/ELT, Batch- und Streaming-Verarbeitung)
  • Durchführung der Automatisierung von Entwicklungs-, Test- und Bereitstellungsprozessen (z. B. CI/CD) für Datenpipelines, Konfigurationsartefakte und Plattformkomponenten
  • Konzeption und Umsetzung von Betriebs-, Monitoring- und Fehlerbehandlungsmechanismen für die Data-Lakehouse-Plattform und die migrierten Analyseprozesse
  • Erarbeitung von Dokumentationen, Architektur- und Betriebskonzepten zur nachhaltigen Nutzung, Erweiterung und Wartung der Plattform
  • Durchführung von Workshops und Wissenstransfermaßnahmen zur Vermittlung der Zielarchitektur, Migrationsansätze, Standards und Best Practices im Kontext Data Lakehouse und KNIME-Migration

Requirements

  • (MUSS) 5 Jahre Erfahrung im Umgang mit Databricks (Workspace, Notebooks, MLflow, Delta Lake, Datenvirtuali-sierung und Data-Sharing-Konzepten)
  • (MUSS) 5 Jahre Erfahrung mit typische Senior-Data-Scientist-Aufgaben im Customer-Analytics-Um-feld (z. B. Entwicklung und Operationalisierung von ML-Modellen, Feature Engineering, Modellvalidierung und -überwachung, Aufbau produktionsreifer ML-Pipe-lines, Migration analytischer Workloads von KNIME nach Azure Databricks, Anwendung der Medallion-Architektur sowie Einsatz von MLflow/MLOps)
  • (MUSS) Erfahrung in der Architektur und Umsetzung produktiver KI-Lösungen auf Databricks Azure aus 5 Projekten
  • (MUSS) 5 Jahre Erfahrung in den im Technologiekatalog geforderten Bereichen eines Senior Data Scientist (z. B. Spark/PySpark, Azure Databricks/Delta Lake, MLflow/MLOps, Feature Engineering (Feature Store, PySpark, Dataframes, ETL-Prozesse, Datenmodellierung)
  • (SOLL) Besitz des ML Engineer Badge von Databricks
  • (SOLL) 5 Jahre Erfahrung in der Implementierung von Data- und ML-Governance auf Basis von Azure Databricks, einschließlich Nutzung der MLflow Model Re-gistry mit Freigabe-/Approval-Workflows, Monitoring sowie Er-kennung und Management von Modell-Drift und Bias.
  • (SOLL) Deutsch in Wort und Schrift - Level B2 / C1 / C2 etc. oder äquivalent.

Apply for this position