Werkstudent*in Applied Machine Learning & Data Engineering für Sensordaten und Zeitreihen (P

LeadiX GmbH
Jena, Germany
3 days ago

Role details

Contract type
Internship / Graduate position
Employment type
Part-time (≤ 32 hours)
Working hours
Shift work
Languages
English, German
Experience level
Junior

Job location

Jena, Germany

Tech stack

Artificial Intelligence
Automation of Tests
Data Cleansing
Information Engineering
Data Warehousing
JSON
Python
Machine Learning
Metadata
NumPy
Regression Testing
TensorFlow
Serial Communications
Signal Processing
Software Quality Assurance (SQA)
SQLite
Management of Software Versions
Data Logging
Data Processing
Feature Engineering
PyTorch
GIT
Pandas
Matplotlib
Pytest
Information Technology

Job description

Du unterstützt das Projekt KOLOR beim Aufbau eines Workflows, der Sensordaten als mehrkanalige Zeitreihen zuverlässig erfasst, strukturiert speichert und für Auswertung sowie KI-gestützte Interpretation nutzbar macht.

Dein Schwerpunkt liegt an der Schnittstelle von Messdatenerfassung, Referenzdaten und Data Science mit Fokus auf Datenqualität, Reproduzierbarkeit und nachvollziehbarer Evaluation., * Grundbegriffe zu Live-Datenerfassung und Datenstreams, z. B. Logging, Zeitstempelung, serielle Kommunikation.

  • Interesse an Datenqualität, Annotation und Validierungsunterstützung, z. B. Pflege von Referenzdatensätzen und Fehlfallkatalogen.

Machine Learning-Anteil

Applied ML bedeutet bei uns: robuste Baselines und nachvollziehbare Entscheidungslogik auf sauberen Referenzdaten aufbauen und systematisch verbessern. Du arbeitest an reproduzierbaren Trainings- und Evaluationsroutinen (inkl. Fehleranalyse, Confidence-/Abbruchkriterien, Regressionstests) und entwickelst mit zunehmender Datenbasis optional weiter in Richtung Feature Engineering für Zeitreihen und stabilere Modelle.

Optional, wenn du tiefer in KI einsteigen möchtest

  • Grundlagen in Signalverarbeitung für Zeitreihen (Glättung, Normalisierung, Alignment, Feature Engineering).

  • Erfahrung mit einem ML-Framework über scikit-learn hinaus, z. B. PyTorch oder TensorFlow.

Aufgaben (je nach Schwerpunkt, in Absprache)

  • Aufbau und Pflege einer Datenpipeline von Mess-Session bis trainingsfähigem Datensatz, inklusive Metadaten, Blank- und Konsistenzchecks.

  • Konzeption und Pflege lokaler Referenzdaten und Datenformate, inklusive Import/Export und Versionierung.

  • Unterstützung bei Evaluationsroutinen und Fehleranalysen für Abgleich gegen Referenzdaten und Entscheidungslogik.

  • Mitwirkung an Software-Qualitätssicherung, insbesondere Tests für Import/Export und Auswertelogik.

  • Optional: Nähe zur Messdatenerfassung, z. B. konzeptionelle oder praktische Unterstützung bei serieller Live-Auslesung, Zeitstempelung und Logging., Bitte nenne mindestens zwei Schwerpunkte, die dich am meisten interessieren: Datenpipeline, Datenformate, lokale Datenhaltung (z. B. SQLite, CSV/JSON) Zeitreihenaufbereitung, Datenqualität, Annotation, Referenzdaten (Fingerprints) Evaluation, Fehleranalyse, Auswertung und Entscheidungslogik QA und Testautomatisierung für Datenpipelines Nähe zur Messdatenerfassung und Datenstreams (konzeptionell oder praktisch).

Requirements

  • Sehr gute Python-Kenntnisse für Datenaufbereitung und Analyse.

  • Routine mit NumPy und Pandas, inklusive Datenbereinigung, Plausibilitätschecks und nachvollziehbarer Dokumentation.

  • Grundkenntnisse in Evaluation und Fehleranalyse, zum Beispiel Daten-Splits, Metriken, Ausreißer und typische Fehlerfälle.

  • Sicherer Umgang mit Zeitreihen oder messdatenähnlichen Datensätzen, idealerweise inklusive Visualisierung (z. B. matplotlib).

  • Studienrichtung: Data Science, Statistik, Computational Science, Informatik, angewandte Mathematik, Wirtschaftsinformatik (wenn fachlich passend) oder verwandte Fächer.

  • Strukturierte, eigenständige und selbstverantwortliche Arbeitsweise.

  • Motivation, sich wechselnden Herausforderungen in einem lebhaften Startup-Alltag zu stellen.

  • Gute Kommunikationsfähigkeiten auf Deutsch und Englisch in Wort und Schrift.

Von Vorteil

  • Verständnis von Datenmodellen und lokaler Datenhaltung, z. B. SQLite oder vergleichbar.

  • Erfahrung mit Datenformaten und Schnittstellen, z. B. CSV/JSON, Import/Export inklusive Validierung und Versionierung.

  • Erfahrung mit Tests für Datenpipelines (Unit-, Integrations- oder Regressionstests), optional mit pytest.

  • Sauberes Arbeiten mit Git (Branching, Pull Requests).

  • Grundverständnis technischer Datenschutzanforderungen in Datenflüssen und Exporten.

Benefits & conditions

Dich erwartet ein Team, das eng zusammenarbeitet, den direkten Austausch pflegt und Feedback aus der Community aktiv in die Weiterentwicklung einbindet. Flexible Zeiteinteilung passend zum Studium, strukturierte Einarbeitung und Mentoring, sowie die

Möglichkeit, je nach Interesse fachlich zu wachsen, zum Beispiel in Richtung Datenpipeline, Auswertung, Tooling oder Testautomatisierung.

Darüber hinaus arbeitest du in einer gelebten internationalen Startup-Kultur mit flachen Hierarchien, kurzen Entscheidungswegen und offenem Feedback. Wir bieten dir viel Raum für Eigeninitiative sowie die Möglichkeit, deinen Tätigkeitsbereich und das Arbeitsumfeld aktiv mitzugestalten., * Firmenevents

  • Flexible Arbeitszeiten

Arbeitsort: Vor Ort     If you require alternative methods of application or screening, you must approach the employer directly to request this as Indeed is not responsible for the employer's application process.

Apply for this position