Ingeniero de datos
Role details
Job location
Tech stack
Job description
Actualmente, estamos buscando 2 Ingenieros de Datos Mid-Level con experiencia en entornos Big Data sobre Cloudera para diseñar, desarrollar y mantener pipelines de datos escalables en el sector sanitario., Diseñar, desarrollar y desplegar pipelines de datos y su orquestación con Spark, PySpark, Python, Scala, Hive/Impala, Kudu, NiFi, Kafka, Oozie/Airflow.
Definir y mantener modelos de datos óptimos para analítica, reporting e IA con Parquet, Iceberg, Hive y Kudu.
Diseñar queries de extracción de datos con SQL en Hive / Impala.
Automatizar pruebas unitarias, de integración y CI/CD con Git, GitLab.
Preparar Datos con calidad para casos de uso de IA.
Colaborar estrechamente con Data Scientists y el equipo de Gobierno del Dato para disponibilizar datos para casos de uso.
Requirements
Titulación: Ingeniería en Informática, biomédica, Telecomunicaciones, Matemáticas, Físicas o similar., Al menos 2 años de experiencia construyendo ETL en entornos Big Data productivos.
Experiencia con Cloudera Data Platform y herramientas asociadas ( Spark , HDFS, Nifi, Kafka , yarn, Hive, Impala) .
Dominio de Python y/o Scala, SQL y Shell Scripting.
Conocimientos de herramientas de desarrollo como Maven, IntelliJ IDEA, Jupyter Notebooks, Git y GitLab.
Gestión de flujos de streaming con Kafka y de ingestión con NiFi.
Uso habitual de metodologías ágiles como Kanban y gestión de tareas en Jira.
Conocimiento de Confluence para documentación.
Competencias especificas:
Conocimiento de Datos de Salud
Familiaridad con estándares HL7/FHIR. Codificaciones Medicas CIE-10 y antología SNOMED-CT
Certificación de Cloudera (Generalist, Data Operator ) o similar.
Benefits & conditions
Empleo estable en un sector con un gran potencial de desarrollo. -Beneficios sociales (seguro médico y cheque comida). -Formación continua para tu desarrollo profesional. -Flexibilidad laboral. -Modelo híbrido de trabajo (con gran % de jornada en formato teletrabajo).