Realtime voice / media streaming architect
Role details
Job location
Tech stack
Job description
Abai busca un Ingeniero en 3D/Avatar en Santander, España, para liderar la arquitectura de soluciones IA conversacionales, abarcando desde voice bots hasta streaming multimedia en tiempo real. Se requiere experiencia en ingeniería de software y plataformas de tiempo real., * Diseñar la arquitectura realtime target.
-
Definir el pipeline de audio input/output.
-
Evaluar tecnologías como Web RTC y media servers., ¿Te apasiona crear experiencias web interactivas en tiempo real? En ABAI buscamos un Realtime 3 D/Avatar Engineer para definir y liderar la arquitectura de tiempo real de las soluciones IA conversacionales, especialmente en escenarios de Voice Bot, avatar conversacional, media streaming y experiencia en tiempo real. Responsabilidades
-
Diseñar la arquitectura realtime target.
-
Definir el pipeline de audio input/output.
-
Evaluar Web RTC, Web Socket, SIP, media servers y proveedores STT/TTS.
-
Establecer métricas de latencia por tramo.
-
Coordinar con Platform, Frontend, Avatar Studio y el equipo externo de plataforma conversacional.
-
Definir patrones de resiliencia, fallback, buffering, streaming, gestión de interrupciones, calidad de audio, sincronización con avatar y escalabilidad para llamadas concurrentes.
Requirements
- Más de 8 años de experiencia en ingeniería de software o arquitectura de sistemas.
- Experiencia con voz, streaming y sistemas de baja latencia.
- Nivel nativo de español y B2 de inglés., Diseño de arquitectura reales Integración de sistemas de audio Trabajo con voz y streaming Sistemas de baja latencia
Educación
Ingeniería de software o campo relacionado
Herramientas
Web RTC Node.js Python Docker Kubernetes, * 8+ años de experiencia en ingeniería de software, arquitectura de sistemas o plataformas realtime.
- 3+ años trabajando con voz, streaming, Web RTC, media servers, telefonía, CCaaS, voicebots o sistemas de baja latencia en producción.
- Perfil senior con experiencia demostrable en sistemas realtime, voz, media streaming, arquitectura de baja latencia y servicios conversacionales en producción.
- Debe entender cómo se construyen soluciones de audio en tiempo real y cómo se integran con motores conversacionales, STT, TTS, orquestadores, frontends web y avatares.
- Experiencia real diseñando o escalando sistemas con audio en tiempo real, múltiples proveedores, sesiones concurrentes y requisitos de latencia.
- Muy valorable experiencia en contact center, BPO, telecomunicaciones, asistentes de voz, avatares conversacionales, IA generativa aplicada a voz, STT/TTS, barge-in y sincronización audiovisual.
- Nivel nativo o profesional completo de español.
- Nivel B2 de inglés (documentación técnica, proveedores internacionales, frameworks realtime, cloud/media services y coordinación con equipos técnicos).
Conocimientos específicos
- Web RTC, Web Socket, SIP/RTP, media servers, streaming de audio, STT/TTS, turn detection, barge-in, VAD, diarización o noise handling, sincronización audio/eventos, pipelines de baja latencia, arquitectura de voicebots, integración con contact center/CCaaS, escalabilidad de sesiones concurrentes, observabilidad realtime, manejo de jitter, buffers, codecs, latencia extremo a extremo y diseño de sistemas resilientes., * Web RTC; Web Socket; SIP/RTP; media servers como Live Kit, Janus, mediasoup, Twilio, Daily o equivalentes; STT/TTS como Deepgram, Azure Speech, Google Speech, Eleven Labs, AWS Polly o similares; Vapi, Pipecat u otros frameworks de voice AI;
- Node.js, Go, Python o Type Script;
- Docker; Kubernetes;
- Observabilidad con Open Telemetry, Grafana, Prometheus, Datadog, Cloud Watch o Azure Monitor;
- Herramientas de profiling de latencia, trazas distribuidas, logs estructurados y pruebas de carga/concurrencia.