Aufgabenschwerpunkte:
- Eigenständige Umsetzung von Use Cases von der Idee bis zum produktiven Einsatz
- Entwicklung und Integration von AI-gestützten Anwendungen in bestehende Systeme
- Übersetzung von Business-Anforderungen in technische Lösungen
- Auswahl und Kombination geeigneter Technologien und Plattformen
- Mitarbeit an größeren IT- und Digitalisierungsprojekten
- Zusammenarbeit mit internen Stakeholdern und externen Partnern
- Beitrag zur Weiterentwicklung einer zentralen Datenplattform
- Sicherstellung von Qualität, Wartbarkeit und Governance-Konformität
|
YOUR RESPONSIBILITIES
- Design and implement backend services for an incident‑automation platform, including telemetry processing, orchestration, workflow execution, case/ticket integrations, and platform APIs
- Evolve the current architecture from tightly coupled workflows and database‑driven logic to a modular, event‑driven, and scalable backend platform
- Build and maintain reliable integrations with charger telemetry, ticketing/case systems, service workflows, and customer‑facing product components
- Improve workflow reliability, idempotency, retry mechanisms, state management, error handling, and auditability across automated playbooks
- Collaborate with product, service, R&D, and data engineering teams to translate operational playbooks into maintainable backend capabilities
- Contribute to technical decisions on rules/policy handling, workflow orchestration, context modeling, observability, and system scalability
- Support the implementation of secure, governed, and monitorable AI/agent‑based backend capabilities where appropriate
- Help define engineering standards, testing strategies, deployment patterns, and the long‑term backend architecture
|
Positionsübersicht
- Bereitstellung, Konfiguration und Wartung von heterogenen Compute-Clustern (CPU/GPU) an mehreren physischen Standorten
- Implementierung von dynamischem Compute- und Storage-Provisioning auf Basis von Workload-Anforderungen
- Entwicklung von Speicherlösungen sowohl auf Hardware- als auch auf Softwareebene (NAS, verteilte Dateisysteme, Storage Tiering)
- Implementierung und Verwaltung von Container-Orchestrierungssystemen (Kubernetes, Docker) für Entwicklungs- und Produktions-Workloads
- Entwurf und Wartung von Infrastruktur als Code mit Tools wie Terraform und Ansible
- Aufbau und Optimierung von Systemen zur Auftragsplanung und Ressourcenzuweisung (Slurm, Kubernetes)
- Einrichtung einer Infrastruktur für Überwachung, Alarmierung und Beobachtung (Prometheus, Grafana, IPMI)
- Profilierung und Optimierung der Leistung auf Systemebene: GPU-Auslastung, Speicherbandbreite, I/O-Durchsatz, Netzwerklatenz
- Verwalten von Netzwerken, VPNs und sicherem Zugriff über verteilte Systeme hinweg
- Handhabung von Zuverlässigkeitsaspekten: Erkennung von Hardwareausfällen, Checkpointing von Jobs, Disaster Recovery
|
Positionsübersicht
- Entwurf und Verwaltung von Datenspeichersystemen für große Datensätze (Multi-TB-Bilddaten, 3D-Assets, Trainingsdaten)
- Entwicklung effizienter Datenzugriffsmuster und Bewegungsstrategien für verteiltes Training und Experimentieren
- Implementierung der Versionierung von Datensätzen und Verfolgung der Abstammung für die Reproduzierbarkeit
- Einrichtung und Pflege der Infrastruktur für Experimentverfolgung und Modellregistrierung (MLflow, Weights & Biases)
- Aufbau von ML-Pipelines für Datenvorverarbeitung, Training, Validierung und Modellregistrierung (Kubeflow, Airflow, Prefect)
- Unterstützung verteilter Trainingsworkflows über Multi-GPU-Cluster (PyTorch Distributed, Horovod, Ray)
- Profilierung und Optimierung von Trainingspipelines: Engpässe beim Laden von Daten, Batch-Sizing, GPU-Speicherauslastung
- Sicherstellung der Reproduzierbarkeit von Experimenten: Umgebungspinning, Datenversionierung, Artefaktmanagement
- Verwaltung der Speicherung und Verteilung von Artefakten (Docker-Registrierungen, Modell-Registrierungen, Paket-Repositories)
- Entwicklung von Werkzeugen zur Verbesserung der Entwicklerproduktivität für ML-Workflows
|
What This Role Could Look Like
- Multi-camera calibration, SfM, bundle adjustment, mesh processing
- Inverse rendering: material and geometry estimation from images
- Differentiable rendering and appearance decomposition
- Generative 3D reconstruction: diffusion-based approaches, feed-forward networks
- BRDF modeling and physically-based material synthesis
- Integration of classical and learned components into production pipelines
|