togetHer.
Platform Engineer (w/m/d)
|
Es warten spannende Aufgaben auch Dich:
- Du wirst Teil unseres kleinen und dynamischen INFINITYS Entwicklerteams
- Du wirst an der Entwicklung unserer Lösung ANIMA für unsere Digital Signage Kunden arbeiten
- Du wirst an der Entwicklung von Multitechnologie-Lösungen im Bereich der multimedialen Kommunikation, Warteschlangenmanagement, Online-Buchung und Business Intelligence beteiligt sein
- Du wirst viel Raum für eigene Ideen und Lösungen haben und du wirst bei der Analyse neuer Produkte und Trends in das Team einbezogen
|
Position Overview
- Set up and configure scanning workstations, compute nodes, and storage systems
- Debug hardware issues (storage drives, GPUs, memory, networking) and software issues (drivers, containers, internal tools)
- Extend and maintain Ansible-based configuration management
- Provide technical support to engineering and operations teams
- Build repeatable deployment processes for new scanning stations
- Document infrastructure procedures and troubleshooting guides
- Contribute to Infrastructure as Code initiatives
- Ensure high availability for development and production scanner systems
- Maintain networking infrastructure across internal and client-deployed environments
|
Positionsübersicht
- Bereitstellung, Konfiguration und Wartung von heterogenen Compute-Clustern (CPU/GPU) an mehreren physischen Standorten
- Implementierung von dynamischem Compute- und Storage-Provisioning auf Basis von Workload-Anforderungen
- Entwicklung von Speicherlösungen sowohl auf Hardware- als auch auf Softwareebene (NAS, verteilte Dateisysteme, Storage Tiering)
- Implementierung und Verwaltung von Container-Orchestrierungssystemen (Kubernetes, Docker) für Entwicklungs- und Produktions-Workloads
- Entwurf und Wartung von Infrastruktur als Code mit Tools wie Terraform und Ansible
- Aufbau und Optimierung von Systemen zur Auftragsplanung und Ressourcenzuweisung (Slurm, Kubernetes)
- Einrichtung einer Infrastruktur für Überwachung, Alarmierung und Beobachtung (Prometheus, Grafana, IPMI)
- Profilierung und Optimierung der Leistung auf Systemebene: GPU-Auslastung, Speicherbandbreite, I/O-Durchsatz, Netzwerklatenz
- Verwalten von Netzwerken, VPNs und sicherem Zugriff über verteilte Systeme hinweg
- Handhabung von Zuverlässigkeitsaspekten: Erkennung von Hardwareausfällen, Checkpointing von Jobs, Disaster Recovery
|
YOUR RESPONSIBILITIES
- Design and implement backend services for an incident‑automation platform, including telemetry processing, orchestration, workflow execution, case/ticket integrations, and platform APIs
- Evolve the current architecture from tightly coupled workflows and database‑driven logic to a modular, event‑driven, and scalable backend platform
- Build and maintain reliable integrations with charger telemetry, ticketing/case systems, service workflows, and customer‑facing product components
- Improve workflow reliability, idempotency, retry mechanisms, state management, error handling, and auditability across automated playbooks
- Collaborate with product, service, R&D, and data engineering teams to translate operational playbooks into maintainable backend capabilities
- Contribute to technical decisions on rules/policy handling, workflow orchestration, context modeling, observability, and system scalability
- Support the implementation of secure, governed, and monitorable AI/agent‑based backend capabilities where appropriate
- Help define engineering standards, testing strategies, deployment patterns, and the long‑term backend architecture
|