What This Role Could Look Like
- Multi-camera calibration, SfM, bundle adjustment, mesh processing
- Inverse rendering: material and geometry estimation from images
- Differentiable rendering and appearance decomposition
- Generative 3D reconstruction: diffusion-based approaches, feed-forward networks
- BRDF modeling and physically-based material synthesis
- Integration of classical and learned components into production pipelines
|
Positionsübersicht
- Bereitstellung, Konfiguration und Wartung von heterogenen Compute-Clustern (CPU/GPU) an mehreren physischen Standorten
- Implementierung von dynamischem Compute- und Storage-Provisioning auf Basis von Workload-Anforderungen
- Entwicklung von Speicherlösungen sowohl auf Hardware- als auch auf Softwareebene (NAS, verteilte Dateisysteme, Storage Tiering)
- Implementierung und Verwaltung von Container-Orchestrierungssystemen (Kubernetes, Docker) für Entwicklungs- und Produktions-Workloads
- Entwurf und Wartung von Infrastruktur als Code mit Tools wie Terraform und Ansible
- Aufbau und Optimierung von Systemen zur Auftragsplanung und Ressourcenzuweisung (Slurm, Kubernetes)
- Einrichtung einer Infrastruktur für Überwachung, Alarmierung und Beobachtung (Prometheus, Grafana, IPMI)
- Profilierung und Optimierung der Leistung auf Systemebene: GPU-Auslastung, Speicherbandbreite, I/O-Durchsatz, Netzwerklatenz
- Verwalten von Netzwerken, VPNs und sicherem Zugriff über verteilte Systeme hinweg
- Handhabung von Zuverlässigkeitsaspekten: Erkennung von Hardwareausfällen, Checkpointing von Jobs, Disaster Recovery
|
Positionsübersicht
- Entwurf und Verwaltung von Datenspeichersystemen für große Datensätze (Multi-TB-Bilddaten, 3D-Assets, Trainingsdaten)
- Entwicklung effizienter Datenzugriffsmuster und Bewegungsstrategien für verteiltes Training und Experimentieren
- Implementierung der Versionierung von Datensätzen und Verfolgung der Abstammung für die Reproduzierbarkeit
- Einrichtung und Pflege der Infrastruktur für Experimentverfolgung und Modellregistrierung (MLflow, Weights & Biases)
- Aufbau von ML-Pipelines für Datenvorverarbeitung, Training, Validierung und Modellregistrierung (Kubeflow, Airflow, Prefect)
- Unterstützung verteilter Trainingsworkflows über Multi-GPU-Cluster (PyTorch Distributed, Horovod, Ray)
- Profilierung und Optimierung von Trainingspipelines: Engpässe beim Laden von Daten, Batch-Sizing, GPU-Speicherauslastung
- Sicherstellung der Reproduzierbarkeit von Experimenten: Umgebungspinning, Datenversionierung, Artefaktmanagement
- Verwaltung der Speicherung und Verteilung von Artefakten (Docker-Registrierungen, Modell-Registrierungen, Paket-Repositories)
- Entwicklung von Werkzeugen zur Verbesserung der Entwicklerproduktivität für ML-Workflows
|
Position Overview
- Set up and configure scanning workstations, compute nodes, and storage systems
- Debug hardware issues (storage drives, GPUs, memory, networking) and software issues (drivers, containers, internal tools)
- Extend and maintain Ansible-based configuration management
- Provide technical support to engineering and operations teams
- Build repeatable deployment processes for new scanning stations
- Document infrastructure procedures and troubleshooting guides
- Contribute to Infrastructure as Code initiatives
- Ensure high availability for development and production scanner systems
- Maintain networking infrastructure across internal and client-deployed environments
|