Das Projekt umfasst den effizienten Betrieb von GPU-beschleunigten Machine Learning Workloads in einem Multicloud Cluster Setup.
Kubernetes, Multicloud, GPU Teilung, GPU-beschleunigte Workloads, ML Workloads, Azure, Infomaniak, Cloud Native, Go, TypeScript, nvshare, Knative, NVIDIA
Schaffen einer multicloud-fähigen Lösung, die das Teilen einer GPU für mehrere Workloads erlaubt, Kosten und Latenzzeiten optimiert sowie Konfigurationsmöglichkeiten bezüglich Performance, Ressourcen und Ausführungsstandort ermöglicht.
Der Ausgangspunkt der Arbeit ist das Anliegen der Ateleris GmbH, Machine Learning (ML) Dienste bei verschiedenen Cloud Service Providern (CSPs) wie Microsoft Azure, Amazon AWS und Google Cloud zu hosten. Diese ML Dienste erfordern GPU Unterstützung. Das Hosting soll dabei nicht auf einen Anbieter beschränkt, sondern mit mehreren CSPs möglich sein. Vorhandene Ressourcen sollen von verschiedenen Diensten geteilt werden, sodass eine möglichst optimale Auslastung gewährleistet ist. Dabei stellt das effiziente Teilen von Ressourcen vor allem für GPUs eine Herausforderung dar. Bestehende Angebote können die spezifischen Anforderungen der Ateleris nicht abdecken. Insbesondere bestehen Defizite hinsichtlich Ressourcen- und Kostenoptimierung, Latenzzeiten und Standortwahl für die Ausführung der Dienste.
Die Ergebnisse der Validierung zeigen, dass das entwickelte Framework eine effektive Lösung für die genannten Herausforderungen darstellt. Durch den gezielten Einsatz von Technologien wie Knative und Istio in einem Multicloud Kubernetes Cluster, können Workloads über verschiedene CSP Infrastrukturen verteilt betrieben werden. Die Validierung anhand von durchgeführten Benchmarks offenbart, dass ein optimierter Ansatz zum effizienten Hosten von GPU-beschleunigten Workloads erreicht werden konnte. Durch eine ansprechende, webbasierte Benutzeroberfläche bietet das entwickelte Framework eine benutzerfreundliche Interaktionsmöglichkeit. Dies ermöglicht Nutzenden die Verwaltung ihrer eigenen Workloads und bietet ihnen Konfigurationsmöglichkeiten bezüglich Performance und benötigter Ressourcen der Workloads.
| Projekttyp | Projektdauer | Aufwand | Teamgrösse |
| Bachelor Thesis | 19.02.2024 - 16.08.2024 | 720 Stunden | 2 Personen |
Orell Bühler
Kevin Zgraggen
Prof. Dr. Sebastian Graf