- Startseite
- Remote Jobs
- Product Reliability Engineer
Product Reliability Engineer
Eckdaten
Arbeitsmodell
Diese Stelle wird von Jobgether im Auftrag eines Partnerunternehmens ausgeschrieben. Wir suchen derzeit einen Product Reliability Engineer in Deutschland.
Dieser Aufgabenbereich liegt an der Schnittstelle von Software Engineering, Site Reliability und kundenorientierter Problemlösung. Der Fokus liegt darauf, sicherzustellen, dass komplexe Infrastruktursoftware in realen On-Premise-Umgebungen zuverlässig funktioniert. Sie arbeiten direkt an hochwirksamen Produktionsproblemen und entwickeln gleichzeitig Systeme und Tools, um deren Wiederauftreten zu verhindern.
Verantwortlichkeiten
- Zusammenarbeit mit Kunden und internen Teams bei L2/L3-Eskalationen zur Diagnose und Lösung komplexer Probleme (Deployment, Upgrades, Laufzeitverhalten, Kubernetes-Umgebungen).
- Durchführung von End-to-End-Ursachenanalysen (Root Cause Analysis), Reproduktion von Problemen und Koordination von Fehlerbehebungen mit den Engineering-Teams.
- Entwicklung und Wartung von Diagnose-Tools wie Health Checks, Support-Bundles und Debugging-Dienstprogrammen.
- Verbesserung der Testautomatisierungsinfrastruktur zur Reduzierung von Flakiness und Stärkung der CI-Stabilität.
- Definition und Pflege von Performance-Baselines und Regressionstests zur frühzeitigen Erkennung von Skalierbarkeits- und Latenzproblemen.
- Optimierung der Zuverlässigkeit von Installationen, Deployments und Upgrades durch Identifizierung wiederkehrender Fehlermuster.
- Schreiben von produktionsreifem Code in Python, Go oder Rust für Reliability-Tools und Automatisierung.
Anforderungen
- 4-7 Jahre Erfahrung in den Bereichen Production Engineering, SRE, Platform Engineering oder ähnlichen Rollen mit Fokus auf Systemzuverlässigkeit und Kundeneskalationen.
- Fundierte Kenntnisse in Software Engineering (Debugging, Testing, Systemdesign, wartbarer Code).
- Praktische Erfahrung mit Kubernetes (Troubleshooting von Workloads, Networking, Storage, RBAC).
- Starke Fähigkeiten in Observability und Troubleshooting (Logs, Metriken, Traces in verteilten Systemen).
- Beherrschung mindestens einer Programmiersprache wie Python, Go oder Rust.
- Analytische und kommunikative Fähigkeiten, um komplexe technische Probleme verständlich zu vermitteln.
- Erfahrung in der Arbeit in verteilten Remote-Teams mit starker asynchroner Zusammenarbeit.
- Kollaborative Denkweise und Erfahrung in der Zusammenarbeit zwischen Engineering, Produkt und kundenorientierten Funktionen.
Vorteile
- Wettbewerbsfähiges Vergütungspaket (Gehalt und potenzielle Anteile).
- Umfassende Gesundheits-, Zahn- und Vorsorgeleistungen.
- Flexible PTO-Richtlinie zur Unterstützung der Work-Life-Balance.
- Unterstützung bei der Einrichtung des Home-Office.
- Budget für berufliche Weiterbildung (Schulungen, Konferenzen).
- Möglichkeit zur Arbeit in einer vollständig verteilten Remote-Umgebung.
- Arbeit an produktionsreifer Infrastruktur für komplexe Unternehmensumgebungen.
Wie Jobgether funktioniert
Wir nutzen einen KI-gestützten Matching-Prozess, um sicherzustellen, dass Ihre Bewerbung schnell, objektiv und fair geprüft wird. Unser System identifiziert die am besten geeigneten Kandidaten, die dann direkt an das einstellende Unternehmen weitergeleitet werden.
Datenschutzhinweis
Mit dem Absenden Ihrer Bewerbung bestätigen Sie, dass Jobgether Ihre personenbezogenen Daten verarbeitet, um Ihre Eignung zu bewerten und relevante Informationen mit dem einstellenden Arbeitgeber zu teilen. Dies erfolgt auf Basis berechtigter Interessen und vorvertraglicher Maßnahmen gemäß geltender Datenschutzgesetze (einschließlich DSGVO).