Senior Site Reliability Engineer (m/w/d)

Eckdaten

Berlin

Site Reliability Engineering (SRE)

Arbeitsmodell

Remote first

Deutschland +2 weitere

vor 5 Tagen

Stellenbeschreibung

Empower every employee.

Unsere Mission

Unsere Mission ist es, die weltweit meistgenutzte KI-gestützte Employee Experience Plattform zu werden und die Arbeitsweise von Frontline-Mitarbeitern in Branchen wie Retail, Manufacturing und Logistics zu revolutionieren. Eine App. Ein Touch. Alles, was sie brauchen.

Stellenbeschreibung

Als Senior Site Reliability Engineer in unserem Platform Squad übernimmst du die End-to-End-Verantwortung für kritische Reliability-Bereiche und treibst die technische Ausrichtung innerhalb des Squads voran. Du leitest Architektur-Entscheidungen, mentorst Teammitglieder und setzt neue Standards für Zuverlässigkeit. Diese Rolle richtet sich an erfahrene Engineers, die hochverfügbare High-Throughput-Systeme gestalten und echten Impact durch tiefgehende Engineering-Arbeit erzielen wollen.

Was dich bei uns erwartet

Co-Owner der Architektur: Du treibst die Weiterentwicklung unserer Cloud-Infrastruktur auf Azure und Kubernetes voran.
Resilience-Strategie: Du definierst Ansätze für globales Skalieren, Zero-Downtime-Deployments und Disaster Recovery.
Observability: Du optimierst unseren LGTM-Stack (Loki, Grafana, Tempo, Mimir).
IaC-Plattform: Du eliminierst Routineaufwand und gestaltest unsere Infrastruktur als Self-Service.
Incident Management: Du leitest bei Störungen, führst Blameless Post-Mortems durch und implementierst nachhaltige Lösungen.
Mentoring: Du coacht Teammitglieder, leitest RFCs und Design-Reviews.
Roadmap: Du gestaltest die Plattform-Strategie aktiv mit.

Was du mitbringst

Wir suchen einen hands-on, SaaS-orientierten SRE, der Skalierbarkeit als Produktmerkmal versteht.

Must-Have Qualifikationen

5+ Jahre Erfahrung als SRE, Platform, DevOps, Infrastructure oder Cloud Engineer.
Nachgewiesene Erfolgsbilanz bei hochverfügbaren High-Throughput-Systemen.
Tiefe Erfahrung mit Kubernetes auf Hyperscalern.
Fundierte Kenntnisse in Observability-Stacks (z. B. Prometheus, Mimir, Loki) und SLOs/Error Budgets.
Solide Software-Development-Skills in Go (bevorzugt) oder Python.
Erfahrung mit Infrastructure as Code (Pulumi, OpenTofu, Terraform) und GitOps (ArgoCD).
Fähigkeit, komplexe Initiativen zu leiten (RFCs, Architektur-Entscheidungen).
Erfahrung im Mentoring und in der Führung bei Incidents.
Sehr gute Englischkenntnisse und Bereitschaft zur Rufbereitschaft.

Nice-to-Have Qualifikationen

Erfahrung mit API-Gateways (Envoy), Service Meshes (Cilium, Istio), Kubernetes Operatoren oder hochverfügbarem PostgreSQL.

Das bieten wir dir

Work-Mode: Remote-first mit gelegentlichen Treffen in Berlin oder Stuttgart.
Work-Life-Balance: E-Gym-Wellpass und Job-Rad Leasing.
Kultur: Motiviertes Team, regelmäßige Events und Culture Days.
Wachstum: Aktive Mitgestaltung eines schnell wachsenden Tech-Unternehmens.
Flexibilität: Arbeiten im europäischen Ausland möglich (Workation).

Bei Flip sind alle willkommen – unabhängig von Geschlecht, Alter, Herkunft oder Religion. Wir freuen uns auf dich!

Weitere Remote Jobs im Bereich Site Reliability Engineering (SRE)

Applied AI Engineer, Site Reliability Engineer - EMEA

Mistral AI

Werden Sie Gründungsmitglied unseres Applied AI SRE-Teams bei Mistral AI. Gestalten Sie skalierbare, sichere KI-Lösungen für Unternehmenskunden.

Vollständig remote

vor 2 Tagen

Senior Site Reliability Engineer (m/f/d)

Jobgether

Gestalte und skaliere die Infrastruktur einer KI-Plattform. Wir suchen einen erfahrenen SRE für ein Remote-Team in Deutschland. Jetzt bewerben!

Remote first· Nur Deutschland

vor 4 Tagen

Alle Remote Jobs im Bereich Site Reliability Engineering (SRE) anzeigen