Senior Site Reliability Engineer (m/w/d)

Eckdaten

Berlin
Site Reliability Engineering (SRE)

Arbeitsmodell

Remote first
Deutschland +2 weitere
vor 5 Tagen
Stellenbeschreibung

Empower every employee.

Unsere Mission

Unsere Mission ist es, die weltweit meistgenutzte KI-gestützte Employee Experience Plattform zu werden und die Arbeitsweise von Frontline-Mitarbeitern in Branchen wie Retail, Manufacturing und Logistics zu revolutionieren. Eine App. Ein Touch. Alles, was sie brauchen.

Stellenbeschreibung

Als Senior Site Reliability Engineer in unserem Platform Squad übernimmst du die End-to-End-Verantwortung für kritische Reliability-Bereiche und treibst die technische Ausrichtung innerhalb des Squads voran. Du leitest Architektur-Entscheidungen, mentorst Teammitglieder und setzt neue Standards für Zuverlässigkeit. Diese Rolle richtet sich an erfahrene Engineers, die hochverfügbare High-Throughput-Systeme gestalten und echten Impact durch tiefgehende Engineering-Arbeit erzielen wollen.

Was dich bei uns erwartet

  • Co-Owner der Architektur: Du treibst die Weiterentwicklung unserer Cloud-Infrastruktur auf Azure und Kubernetes voran.
  • Resilience-Strategie: Du definierst Ansätze für globales Skalieren, Zero-Downtime-Deployments und Disaster Recovery.
  • Observability: Du optimierst unseren LGTM-Stack (Loki, Grafana, Tempo, Mimir).
  • IaC-Plattform: Du eliminierst Routineaufwand und gestaltest unsere Infrastruktur als Self-Service.
  • Incident Management: Du leitest bei Störungen, führst Blameless Post-Mortems durch und implementierst nachhaltige Lösungen.
  • Mentoring: Du coacht Teammitglieder, leitest RFCs und Design-Reviews.
  • Roadmap: Du gestaltest die Plattform-Strategie aktiv mit.

Was du mitbringst

Wir suchen einen hands-on, SaaS-orientierten SRE, der Skalierbarkeit als Produktmerkmal versteht.

Must-Have Qualifikationen

  • 5+ Jahre Erfahrung als SRE, Platform, DevOps, Infrastructure oder Cloud Engineer.
  • Nachgewiesene Erfolgsbilanz bei hochverfügbaren High-Throughput-Systemen.
  • Tiefe Erfahrung mit Kubernetes auf Hyperscalern.
  • Fundierte Kenntnisse in Observability-Stacks (z. B. Prometheus, Mimir, Loki) und SLOs/Error Budgets.
  • Solide Software-Development-Skills in Go (bevorzugt) oder Python.
  • Erfahrung mit Infrastructure as Code (Pulumi, OpenTofu, Terraform) und GitOps (ArgoCD).
  • Fähigkeit, komplexe Initiativen zu leiten (RFCs, Architektur-Entscheidungen).
  • Erfahrung im Mentoring und in der Führung bei Incidents.
  • Sehr gute Englischkenntnisse und Bereitschaft zur Rufbereitschaft.

Nice-to-Have Qualifikationen

  • Erfahrung mit API-Gateways (Envoy), Service Meshes (Cilium, Istio), Kubernetes Operatoren oder hochverfügbarem PostgreSQL.

Das bieten wir dir

  • Work-Mode: Remote-first mit gelegentlichen Treffen in Berlin oder Stuttgart.
  • Work-Life-Balance: E-Gym-Wellpass und Job-Rad Leasing.
  • Kultur: Motiviertes Team, regelmäßige Events und Culture Days.
  • Wachstum: Aktive Mitgestaltung eines schnell wachsenden Tech-Unternehmens.
  • Flexibilität: Arbeiten im europäischen Ausland möglich (Workation).

Bei Flip sind alle willkommen – unabhängig von Geschlecht, Alter, Herkunft oder Religion. Wir freuen uns auf dich!