LI

LiveEO GmbH

(Senior) Data Engineer (f/m/x) - Remote Sensing & AI Pipelines

Remote
Gestern
LiveEO GmbH Berlin Office (Hybrid)
Stellenbeschreibung

LiveEO: Werde Teil des Marktführers für Satellitenanalytik

Wir suchen einen Senior Data Engineer (w/m/d), um das Hochleistungs-Daten-Backbone für unsere multitemporalen, multimodalen Erdbeobachtungsmodelle zu entwickeln. Während sich unsere ML-Ingenieure auf die Modellarchitektur konzentrieren, übernimmst du die Verantwortung für die Infrastruktur, Ingestion und Verfeinerungspipelines, die hochauflösende optische und Synthetic Aperture Radar (SAR)-Daten zu produktionsreifen Datensätzen kombinieren.

Dies ist eine Rolle mit hoher Wirkung an der Schnittstelle von Big Data und KI. Du stellst sicher, dass unsere "Daten-Engine" skalierbar, deterministisch und in der Lage ist, Petabytes an Geodaten zu verarbeiten, um semantisches Verständnis über Sensoren und Zeiten hinweg zu ermöglichen.

LiveEO ist ein junges, dynamisches Team, das sich großen Herausforderungen und schnellen Lernzyklen stellt – wir bewegen uns schnell, bleiben neugierig und haben Freude am gemeinsamen Aufbau. Wir haben uns zum Ziel gesetzt, den "Fluch der Erdbeobachtung" zu brechen: unglaubliche Satellitendaten in zuverlässige, umsetzbare Entscheidungen zu verwandeln, denen Menschen vertrauen und die sie in realen Einsätzen nutzen können. In dieser Rolle arbeitest du in einem unterhaltsamen Umfeld mit hoher Eigenverantwortung, in dem ehrgeizige technische Probleme (multimodale SAR/optische Basismodelle) auf reale Auswirkungen treffen – und in dem deine Ideen in engen, kollaborativen Iterationen vom Whiteboard bis zur Produktion gelangen können.

Du wirst Teil des KI-Teams von LiveEO sein und eng mit nachgelagerten Produktteams zusammenarbeiten, um Modellfähigkeiten in messbaren Geschäftswert und produktionsreife Arbeitsabläufe zu übersetzen. Du wirst auch Hand in Hand mit unserem engagierten Datenannotationsteam arbeiten, um Kennzeichnungrichtlinien zu definieren, Feedbackschleifen zur Datenqualität zu steuern und sicherzustellen, dass Trainings- und Evaluationsdatensätze reale Edge Cases widerspiegeln.

Tech Stack & Tools:

  • Ray (verteilte Berechnungen)
  • Prefect (Workflow-Orchestrierung)
  • AWS (Cloud-Infrastruktur)
  • Datenspeicher: PostgreSQL (Metadaten / operative Daten)
  • Python (Kernentwicklung)
  • PyTorch Lightning (Modelltraining, Experimente)
  • Databricks MLflow (Experiment-Tracking, Model Registry)
  • Geospatial Stack: GDAL, Rasterio, GeoPandas, STAC (EO-Datenverarbeitung und -standardisierung)

Deine Herausforderung:

  • Skalierbare Datenpipelines erstellen: Entwerfe und pflege robuste ETL/ELT-Workflows mit Prefect und Ray zur Aufnahme, Verarbeitung und Standardisierung riesiger Mengen an Satellitenbildern.
  • EO-Datenmanagement: Übernimm die Standardisierung von hochauflösenden SAR- und optischen Bildern, konzentriere dich auf Normalisierung, Kachelung/Zuschneidung und Co-Registrierungs-Plausibilitätsprüfungen, um die Datenintegrität zu gewährleisten.
  • Infrastruktur & Tooling: Optimiere unseren Cloud-nativen Stack auf AWS, nutze Databricks und PostgreSQL zur Verwaltung von Metadaten und operativen Datenspeichern.
  • Kollaborative KI-Unterstützung: Arbeite eng mit ML-Ingenieuren zusammen, um produktionsreife Datenkomponenten und Inferenzschnittstellen zu liefern, auf die nachgelagerte Teams angewiesen sein können.
  • Datenqualität & Diagnostik: Arbeite Hand in Hand mit dem Datenannotationsteam, um Feedbackschleifen zur Datenqualität zu automatisieren und sicherzustellen, dass Datensätze reale Edge Cases widerspiegeln.
  • Systemzuverlässigkeit: Implementiere Überwachungssignale und deterministische Evaluationsframeworks, um die Reproduzierbarkeit von Pipelines über verschiedene Geografien und Aufnahmebedingungen hinweg zu gewährleisten.

Dein Profil:

  • Starke Softwareentwicklung: Beherrschung von Python mit Fokus auf sauberen, wartbaren und testbaren Code.
  • Datenorchestrierung & Compute: Beherrschung von Prefect (oder Airflow) und verteilten Computing-Frameworks wie Ray oder Anyscale.
  • Cloud & Big Data: Tiefgreifende Expertise in AWS-Infrastruktur und Databricks für die Verarbeitung großer Datenmengen.
  • Datenbankmanagement: Starke Kenntnisse in PostgreSQL und der Verwaltung komplexer Metadaten im großen Maßstab.
  • Pragmatische Lieferung: Eine Denkweise, die den Aufbau robuster, langfristiger Infrastruktur mit der Notwendigkeit einer praktischen, iterativen Lieferung in Einklang bringt.
  • Geospatial Stack: Erfahrung mit GDAL, Rasterio, GeoPandas und STAC zur Verarbeitung von Erdbeobachtungsdaten ist ein Plus.
  • ML-Integration: Vertrautheit mit PyTorch Lightning und MLflow zur besseren Unterstützung des ML-F&E-Lebenszyklus ist ein Plus.
  • SAR-Erfahrung: Grundlegende Kenntnisse von SAR-Vorverarbeitungsbibliotheken und Datenformaten sind ein Plus.

Deine Vorteile:

  • Die Möglichkeit, ein Produkt zu schaffen, das Geschäftsprozesse und Leben weltweit verbessern kann.
  • Flexible Arbeitszeiten und hybrides Arbeitsmodell – wir vertrauen darauf, dass unsere Mitarbeiter ihre Arbeit erledigen und gleichzeitig eine gesunde Work-Life-Balance wahren.
  • Wir befähigen Mitarbeiter, ihre eigene Karriereentwicklung voranzutreiben, Initiative zu ergreifen und die Freiheit zu haben, kreativ und mutig zu sein.
  • Keine Überstundenkultur – wir achten darauf, dass Überstunden nur im Notfall anfallen und immer durch Freizeit und Erholung ausgeglichen werden.
  • Eine kollaborative und lernende Umgebung – regelmäßige interne Workshops, Wissensaustausch-Sitzungen, Journal Clubs und Hackathons.
  • Büro im Zentrum von Berlin Kreuzberg mit kostenlosem Obst, Nüssen und Getränken.
  • Möglichkeit zur Teilnahme am Mitarbeiter-Aktienoptionsprogramm.
  • Urban Sports-Mitgliedschaft und BVG-Zuschuss, betriebliche Altersvorsorge.
  • Ein vielfältiges und lebendiges internationales Umfeld mit 30 verschiedenen Nationalitäten.