NE

neoshare

Head of AI Engineering (f/m/x)

Eckdaten

München
DevOps

Arbeitsmodell

Hybrid · 3 Tage Homeoffice
vor 2 Tagen
Stellenbeschreibung

Deine Mission

Über neoshare

Wir sind ein 2019 gegründetes, KI-gesteuertes Fintech-Scale-up mit Büros in München, Frankfurt und Sofia. Unsere SaaS-Plattform bringt Banken, Investoren und Berater zusammen, um komplexe Finanztransaktionen zu bearbeiten --- und macht die Due Diligence schneller, intelligenter und transparenter. Unsere KI-Funktionen sind bereits bei führenden Banken im Einsatz. Jetzt skalieren wir.

Die Rolle

Gestalte und entwickle unsere KI-Engineering-Funktion --- wandle ein 15-20-köpfiges ML-Team von einem forschungslastigen Ansatz in eine hocheffiziente, produktionsreife Organisation um. Arbeite mit dem Director of AI an der Strategie, baue die Plattform, die LLM-Zugang, RAG und Backend-Services vereint, und liefere zuverlässige, skalierbare KI-Funktionen, die die Arbeitsweise von Banken verändern.

Hauptverantwortlichkeiten

Teamführung und Organisationsaufbau

  • Stelle ein leistungsstarkes Team ein, betreue und entwickle es; lege den technischen Standard, die Arbeitsabläufe und die Praktiken für Code-/Forschungsüberprüfungen fest.
  • Organisiere Unterteams (z. B. Core Modeling, AI Platform/Infra, Integrations) mit klaren Zuständigkeiten, SLOs und Bereitschaftsdiensten.
  • Verwalte Roadmap, Kapazitätsplanung und Lieferung über parallele Initiativen hinweg.

Architektur und Plattform

  • Übernimm die Verantwortung für das LLM-Gateway: vereinheitlichte APIs und Proxy-Layer für das Routing über mehrere Anbieter (OpenAI, Gemini, Bedrock) mit Ratenbegrenzungen, Fallbacks und Kostenverfolgung.
  • Baue Hochleistungs-RAG-Pipelines (Ingestion, Embeddings, Vektor-Stores, Caching) mit robuster Beobachtbarkeit und Sicherheits-Guardrails auf.
  • Arbeite mit Java/NestJS-Teams zusammen, um klare asynchrone Verträge, Schemata und Eventing-Muster zu definieren; treibe latenzarme, skalierbare Inferenz voran.

Modell-Lebenszyklus und Betrieb

  • Leite den End-to-End-Lebenszyklus von Modellen und Prompts: Datenkuratierung, Training/Fine-Tuning, Evaluierung, Bereitstellung, Rollback.
  • Etabliere LLMOps/MLOps: Modell-/Prompt-Registries, CI/CD, Canary/A/B-Tests, Offline-/Online-Evaluierungen, Drift- und Kostenüberwachung.
  • Optimiere die Inferenzdurchsatzrate und die Kosten (Autoscaling, Batching, Quantisierung/Destillation, Caching).

Strategie und Zusammenarbeit

  • Übersetze Unternehmensziele in eine KI/ML-Roadmap mit messbaren Ergebnissen; balanciere Exploration mit Zuverlässigkeit und Kosten.
  • Übernimm die Build-vs-Buy/Vendor-Strategie für Modelle, Infrastruktur und Datendienste; verwalte Budgets und SLAs.

Governance und Sicherheit

  • Implementiere Praktiken für Datenschutz, Sicherheit und Compliance (RBAC, Geheimnisse, Auditierbarkeit); verfolge die Abstammung und Reproduzierbarkeit von Prompts/Modellen.
  • Definiere Incident Response, Runbooks und Postmortems für KI-Funktionen.

Dein Profil

  • 5+ Jahre als Backend-Ingenieur und 4+ Jahre Führungserfahrung im KI/ML-Engineering in Produktionsumgebungen (idealerweise 10+ Jahre Gesamterfahrung).
  • Tiefgreifende Architekturkenntnisse in Java (JVM) und/oder Node.js (NestJS), verteilten Systemen, APIs, Microservices und Messaging/Streaming.
  • Hands-on-Erfahrung mit LLM-Stacks: Orchestrierung (z. B. LangChain/LlamaIndex oder kundenspezifisch), Vektor-Datenbanken (Pinecone, Qdrant, FAISS), Cloud-KI (z. B. AWS Bedrock).
  • Nachgewiesener Betrieb von Systemen im großen Maßstab (Millionen von täglichen API-Aufrufen) mit starken SLOs, Beobachtbarkeit und Incident Management.
  • MLOps-Grundlagen: Modell-Registries, Experiment-Tracking, CI/CD, Kubernetes, IaC (z. B. Terraform), Best Practices für Sicherheit.
  • Exzellente Kommunikations- und Stakeholder-Management-Fähigkeiten; starkes Produktverständnis mit Fokus auf die Auslieferung von benutzerorientierten Funktionen.

Nice-to-have

  • Erfahrung mit GPU/Beschleuniger-Serving und -Optimierung (vLLM, TGI, Triton, ONNX Runtime).
  • Kostenoptimierung für LLM-Workloads (Token-Budgets, dynamisches Routing, Caching).
  • Evaluierung und Sicherheit/Red-Teaming für generative Systeme; Erfahrung in Startups/schnell wachsenden Unternehmen.

Impact-Metriken

  • Plattform: Übernahme eines einheitlichen LLM-Gateways; standardisierte Beobachtbarkeits- und Kostenberichterstattung.
  • Lieferung: Auslieferung von 2-3 benutzerorientierten KI-Funktionen mit klaren SLOs und messbarem Einfluss.
  • Zuverlässigkeit/Kosten: Reduzierung der durchschnittlichen Latenz und der Kosten pro Anfrage; Implementierung von Autoscaling und Caching.
  • Organisation: Etablierung einer Unterteamstruktur; Verbesserung der Codequalität und pünktliche Lieferung; Abschluss gezielter Einstellungen.

Unser Stack

  • Backend: Java (JVM), Node.js (NestJS); ereignisgesteuerte Microservices; API-Gateways/Proxies.
  • KI-Plattform: Python, PyTorch, LLM-Orchestrierung, Prompt-Pipelines/Registry; Vektor-Datenbanken (Pinecone, Qdrant); RAG-Services.
  • Infra/DevOps: AWS (inkl. Bedrock), Kubernetes, Terraform, CI/CD, Beobachtbarkeit (OpenTelemetry, Prometheus/Grafana).

Warum wir?

Internationales & Inklusives Team:

Zusammenarbeit mit diversen Teams an unseren Standorten in München, Frankfurt, Berlin und Sofia.

Moderne & Hundefreundliche Büros:

Ergonomisch, grün und inspirierend für Zusammenarbeit und Produktivität.

Flexibilität:

30 Urlaubstage, flexible Arbeitszeiten und hybrides Arbeiten.

Besondere Freistellung:

Zusätzlicher halber Tag frei an Heiligabend und Silvester.

Workation:

Arbeite für einen begrenzten Zeitraum pro Jahr aus ausgewählten Destinationen remote.

Wellbeing & Mobilitätsleistungen:

Unterstützung für Wohlbefinden und nachhaltigen Lebensstil:

  • Urban Sports/EGYM Club Zuschuss: Monatliche Unterstützung für deine Mitgliedschaft.
  • Jobticket: 50% monatlicher Zuschuss zum Deutschlandticket.
  • JobRad: Leasing von Fahrrädern oder E-Bikes zu attraktiven Konditionen.

Bewerber müssen über eine Arbeitserlaubnis in der EU verfügen; ein Visum-Sponsoring wird für diese Stelle nicht angeboten.