Deine Mission

Über neoshare

Wir sind ein 2019 gegründetes, KI-gesteuertes Fintech-Scale-up mit Büros in München, Frankfurt und Sofia. Unsere SaaS-Plattform bringt Banken, Investoren und Berater zusammen, um komplexe Finanztransaktionen zu bearbeiten --- und macht die Due Diligence schneller, intelligenter und transparenter. Unsere KI-Funktionen sind bereits bei führenden Banken im Einsatz. Jetzt skalieren wir.

Die Rolle

Gestalte und entwickle unsere KI-Engineering-Funktion --- wandle ein 15-20-köpfiges ML-Team von einem forschungslastigen Ansatz in eine hocheffiziente, produktionsreife Organisation um. Arbeite mit dem Director of AI an der Strategie, baue die Plattform, die LLM-Zugang, RAG und Backend-Services vereint, und liefere zuverlässige, skalierbare KI-Funktionen, die die Arbeitsweise von Banken verändern.

Hauptverantwortlichkeiten

Teamführung und Organisationsaufbau

Stelle ein leistungsstarkes Team ein, betreue und entwickle es; lege den technischen Standard, die Arbeitsabläufe und die Praktiken für Code-/Forschungsüberprüfungen fest.
Organisiere Unterteams (z. B. Core Modeling, AI Platform/Infra, Integrations) mit klaren Zuständigkeiten, SLOs und Bereitschaftsdiensten.
Verwalte Roadmap, Kapazitätsplanung und Lieferung über parallele Initiativen hinweg.

Architektur und Plattform

Übernimm die Verantwortung für das LLM-Gateway: vereinheitlichte APIs und Proxy-Layer für das Routing über mehrere Anbieter (OpenAI, Gemini, Bedrock) mit Ratenbegrenzungen, Fallbacks und Kostenverfolgung.
Baue Hochleistungs-RAG-Pipelines (Ingestion, Embeddings, Vektor-Stores, Caching) mit robuster Beobachtbarkeit und Sicherheits-Guardrails auf.
Arbeite mit Java/NestJS-Teams zusammen, um klare asynchrone Verträge, Schemata und Eventing-Muster zu definieren; treibe latenzarme, skalierbare Inferenz voran.

Modell-Lebenszyklus und Betrieb

Leite den End-to-End-Lebenszyklus von Modellen und Prompts: Datenkuratierung, Training/Fine-Tuning, Evaluierung, Bereitstellung, Rollback.
Etabliere LLMOps/MLOps: Modell-/Prompt-Registries, CI/CD, Canary/A/B-Tests, Offline-/Online-Evaluierungen, Drift- und Kostenüberwachung.
Optimiere die Inferenzdurchsatzrate und die Kosten (Autoscaling, Batching, Quantisierung/Destillation, Caching).

Strategie und Zusammenarbeit

Übersetze Unternehmensziele in eine KI/ML-Roadmap mit messbaren Ergebnissen; balanciere Exploration mit Zuverlässigkeit und Kosten.
Übernimm die Build-vs-Buy/Vendor-Strategie für Modelle, Infrastruktur und Datendienste; verwalte Budgets und SLAs.

Governance und Sicherheit

Implementiere Praktiken für Datenschutz, Sicherheit und Compliance (RBAC, Geheimnisse, Auditierbarkeit); verfolge die Abstammung und Reproduzierbarkeit von Prompts/Modellen.
Definiere Incident Response, Runbooks und Postmortems für KI-Funktionen.

Dein Profil

5+ Jahre als Backend-Ingenieur und 4+ Jahre Führungserfahrung im KI/ML-Engineering in Produktionsumgebungen (idealerweise 10+ Jahre Gesamterfahrung).
Tiefgreifende Architekturkenntnisse in Java (JVM) und/oder Node.js (NestJS), verteilten Systemen, APIs, Microservices und Messaging/Streaming.
Hands-on-Erfahrung mit LLM-Stacks: Orchestrierung (z. B. LangChain/LlamaIndex oder kundenspezifisch), Vektor-Datenbanken (Pinecone, Qdrant, FAISS), Cloud-KI (z. B. AWS Bedrock).
Nachgewiesener Betrieb von Systemen im großen Maßstab (Millionen von täglichen API-Aufrufen) mit starken SLOs, Beobachtbarkeit und Incident Management.
MLOps-Grundlagen: Modell-Registries, Experiment-Tracking, CI/CD, Kubernetes, IaC (z. B. Terraform), Best Practices für Sicherheit.
Exzellente Kommunikations- und Stakeholder-Management-Fähigkeiten; starkes Produktverständnis mit Fokus auf die Auslieferung von benutzerorientierten Funktionen.

Nice-to-have

Erfahrung mit GPU/Beschleuniger-Serving und -Optimierung (vLLM, TGI, Triton, ONNX Runtime).
Kostenoptimierung für LLM-Workloads (Token-Budgets, dynamisches Routing, Caching).
Evaluierung und Sicherheit/Red-Teaming für generative Systeme; Erfahrung in Startups/schnell wachsenden Unternehmen.

Impact-Metriken

Plattform: Übernahme eines einheitlichen LLM-Gateways; standardisierte Beobachtbarkeits- und Kostenberichterstattung.
Lieferung: Auslieferung von 2-3 benutzerorientierten KI-Funktionen mit klaren SLOs und messbarem Einfluss.
Zuverlässigkeit/Kosten: Reduzierung der durchschnittlichen Latenz und der Kosten pro Anfrage; Implementierung von Autoscaling und Caching.
Organisation: Etablierung einer Unterteamstruktur; Verbesserung der Codequalität und pünktliche Lieferung; Abschluss gezielter Einstellungen.

Unser Stack

Backend: Java (JVM), Node.js (NestJS); ereignisgesteuerte Microservices; API-Gateways/Proxies.
KI-Plattform: Python, PyTorch, LLM-Orchestrierung, Prompt-Pipelines/Registry; Vektor-Datenbanken (Pinecone, Qdrant); RAG-Services.
Infra/DevOps: AWS (inkl. Bedrock), Kubernetes, Terraform, CI/CD, Beobachtbarkeit (OpenTelemetry, Prometheus/Grafana).

Warum wir?

Internationales & Inklusives Team:

Zusammenarbeit mit diversen Teams an unseren Standorten in München, Frankfurt, Berlin und Sofia.

Moderne & Hundefreundliche Büros:

Ergonomisch, grün und inspirierend für Zusammenarbeit und Produktivität.

Flexibilität:

30 Urlaubstage, flexible Arbeitszeiten und hybrides Arbeiten.

Besondere Freistellung:

Zusätzlicher halber Tag frei an Heiligabend und Silvester.

Workation:

Arbeite für einen begrenzten Zeitraum pro Jahr aus ausgewählten Destinationen remote.

Wellbeing & Mobilitätsleistungen:

Unterstützung für Wohlbefinden und nachhaltigen Lebensstil:

Urban Sports/EGYM Club Zuschuss: Monatliche Unterstützung für deine Mitgliedschaft.
Jobticket: 50% monatlicher Zuschuss zum Deutschlandticket.
JobRad: Leasing von Fahrrädern oder E-Bikes zu attraktiven Konditionen.

Bewerber müssen über eine Arbeitserlaubnis in der EU verfügen; ein Visum-Sponsoring wird für diese Stelle nicht angeboten.

Head of AI Engineering (f/m/x)

Eckdaten

Arbeitsmodell