- Startseite
- Homeoffice Jobs
- Head of AI Engineering (f/m/x)
Deine Mission
Über neoshare
Wir sind ein 2019 gegründetes, KI-gesteuertes Fintech-Scale-up mit Büros in München, Frankfurt und Sofia. Unsere SaaS-Plattform bringt Banken, Investoren und Berater zusammen, um komplexe Finanztransaktionen zu bearbeiten --- und macht die Due Diligence schneller, intelligenter und transparenter. Unsere KI-Funktionen sind bereits bei führenden Banken im Einsatz. Jetzt skalieren wir.
Die Rolle
Gestalte und entwickle unsere KI-Engineering-Funktion --- wandle ein 15-20-köpfiges ML-Team von einem forschungslastigen Ansatz in eine hocheffiziente, produktionsreife Organisation um. Arbeite mit dem Director of AI an der Strategie, baue die Plattform, die LLM-Zugang, RAG und Backend-Services vereint, und liefere zuverlässige, skalierbare KI-Funktionen, die die Arbeitsweise von Banken verändern.
Hauptverantwortlichkeiten
Teamführung und Organisationsaufbau
- Stelle ein leistungsstarkes Team ein, betreue und entwickle es; lege den technischen Standard, die Arbeitsabläufe und die Praktiken für Code-/Forschungsüberprüfungen fest.
- Organisiere Unterteams (z. B. Core Modeling, AI Platform/Infra, Integrations) mit klaren Zuständigkeiten, SLOs und Bereitschaftsdiensten.
- Verwalte Roadmap, Kapazitätsplanung und Lieferung über parallele Initiativen hinweg.
Architektur und Plattform
- Übernimm die Verantwortung für das LLM-Gateway: vereinheitlichte APIs und Proxy-Layer für das Routing über mehrere Anbieter (OpenAI, Gemini, Bedrock) mit Ratenbegrenzungen, Fallbacks und Kostenverfolgung.
- Baue Hochleistungs-RAG-Pipelines (Ingestion, Embeddings, Vektor-Stores, Caching) mit robuster Beobachtbarkeit und Sicherheits-Guardrails auf.
- Arbeite mit Java/NestJS-Teams zusammen, um klare asynchrone Verträge, Schemata und Eventing-Muster zu definieren; treibe latenzarme, skalierbare Inferenz voran.
Modell-Lebenszyklus und Betrieb
- Leite den End-to-End-Lebenszyklus von Modellen und Prompts: Datenkuratierung, Training/Fine-Tuning, Evaluierung, Bereitstellung, Rollback.
- Etabliere LLMOps/MLOps: Modell-/Prompt-Registries, CI/CD, Canary/A/B-Tests, Offline-/Online-Evaluierungen, Drift- und Kostenüberwachung.
- Optimiere die Inferenzdurchsatzrate und die Kosten (Autoscaling, Batching, Quantisierung/Destillation, Caching).
Strategie und Zusammenarbeit
- Übersetze Unternehmensziele in eine KI/ML-Roadmap mit messbaren Ergebnissen; balanciere Exploration mit Zuverlässigkeit und Kosten.
- Übernimm die Build-vs-Buy/Vendor-Strategie für Modelle, Infrastruktur und Datendienste; verwalte Budgets und SLAs.
Governance und Sicherheit
- Implementiere Praktiken für Datenschutz, Sicherheit und Compliance (RBAC, Geheimnisse, Auditierbarkeit); verfolge die Abstammung und Reproduzierbarkeit von Prompts/Modellen.
- Definiere Incident Response, Runbooks und Postmortems für KI-Funktionen.
Dein Profil
- 5+ Jahre als Backend-Ingenieur und 4+ Jahre Führungserfahrung im KI/ML-Engineering in Produktionsumgebungen (idealerweise 10+ Jahre Gesamterfahrung).
- Tiefgreifende Architekturkenntnisse in Java (JVM) und/oder Node.js (NestJS), verteilten Systemen, APIs, Microservices und Messaging/Streaming.
- Hands-on-Erfahrung mit LLM-Stacks: Orchestrierung (z. B. LangChain/LlamaIndex oder kundenspezifisch), Vektor-Datenbanken (Pinecone, Qdrant, FAISS), Cloud-KI (z. B. AWS Bedrock).
- Nachgewiesener Betrieb von Systemen im großen Maßstab (Millionen von täglichen API-Aufrufen) mit starken SLOs, Beobachtbarkeit und Incident Management.
- MLOps-Grundlagen: Modell-Registries, Experiment-Tracking, CI/CD, Kubernetes, IaC (z. B. Terraform), Best Practices für Sicherheit.
- Exzellente Kommunikations- und Stakeholder-Management-Fähigkeiten; starkes Produktverständnis mit Fokus auf die Auslieferung von benutzerorientierten Funktionen.
Nice-to-have
- Erfahrung mit GPU/Beschleuniger-Serving und -Optimierung (vLLM, TGI, Triton, ONNX Runtime).
- Kostenoptimierung für LLM-Workloads (Token-Budgets, dynamisches Routing, Caching).
- Evaluierung und Sicherheit/Red-Teaming für generative Systeme; Erfahrung in Startups/schnell wachsenden Unternehmen.
Impact-Metriken
- Plattform: Übernahme eines einheitlichen LLM-Gateways; standardisierte Beobachtbarkeits- und Kostenberichterstattung.
- Lieferung: Auslieferung von 2-3 benutzerorientierten KI-Funktionen mit klaren SLOs und messbarem Einfluss.
- Zuverlässigkeit/Kosten: Reduzierung der durchschnittlichen Latenz und der Kosten pro Anfrage; Implementierung von Autoscaling und Caching.
- Organisation: Etablierung einer Unterteamstruktur; Verbesserung der Codequalität und pünktliche Lieferung; Abschluss gezielter Einstellungen.
Unser Stack
- Backend: Java (JVM), Node.js (NestJS); ereignisgesteuerte Microservices; API-Gateways/Proxies.
- KI-Plattform: Python, PyTorch, LLM-Orchestrierung, Prompt-Pipelines/Registry; Vektor-Datenbanken (Pinecone, Qdrant); RAG-Services.
- Infra/DevOps: AWS (inkl. Bedrock), Kubernetes, Terraform, CI/CD, Beobachtbarkeit (OpenTelemetry, Prometheus/Grafana).
Warum wir?
Internationales & Inklusives Team:
Zusammenarbeit mit diversen Teams an unseren Standorten in München, Frankfurt, Berlin und Sofia.
Moderne & Hundefreundliche Büros:
Ergonomisch, grün und inspirierend für Zusammenarbeit und Produktivität.
Flexibilität:
30 Urlaubstage, flexible Arbeitszeiten und hybrides Arbeiten.
Besondere Freistellung:
Zusätzlicher halber Tag frei an Heiligabend und Silvester.
Workation:
Arbeite für einen begrenzten Zeitraum pro Jahr aus ausgewählten Destinationen remote.
Wellbeing & Mobilitätsleistungen:
Unterstützung für Wohlbefinden und nachhaltigen Lebensstil:
- Urban Sports/EGYM Club Zuschuss: Monatliche Unterstützung für deine Mitgliedschaft.
- Jobticket: 50% monatlicher Zuschuss zum Deutschlandticket.
- JobRad: Leasing von Fahrrädern oder E-Bikes zu attraktiven Konditionen.
Bewerber müssen über eine Arbeitserlaubnis in der EU verfügen; ein Visum-Sponsoring wird für diese Stelle nicht angeboten.

