- Startseite
- Remote Jobs
- AI Quality Analyst
AI Quality Analyst
Eckdaten
Arbeitsmodell
Unternehmensbeschreibung
MillionLogics ist ein vertrauenswürdiger Oracle-Partner und weltweit führend bei IT-Lösungen mit Standorten in London (UK) und einem Entwicklungszentrum in Hyderabad (Indien). Wir sind spezialisiert auf innovative und skalierbare Dienstleistungen und unterstützen Unternehmen durch Daten & KI, Cloud-Lösungen, IT-Beratung und individuelle Anwendungsentwicklung. Mit einem Team von 85 KI/ML-Experten liefern wir maßgeschneiderte Lösungen, die digitale Transformation und operative Exzellenz fördern. Wir engagieren uns für den Erfolg unserer Kunden und verbinden erstklassige technische Expertise mit strategischem Weitblick.
Rollenübersicht
In dieser Position bewerten Sie eine neue Personalisierungsfunktion für Gemini. Sie beurteilen, wie gut das Modell Informationen aus Ihren vergangenen Gemini-Konversationen, Gmail, Google-Suche und YouTube-Aktivitäten nutzt, um Antworten relevanter und hilfreicher zu gestalten. Diese Rolle erfordert eine einzigartige Mischung aus Kreativität und analytischer Strenge. Sie entwerfen aktiv Prompts aus der Perspektive Ihrer persönlichen Erfahrungen und nutzen Ihre analytischen Fähigkeiten, um die Qualität der personalisierten Antworten des Modells anhand von Dimensionen wie Grounding, Integration und Hilfreichkeit zu bewerten.
Angebotsdetails
- Vertragsdauer: 6 Monate
- Vergütung: 1700 $ pro Monat (Netto/Auszahlungsbetrag)
- Arbeitsmodus: Vollständig remote
- Anzahl der Stellen: 20
Anforderungen und Qualifikationen
- Deutschkenntnisse: Fähigkeit, Deutsch auf hohem Niveau zu lesen und zu schreiben, da Deutsch die Fokus-Sprache für dieses Projekt ist.
- Persönliche Kontonutzung: Bereitschaft, Ihr primäres persönliches Google-Konto (kein Testkonto) zu verwenden und persönliche Datenquellen für eine echte Bewertung zu aktivieren.
- Zeitliche Flexibilität: Vollzeitverfügbarkeit in Ihrer lokalen Zeitzone ist erforderlich. Wir stellen ein globales 24-Stunden-Betriebsteam zusammen.
- Analytisches Denken: Fähigkeit, nuancierte und mehrdeutige KI-Antworten zu bewerten, insbesondere hinsichtlich der Personalisierungsqualität.
- Kreatives Prompt Engineering: Erfahrung im Entwerfen kreativer, mehrstufiger Prompts basierend auf persönlichem Kontext.
- Bewertungskompetenz: Verständnis von Personalisierungskonzepten, einschließlich der Identifizierung falscher Personalisierungen oder schlechter Schlussfolgerungen.
- Detailgenauigkeit: Fähigkeit, Side-by-Side (SxS) Modellantworten zu prüfen und subtile Unterschiede in Natürlichkeit und Erzählweise zu erkennen.
- Schriftliche Kommunikation: Überlegene Fähigkeit, klare, prägnante und strukturierte Begründungen für Modellrankings zu verfassen.
- Feedback: Fähigkeit, konstruktives Feedback und detaillierte Annotationen zu geben.
- Arbeitsweise: Selbstmotiviert und fähig, unabhängig in einer Remote-Umgebung zu arbeiten.
- Technische Ausstattung: Desktop/Laptop mit guter Internetverbindung.
Aufgabenbereiche
- Entwurf und Ausführung von mehrstufigen Konversations-Prompts (1-5 Schritte), die die Nutzung Ihrer persönlichen Informationen erfordern.
- Bewertung der Modellantworten basierend auf Ihrer Absicht aus dem Start-Prompt.
- Analyse der Antworten auf Grounding-Probleme, um sicherzustellen, dass Behauptungen durch Beweise gestützt werden.
- Bewertung der Integrationsqualität, um sicherzustellen, dass persönliche Daten natürlich in die Antwort eingebunden werden.
- Strenge Bewertung und Stack-Ranking von zwei Modellantworten (SxS), um zu bestimmen, welche hilfreicher, benutzerfreundlicher und angenehmer ist.
- Verfassen klarer, fundierter Begründungen für Ihre Vergleiche.
- Extrahieren und Verifizieren von "Debug Info", um die korrekte Nutzung von Chat-Zusammenfassungen und Datenquellen zu bestätigen.
- Einhaltung strenger Datenhygiene durch Löschen von Evaluationskonversationen.
Bildung & Erfahrung
- BS/BA-Abschluss oder gleichwertige Erfahrung in einem relevanten Bereich (z. B. Politik, Recht, Ethik, Linguistik, Journalismus, Informatik).
- Erfahrung in Datenannotation, KI-Qualitätsbewertung, Content-Moderation oder einer verwandten Rolle wird dringend bevorzugt.
Zusätzliche Details
- Verpflichtungen: Mindestens 4 Stunden pro Tag und bis zu 40 Stunden pro Woche mit 4 Stunden Überschneidung mit PST.
- Engagement-Typ: Auftragnehmer (Contractor)