Python Engineer (LLM Evaluation & Analytics Engineer)

Оплата не указана

Требуемый опыт работы

От 3 до 6 лет

Тип занятости

Полная занятость

График работы

Удаленная работа

Обязанности:
  • Автоматизированная валидация промтов

писать на Python скрипты, которые:

• берут тестовые сценарии (JSON/CSV);

​ • вызывают актуальные промт-инструкции (через API LLM или локальный сервер);

​ • сохраняют ответы, метаданные и оценки (rouge/BLEU/LLM-as-judge/ручные метки);

​ • формируют отчёты (Markdown/CSV/DB) и алерты при деградации качества;

​ • поддерживать пайплайн с дифф-тестами при каждом изменении промта.

  • Подготовка тестовых датасетов

    ​ • собирать и курировать сценарии (user stories, edge-cases, негативные примеры);

    ​ • анонимизировать, версионировать и документировать выборку.

  • ​Аналитические дашборды (Redash)

    ​ • писать SQL-запросы и визуализации;

    ​ • настраивать auto-refresh и рассылку отчётов.

  • Сотрудничество

    ​ • работать с продакт-менеджером и дизайнером промтов;

    ​ • помогать формулировать метрики качества (precision@k, hallucination rate, UX CSAT)

Требования:

• Python-бэкграунд (3+ года) — асинхронность или multiprocessing, pandas / polars.

• Работа с LLM-стеком и промт-инженерией — вызов моделей, управление параметрами температуры, топ-p; понимание RAG-архитектуры и ограничений больших языковых моделей.

• Автоматизированная оценка качества модели — разработка скриптов pairwise / LLM-as-Judge, метрики ROUGE / BLEU / BERTScore / hallucination rate, отчёты о деградациях.

• Дашборды и аналитика — создание информативных визуализаций.

• Английский не ниже B2 — чтение технических статей, ведение переписки и созвонов с международными коллегами.

Желательно иметь

• опыт с LLM-as-Judge подходами (gpt-4-o scoring и т.д.);

• знание Grafana/Prometheus для runtime-метрик;

• опыт A/B-экспериментов или онлайн-валидиции моделей.

Условия:
  • График работы с 10:00 до 19:00 (гибко, можно обсуждать)
  • Удаленный формат работы
  • Доступ к современным инструментам и технологиям, обучение и профессиональное развитие.
  • Дружелюбная и поддерживающая команда, открытая к инновациям и новым идеям.

Ключевые навыки

Python
Postgresql
Sqlite
Version control/git
Redash

Контактная информация

Воронцова Тамара Александровна

Сайт: qoo.qa

Почта: не указана

Вакансия опубликована 03.06.2025 в г. Москва.

Похожие вакансии

#

Москва

Подробное описание

15 мая

#

Москва

Удаленная работа

Подробное описание

27 мая