loader
image back arrow Все вакансии

MLOps / DevOps Engineer

ПольшаSenior

Мы быстро растем – и предлагаем тебе расти с нами. В Innowise ты сможешь не только развиваться как эксперт в своей области, решать сложные задачи и влиять на результат, но и видеть, как готовый проект влияет на мир вокруг. Мы – сплоченная команда профессионалов, которые уже реализовали 1600+ кейсов для клиентов из США, Дании, Германии и пр. Нам нужен тот, кто усилит нашу команду и станет частью комьюнити!

Для успешной работы на проектах нужны:

  • Знание и опыт работы с Infrastructure & IaC: управление серверной/облачной инфраструктурой (Public/Private), IaC-инструментами (Terraform, Bicep и др.), Docker и Kubernetes
  • Опыт работы с CI/CD: проектирование и поддержка CI/CD в продакшен-средах
  • Опыт работы с MLOps / ALM: развертывание и работа с MLflow, Kubeflow, ClearML или аналогичными платформами
  • Опыт работы с Incident Management: опыт расследования причин сбоев (RCA) и стабилизации критических систем
  • Сильный бэкграунд в Linux системах (RHEL/Rocky/SLES)
  • Опыт работы с Data Analytics & Data Analysis (работа с Databricks)
  • Уверенное владение Python и Bash или PowerShell для автоматизации
  • Опыт работы с реляционными БД (PostgreSQL), сетевыми файловыми системами (NFS) и объектными хранилищами (S3, Blob-совместимыми)
  • Знание английского языка на уровне Intermediate+ (для работы с документацией и международными командами)

Будут плюсом:

  • Глубокий опыт работы с HPC-планировщиками (PBS Professional, Torque, Slurm)
  • Навыки связывания традиционных HPC-систем с современными cloud-native платформами (Kubernetes, MLOps-стеки) и настройка гибридного масштабирования (cloud bursting) в публичные или частные облака
  • Понимание MPI-нагрузок (OpenMPI, MPICH) и планирования GPU (стек NVIDIA, концепции MIG/MPS)
  • Опыт работы с параллельными файловыми системами (строго предпочтителен Lustre)
  • Опыт управления конфигурациями (Ansible, Puppet или аналоги)

Чем предстоит заниматься:

  • Проектирование, развертывание и поддержка отказоустойчивой инфраструктуры для платформ машинного обучения и конвейеров данных (Python, SQL) на базе клаудов (Azure, AWS, GCP) или on-premises решений
  • Внедрение процессов управления жизненным циклом (ALM) для ML-моделей, автоматизация процессов обучения, версионирования и деплоя (MLflow, Kubeflow, ClearML или аналогичные платформы)
  • Обеспечение надежности, масштабируемости и высокой доступности MLOps-инфраструктуры
  • Проектирование и управление распределенными вычислительными средами (bare metal, VM, private/public cloud)
  • Контейнеризация ML-сервисов и приложений с использованием Docker и Kubernetes, обеспечение их безопасного вывода в продакшен
  • Автоматизация развертывания инфраструктуры и конфигурации кластеров с помощью подходов IaC (Terraform, Bicep, и др.)
  • Разработка, внедрение и поддержка надежных CI/CD-пайплайнов (GitLab CI, GitHub Actions, Jenkins, Azure DevOps)
  • Настройка комплексного мониторинга и observability (логирование, метрики, дашборды) для контроля задержек и состояния кластеров
  • Диагностика узких мест производительности, устранение сбоев на уровне узлов и сети, проведение Root Cause Analysis (RCA) в рамках управления инцидентами

Мы предлагаем

offer

Опыт работы с клиентами из США, Канады, стран ЕС и СНГ

offer

Оплата труда, привязанная к курсу доллара

offer

Спортивный абонемент

offer

Индивидуальный english assessment и подготовка к интервью с заказчиками

offer

Медицинская страховка

Хочешь в команду?

Напиши нам

Остались вопросы по вакансии?

Задай их нашим рекрутерам, написав на почту: