MLOps / DevOps Engineer
ПольшаSenior
Мы быстро растем – и предлагаем тебе расти с нами. В Innowise ты сможешь не только развиваться как эксперт в своей области, решать сложные задачи и влиять на результат, но и видеть, как готовый проект влияет на мир вокруг. Мы – сплоченная команда профессионалов, которые уже реализовали 1600+ кейсов для клиентов из США, Дании, Германии и пр. Нам нужен тот, кто усилит нашу команду и станет частью комьюнити!
Для успешной работы на проектах нужны:
- Знание и опыт работы с Infrastructure & IaC: управление серверной/облачной инфраструктурой (Public/Private), IaC-инструментами (Terraform, Bicep и др.), Docker и Kubernetes
- Опыт работы с CI/CD: проектирование и поддержка CI/CD в продакшен-средах
- Опыт работы с MLOps / ALM: развертывание и работа с MLflow, Kubeflow, ClearML или аналогичными платформами
- Опыт работы с Incident Management: опыт расследования причин сбоев (RCA) и стабилизации критических систем
- Сильный бэкграунд в Linux системах (RHEL/Rocky/SLES)
- Опыт работы с Data Analytics & Data Analysis (работа с Databricks)
- Уверенное владение Python и Bash или PowerShell для автоматизации
- Опыт работы с реляционными БД (PostgreSQL), сетевыми файловыми системами (NFS) и объектными хранилищами (S3, Blob-совместимыми)
- Знание английского языка на уровне Intermediate+ (для работы с документацией и международными командами)
Будут плюсом:
- Глубокий опыт работы с HPC-планировщиками (PBS Professional, Torque, Slurm)
- Навыки связывания традиционных HPC-систем с современными cloud-native платформами (Kubernetes, MLOps-стеки) и настройка гибридного масштабирования (cloud bursting) в публичные или частные облака
- Понимание MPI-нагрузок (OpenMPI, MPICH) и планирования GPU (стек NVIDIA, концепции MIG/MPS)
- Опыт работы с параллельными файловыми системами (строго предпочтителен Lustre)
- Опыт управления конфигурациями (Ansible, Puppet или аналоги)
Чем предстоит заниматься:
- Проектирование, развертывание и поддержка отказоустойчивой инфраструктуры для платформ машинного обучения и конвейеров данных (Python, SQL) на базе клаудов (Azure, AWS, GCP) или on-premises решений
- Внедрение процессов управления жизненным циклом (ALM) для ML-моделей, автоматизация процессов обучения, версионирования и деплоя (MLflow, Kubeflow, ClearML или аналогичные платформы)
- Обеспечение надежности, масштабируемости и высокой доступности MLOps-инфраструктуры
- Проектирование и управление распределенными вычислительными средами (bare metal, VM, private/public cloud)
- Контейнеризация ML-сервисов и приложений с использованием Docker и Kubernetes, обеспечение их безопасного вывода в продакшен
- Автоматизация развертывания инфраструктуры и конфигурации кластеров с помощью подходов IaC (Terraform, Bicep, и др.)
- Разработка, внедрение и поддержка надежных CI/CD-пайплайнов (GitLab CI, GitHub Actions, Jenkins, Azure DevOps)
- Настройка комплексного мониторинга и observability (логирование, метрики, дашборды) для контроля задержек и состояния кластеров
- Диагностика узких мест производительности, устранение сбоев на уровне узлов и сети, проведение Root Cause Analysis (RCA) в рамках управления инцидентами
Мы предлагаем
Опыт работы с клиентами из США, Канады, стран ЕС и СНГ
Оплата труда, привязанная к курсу доллара
Спортивный абонемент
Индивидуальный english assessment и подготовка к интервью с заказчиками
Медицинская страховка