{
    "version": "https:\/\/jsonfeed.org\/version\/1.1",
    "title": "Yuriy Gavrilov: posts tagged CRISP-ML(Q)",
    "_rss_description": "Welcome to my personal place for love, peace and happiness 🤖 Yuiry Gavrilov",
    "_rss_language": "en",
    "_itunes_email": "yvgavrilov@gmail.com",
    "_itunes_categories_xml": "",
    "_itunes_image": "https:\/\/gavrilov.info\/pictures\/userpic\/userpic-square@2x.jpg?1643451008",
    "_itunes_explicit": "no",
    "home_page_url": "https:\/\/gavrilov.info\/tags\/crisp-ml-q\/",
    "feed_url": "https:\/\/gavrilov.info\/tags\/crisp-ml-q\/json\/",
    "icon": "https:\/\/gavrilov.info\/pictures\/userpic\/userpic@2x.jpg?1643451008",
    "authors": [
        {
            "name": "Yuriy Gavrilov - B[u]g - for charity.gavrilov.eth",
            "url": "https:\/\/gavrilov.info\/",
            "avatar": "https:\/\/gavrilov.info\/pictures\/userpic\/userpic@2x.jpg?1643451008"
        }
    ],
    "items": [
        {
            "id": "248",
            "url": "https:\/\/gavrilov.info\/all\/crisp-ml-q-standartizirovannaya-metodologiya-razrabotki-mashinno\/",
            "title": "CRISP-ML(Q)+MLOps and Platform: Стандартизированная методология разработки машинного обучения с гарантией качества",
            "content_html": "<div class=\"e2-text-picture\">\n<img src=\"https:\/\/gavrilov.info\/pictures\/image-194.png.jpg\" width=\"2560\" height=\"1421\" alt=\"\" \/>\n<\/div>\n<p>CRISP-ML(Q) (<b>C<\/b>ross-<b>I<\/b>ndustry <b>S<\/b>tandard <b>P<\/b>rocess for <b>M<\/b>achine <b>L<\/b>earning with <b>Q<\/b>uality Assurance) — это современная процессная модель для управления жизненным циклом ML-проектов. Она была разработана как эволюция классической методологии <a href=\"https:\/\/www.datascience-pm.com\/crisp-dm-still-most-popular\/\">CRISP-DM<\/a> (Cross-Industry Standard Process for Data Mining, 1999 г.), которая остается одной из самых популярных методологий для проектов по анализу данных <a href=\"https:\/\/www.datascience-pm.com\/crisp-dm-still-most-popular\/\">datascience-pm.com<\/a>. CRISP-ML(Q) адаптирует и расширяет CRISP-DM, добавляя этапы, критичные для промышленного машинного обучения: <b>обеспечение качества, мониторинг и поддержку моделей в продакшене<\/b>.<\/p>\n<p>Возникновение CRISP-ML(Q) продиктовано статистикой: значительная часть ML-проектов (по некоторым оценкам, 75-85%) не достигали поставленных целей из-за отсутствия стандартизации, проблем с данными и недооценки операционных рисков. В отличие от CRISP-DM, который сосредоточен в первую очередь на процессе анализа данных <a href=\"https:\/\/medium.com\/voice-tech-podcast\/cross-industry-standard-process-for-data-mining-crisp-dm-9edc0c5e3a1\">medium.com<\/a>, CRISP-ML(Q) охватывает <b>полный жизненный цикл<\/b> — от бизнес-постановки до эксплуатации ML-систем, делая основной акцент на обеспечении качества на каждом шаге <a href=\"https:\/\/www.mdpi.com\/2076-3417\/11\/19\/8861\">mdpi.com<\/a>.<\/p>\n<p>Кстати ранее писал про The Big Book of MLOps – 2nd Edition: <a href=\"https:\/\/gavrilov.info\/all\/sintez-the-big-book-of-mlops-2nd-edition\/\">https:\/\/gavrilov.info\/all\/sintez-the-big-book-of-mlops-2nd-edition\/<\/a><\/p>\n<p>А еще тут добавлю про ZenML pdf’ку и <a href=\"https:\/\/github.com\/zenml-io\/zenml\">https:\/\/github.com\/zenml-io\/zenml<\/a><\/p>\n<h3>Ключевые фазы методологии (6 этапов)<\/h3>\n<p>CRISP-ML(Q) структурирует процесс разработки ML-решений в шесть основных взаимосвязанных и итеративных фаз:<\/p>\n<ol start=\"1\">\n<li><b>Понимание бизнеса и данных (Business Understanding & Data Understanding)<\/b>  <br \/>\nНа этом начальном этапе определяются и понимаются бизнес-цели проекта (например, снижение времени обработки заявки на 20%), а также ключевые показатели эффективности (KPI). Эти бизнес-цели затем переводятся в конкретные задачи машинного обучения. Одновременно проводится глубокий анализ данных: исследуется их доступность, качество, потенциальные проблемы (пропуски, аномалии) и нормативные ограничения (например, GDPR), а также оцениваются необходимые ресурсы. На этом этапе могут использоваться инструменты типа ML Canvas для оценки осуществимости проекта.<\/li>\n<\/ol>\n<ol start=\"2\">\n<li><b>Инженерия данных (Data Engineering)<\/b>  <br \/>\nЭта фаза включает всестороннюю подготовку данных для моделирования. Это очистка данных (обработка пропущенных значений, удаление или корректировка выбросов), их трансформация (нормализация, стандартизация), балансировка классов (методы oversampling\/undersampling), а также генерация новых, более информативных признаков (feature engineering). Важным нововведением здесь является внедрение <b>Data Unit Tests<\/b> для предотвращения ошибок и поддержания качества данных до их использования в моделях.<\/li>\n<\/ol>\n<ol start=\"3\">\n<li><b>Моделирование машинного обучения (Machine Learning Modeling)<\/b>  <br \/>\nНа этом этапе команда выбирает подходящие алгоритмы машинного обучения, учитывая такие ограничения, как интерпретируемость модели, вычислительные ресурсы и требования к времени отклика. Происходит обучение моделей, настройка гиперпараметров и оценка их производительности на валидационных наборах данных. Для обеспечения воспроизводимости и отслеживаемости всех экспериментов фиксируются метаданные: используемые гиперпараметры, версии датасетов, окружение выполнения. Применяются такие инструменты, как MLflow и Kubeflow.<\/li>\n<\/ol>\n<ol start=\"4\">\n<li><b>Оценка качества ML-моделей (Quality Assurance)<\/b>  <br \/>\nЭто одна из ключевых отличительных фаз CRISP-ML(Q), выделенная в отдельный этап. Здесь проводится всестороннее тестирование модели: оценка ее устойчивости к зашумленным данным, проверка ключевых метрик (accuracy, F1-score, ROC-AUC) и глубокий анализ справедливости (fairness) для выявления и устранения потенциальных смещений в предсказаниях. Решение о переходе к развертыванию принимается только после того, как модель достигнет заданных пороговых значений качества (например, precision > 0.9). Эта фаза может включать проверку надежности, стабильности и объяснимости модели <a href=\"https:\/\/www.mdpi.com\/2076-3417\/11\/19\/8861\">mdpi.com<\/a>.<\/li>\n<\/ol>\n<ol start=\"5\">\n<li><b>Развертывание (Deployment)<\/b>  <br \/>\nНа этом этапе обученная и проверенная модель интегрируется в производственную среду. Развертывание может осуществляться различными способами: как REST-API, микросервис или встроенный плагин. Используются стратегии безопасного развертывания, такие как A\/B-тестирование, канареечные релизы или сине-зеленое развертывание. Обязательной частью этой фазы является наличие четкого плана отката на предыдущую версию в случае возникновения сбоев или неожиданной деградации производительности.<\/li>\n<\/ol>\n<ol start=\"6\">\n<li><b>Мониторинг и поддержка (Monitoring & Maintenance)<\/b>  <br \/>\nПосле развертывания модели начинается фаза непрерывного мониторинга её производительности в реальных условиях. Это критически важно, так как модели машинного обучения могут терять свою эффективность со временем из-за дрейфа данных (concept drift или data drift). Мониторинг включает отслеживание метрик производительности модели, выявление аномалий и автоматическое переобучение при падении метрик или существенном изменении распределения входных данных. Также на этом этапе происходит сбор новых данных, которые могут быть использованы для последующего ретренинга моделей, замыкая цикл улучшения <a href=\"https:\/\/www.mdpi.com\/2076-3417\/11\/19\/8861\">mdpi.com<\/a>.<\/li>\n<\/ol>\n<h3>Таблица 1: Сравнение CRISP-DM и CRISP-ML(Q)<\/h3>\n<table cellpadding=\"0\" cellspacing=\"0\" border=\"0\" class=\"e2-text-table\">\n<tr>\n<td><b>Аспект<\/b><\/td>\n<td><b>CRISP-DM<\/b><\/td>\n<td><b>CRISP-ML(Q)<\/b><\/td>\n<\/tr>\n<tr>\n<td><b>Фазы<\/b><\/td>\n<td>6 этапов<\/td>\n<td>6 этапов + углубление в QA<\/td>\n<\/tr>\n<tr>\n<td><b>Фокус<\/b><\/td>\n<td>Data Mining, анализ данных<\/td>\n<td>End-to-end ML-приложения, производство<\/td>\n<\/tr>\n<tr>\n<td><b>Мониторинг<\/b><\/td>\n<td>Не включен как отдельный этап<\/td>\n<td>Обязательная фаза №6<\/td>\n<\/tr>\n<tr>\n<td><b>Воспроизводимость<\/b><\/td>\n<td>Частичная, не стандартизирована<\/td>\n<td>Документирование метаданных, версионирование<\/td>\n<\/tr>\n<tr>\n<td><b>Риск-менеджмент<\/b><\/td>\n<td>Не явно выражен<\/td>\n<td>Встроен в каждый этап, риск-ориентированный подход<\/td>\n<\/tr>\n<tr>\n<td><b>Обеспечение качества<\/b><\/td>\n<td>В основном, оценка модели<\/td>\n<td>Системный QA на всех этапах жизненного цикла<\/td>\n<\/tr>\n<\/table>\n<h3>Таблица 2: Детализация Задач по Фазам CRISP-ML(Q)<\/h3>\n<table cellpadding=\"0\" cellspacing=\"0\" border=\"0\" class=\"e2-text-table\">\n<tr>\n<td><b>Фаза<\/b><\/td>\n<td><b>Задачи<\/b><\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: center\"><b>1. Понимание Бизнеса и Данных<\/b><\/td>\n<td>– Определение бизнес-целей проекта.<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: center\"><\/td>\n<td>– Перевод бизнес-целей в цели машинного обучения (ML-цели).<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: center\"><\/td>\n<td>– Выявление и сбор доступных данных.<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: center\"><\/td>\n<td>– Верификация и первичный анализ данных.<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: center\"><\/td>\n<td>– Оценка осуществимости проекта (техническая, ресурсная, экономическая).<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: center\"><\/td>\n<td>– Создание концепции\/доказательства концепции (POC – Proof of Concept), если необходимо.<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: center\"><\/td>\n<td>– Определение нормативных и этических ограничений.<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: right\"><b>2. Инженерия Данных<\/b><\/td>\n<td>– Отбор признаков (feature selection).<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: center\"><\/td>\n<td>– Отбор данных (data selection), создание выборок.<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: center\"><\/td>\n<td>– Балансировка классов (методы oversampling\/undersampling).<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: center\"><\/td>\n<td>– Очистка данных (снижение шума, обработка пропущенных значений, удаление\/коррекция выбросов).<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: center\"><\/td>\n<td>– Инженерия признаков (feature engineering), создание новых признаков.<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: center\"><\/td>\n<td>– Аугментация данных (data augmentation) для увеличения объема обучающих данных.<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: center\"><\/td>\n<td>– Стандартизация\/нормализация данных.<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: center\"><\/td>\n<td>– Реализация <b>Data Unit Tests<\/b> для контроля качества входных данных.<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: center\"><b>3. Инженерия ML-модели<\/b><\/td>\n<td style=\"text-align: left\">– Определение метрик качества модели (например, точность, F1-score, ROC AUC).<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: center\"><\/td>\n<td>– Выбор алгоритма машинного обучения (включая выбор базового\/эталонного решения – baseline).<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: center\"><\/td>\n<td>– Добавление специфических знаний предметной области для специализации модели.<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: center\"><\/td>\n<td>– Обучение модели.<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: center\"><\/td>\n<td>– Опционально: применение трансферного обучения (Transfer Learning) с использованием предобученных моделей.<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: center\"><\/td>\n<td>– Опционально: сжатие модели (Model Compression) для оптимизации ресурсов.<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: center\"><\/td>\n<td>– Опционально: использование ансамблевого обучения (Ensemble Learning).<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: center\"><\/td>\n<td>– Тщательное документирование ML-модели и проведенных экспериментов (метаданные, гиперпараметры, версии).<\/td>\n<\/tr>\n<tr>\n<td><b>4. Оценка Качества ML-модели<\/b><\/td>\n<td>– Валидация производительности модели на тестовых данных.<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: center\"><\/td>\n<td>– Определение робастности (устойчивости) модели к изменениям во входных данных.<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: center\"><\/td>\n<td>– Повышение объяснимости (Explainability) модели (например, с использованием SHAP, LIME).<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: center\"><\/td>\n<td>– Оценка справедливости (Fairness) модели для предотвращения смещений.<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: center\"><\/td>\n<td>– Принятие решения о развертывании модели (Deploy\/No Deploy) на основе установленных порогов качества.<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: center\"><\/td>\n<td>– Документирование фазы оценки и принятых решений.<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: center\"><\/td>\n<td>– Проведение аудита модели.<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: center\"><b>5. Развертывание Модели<\/b><\/td>\n<td>– Оценка модели в производственных условиях (производительность, стабильность, потребление ресурсов).<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: center\"><\/td>\n<td>– Обеспечение приемлемости для пользователя и удобства использования системы.<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: center\"><\/td>\n<td>– Управление моделью (Model Governance): контроль версий, политики доступа.<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: center\"><\/td>\n<td>– Развертывание согласно выбранной стратегии (A\/B-тестирование, многорукие бандиты, канареечные релизы, сине-зеленое развертывание).<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: center\"><\/td>\n<td>– Разработка плана отката (rollback plan) на случай проблем.<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: center\"><b>6. Мониторинг и Поддержка Модели<\/b><\/td>\n<td>– Мониторинг эффективности и результативности предсказаний модели в продакшене.<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: center\"><\/td>\n<td>– Сравнение данных производительности модели с ранее заданными критериями успеха и порогами (например, деградация метрик).<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: center\"><\/td>\n<td>– Выявление дрейфа данных (data drift) и концептуального дрейфа (concept drift).<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: center\"><\/td>\n<td>– Принятие решения о необходимости переобучения модели.<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: center\"><\/td>\n<td>– Сбор новых данных из продакшена.<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: center\"><\/td>\n<td>– Выполнение разметки новых точек данных для обновления обучающей выборки.<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: center\"><\/td>\n<td>– Повторение задач из фаз “Инженерия модели” и “Оценка модели” при переобучении.<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: center\"><\/td>\n<td>– Непрерывная интеграция (CI), непрерывное обучение (CT) и непрерывное развертывание (CD) модели в рамках MLOps пайплайна.<\/td>\n<\/tr>\n<\/table>\n<h3>Принципы обеспечения качества (QA)<\/h3>\n<p>CRISP-ML(Q) интегрирует принципы обеспечения качества на каждом этапе цикла разработки ML:<\/p>\n<ul>\n<li><b>Риск-ориентированный подход<\/b>: Для каждой фазы идентифицируются потенциальные риски (например, смещение данных, переобучение, дрейф модели), и разрабатываются методы их минимизации. Примеры включают использование кросс-валидации, объяснимых моделей (таких как SHAP для интерпретации предсказаний) и тщательное логирование экспериментов.<\/li>\n<li><b>Документирование<\/b>: Поддерживается строгая документация требований, версий данных, используемых метрик оценки и любых изменений в пайплайне. Инструменты типа Model Cards Toolkit могут использоваться для создания прозрачных отчетов о моделях.<\/li>\n<li><b>Автоматизация пайплайнов<\/b>: Для обеспечения воспроизводимости и эффективности процессов активно используются автоматизированные конвейеры (data pipelines, ML pipelines).<\/li>\n<\/ul>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/gavrilov.info\/pictures\/image-194.png-1.jpg\" width=\"2560\" height=\"1919\" alt=\"\" \/>\n<div class=\"e2-text-caption\">pic. Этапы оценки рисков<\/div>\n<\/div>\n<h3>MLOps: Концепция, Инструменты и Сравнение с Apache Airflow<\/h3>\n<p>MLOps — это, по сути, <b>инженерная дисциплина<\/b>, сосредоточенная на автоматизации и масштабировании жизненного цикла ML-систем, включая CI\/CD (непрерывная интеграция\/непрерывная поставка) для моделей, автоматизированное тестирование и мониторинг в продакшене <a href=\"https:\/\/www.mdpi.com\/2076-3417\/11\/19\/8861\">mdpi.com<\/a>.<br \/>\nCRISP-ML(Q), напротив, является <b>процессной моделью<\/b>, которая задает последовательность шагов и необходимых активностей для успешного выполнения ML-проекта.<\/p>\n<p>Таким образом, они дополняют друг друга:<\/p>\n<ul>\n<li>CRISP-ML(Q) определяет <b>“что делать”<\/b> и “когда делать” на каждом этапе жизненного цикла ML-проекта, фокусируясь на методологии и целях.<\/li>\n<li>MLOps предоставляет <b>инструменты и практики<\/b> для реализации этих “что делать”, отвечая на вопрос “как делать”.<\/li>\n<\/ul>\n<h4>Apache SeaTunnel и Apache DolphinScheduler в контексте MLOps<\/h4>\n<p>На этапе <b>инженерии данных<\/b> и <b>мониторинга<\/b> в рамках MLOps-пайплайна часто требуются мощные инструменты для интеграции, обработки и оркестрации данных. Здесь на помощь приходят такие открытые фреймворки и платформы, как <b>Apache SeaTunnel<\/b> и <b>Apache DolphinScheduler<\/b>.<\/p>\n<ul>\n<li><b>Apache SeaTunnel<\/b>: Этот фреймворк является высокопроизводительным, распределенным решением для интеграции и синхронизации больших объемов данных <a href=\"https:\/\/news.apache.org\/foundation\/entry\/asf-project-spotlight-apache-seatunnel\">news.apache.org<\/a>. Он позволяет быстро и эффективно перемещать данные между различными источниками (например, базы данных, облачные хранилища, Kafka) и потребителями данных.  <br \/>\n> В контексте MLOps, SeaTunnel играет ключевую роль в:  <br \/>\n> –   <b>Подготовке данных<\/b>: Автоматизация сбора, очистки и трансформации данных для обучения и переобучения моделей. Это включает потоковую ETL\/ELT обработку, что обеспечивает актуальность и качество обучающих данных.  <br \/>\n> –   <b>Получении данных для мониторинга<\/b>: Сбор метрик производительности модели и данных о её входящих запросах из различных систем для последующего анализа дрейфа данных или деградации производительности.  <br \/>\n> –   <b>Интеграции с ML-платформами<\/b>: SeaTunnel может выступать в качестве универсального коннектора для передачи данных в хранилища признаков (feature stores) или напрямую в тренировочные пайплайны.  <br \/>\n> Фактически, SeaTunnel унифицирует процесс синхронизации и интеграции данных, поддерживая разнообразные источники и цели, необходимые для обработки больших объёмов данных в ML-системах. <a href=\"https:\/\/blog.devgenius.io\/the-evolution-of-apache-seatunnels-technical-architecture-and-its-applications-in-the-ai-field-24706d6e66e8\">blog.devgenius.io<\/a>. Например, его можно использовать для эффективного сбора данных для поиска сходства между книгами с помощью больших языковых моделей <a href=\"https:\/\/apacheseatunnel.medium.com\/breakthrough-in-the-book-search-field-c7d4ef927c69\">apacheseatunnel.medium.com<\/a>.<\/li>\n<\/ul>\n<ul>\n<li><b>Apache DolphinScheduler<\/b>: Это распределенная платформа для оркестрации рабочих процессов (workflow orchestration) с возможностью визуализации и мониторинга <a href=\"https:\/\/gavrilov.info\/all\/dolphinscheduler-and-seatunnel-vs-airflow-and-nifi\">dolphinscheduler and seatunnel vs airflow and nifi<\/a>. Если Apache SeaTunnel занимается *движением данных*, то DolphinScheduler отвечает за *управление последовательностью задач*.  <br \/>\n> В MLOps DolphinScheduler может использоваться для:  <br \/>\n> –   <b>Оркестрации ML-пайплайнов<\/b>: Автоматизация запуска задач по подготовке данных (с помощью SeaTunnel), обучению моделей, их оценке, развертыванию и мониторингу. Он позволяет определять зависимости между задачами, управлять их выполнением по расписанию или по событию, а также обрабатывать ошибки.  <br \/>\n> –   <b>Управление ресурсами<\/b>: Эффективное распределение вычислительных ресурсов для различных этапов ML-рабочих процессов.  <br \/>\n> –   <b>Мониторинг рабочих процессов<\/b>: Предоставление наглядных дашбордов для отслеживания статуса пайплайнов, выявления узких мест и оперативного реагирования на сбои. <a href=\"https:\/\/blog.devgenius.io\/workflow-as-code-sagemaker-new-gameplay-with-dolphinschedulers-machine-learning-stock-selection-ad0422e8aae5\">blog.devgenius.io<\/a>.<\/li>\n<\/ul>\n<h4>SeaTunnel и DolphinScheduler против Apache Airflow<\/h4>\n<p>Обычно для оркестрации рабочих процессов в MLOps применяется <b>Apache Airflow<\/b>. Однако, в определенных сценариях, комбинация <b>Apache DolphinScheduler и Apache SeaTunnel<\/b> может предложить преимущества:<\/p>\n<ul>\n<li><b>Apache Airflow<\/b>: Широко используется для создания, планирования и мониторинга программно определенных рабочих процессов (DAGs – Directed Acyclic Graphs) <a href=\"https:\/\/risingwave.com\/blog\/which-one-wins-apache-airflow-or-spark-showdown\/\">risingwave.com<\/a>. Он обладает высокой гибкостью и огромным комьюнити.<\/li>\n<li><b>Преимущества DolphinScheduler + SeaTunnel в MLOps<\/b>:\n<ul>\n  <li><b>Специализация<\/b>: SeaTunnel <b>специализируется на высокопроизводительной передаче данных<\/b>, что делает его более эффективным для задач, связанных с перемещением и синхронизацией больших объемов данных, часто возникающих в ML. Airflow, с другой стороны, является более общим оркестратором.<\/li>\n  <li><b>Визуализация и удобство<\/b>: DolphinScheduler часто отмечается за его более интуитивный графический интерфейс и drag-and-drop функциональность, что может упростить создание и управление ML-пайплайнами для пользователей с меньшим опытом программирования, чем в Airflow, который требует написания кода на Python для DAGs. <a href=\"https:\/\/dev.to\/seatunnel\/dolphinscheduler-and-seatunnel-vs-airflow-and-nifi-2jg0\">dev.to<\/a>. DolphinScheduler поддерживает модель “Workflow as Code”, но дополняется более удобной визуализацией.<\/li>\n  <li><b>Распределенная архитектура<\/b>: DolphinScheduler изначально разрабатывался как распределенная система, что может быть преимуществом для очень больших и сложных рабочих процессов, эффективно распределяя нагрузку.<\/li>\n  <li><b>Комплексное решение для данных<\/b>: Сочетание DolphinScheduler с SeaTunnel предоставляет более цельное решение для управления <b>как потоками данных, так и рабочими процессами<\/b>, тогда как Airflow требует интеграции с отдельными инструментами для обработки данных.<\/li>\n<\/ul>\n<\/li>\n<\/ul>\n<p>В итоге, выбор между Airflow и связкой DolphinScheduler + SeaTunnel зависит от конкретных потребностей проекта, в частности от объема и сложности задач по интеграции данных, а также от предпочтений команды в отношении визуализации и кодирования пайплайнов.<\/p>\n<h4>Примеры MLOps-платформ: Databricks и ZenML<\/h4>\n<p>На рынке существуют как открытые, так и коммерческие MLOps-платформы, которые объединяют различные инструменты для реализации полного цикла ML-разработки:<\/p>\n<ul>\n<li><b>Databricks<\/b>: Эта компания является одним из лидеров в области озер данных (Data Lakehouse) и MLOps. Их платформа предоставляет интегрированную среду для полной цепочки MLOps: от подготовки данных с использованием Apache Spark (ядра платформы Databricks <a href=\"https:\/\/risingwave.com\/blog\/which-one-wins-apache-airflow-or-spark-showdown\/\">risingwave.com<\/a>), обучения моделей, управления экспериментами (MLflow, разработанный Databricks) до развертывания и мониторинга. “The big book of MLOps от Databricks” — это всеобъемлющее руководство, которое детализирует их подход к построению MLOps-систем, подчеркивая важность воспроизводимости, автоматизации и совместной работы.<\/li>\n<li><b>ZenML<\/b>: Это Extensible MLOps фреймворк, ориентированный на Developer Experience. ZenML позволяет создавать портативные, воспроизводимые и масштабируемые MLOps-пайплайны, абстрагируя пользователей от сложности базовой инфраструктуры. Он поддерживает множество интеграций с другими популярными ML-библиотеками и платформами (например, TensorFlow Extended, PyTorch, Kubeflow, MLflow), позволяя командам выбирать лучшие инструменты для своих задач, сохраняя при этом единую MLOps-структуру. ZenML фокусируется на “workflow-as-code” и модульности, что делает его гибким решением для различных MLOps-сценариев.<\/li>\n<\/ul>\n<p>Из россияйских есть Neoflex Dognauts она обеспечивает полный цикл разработки и эксплуатации<br \/>\nML-моделей для решения задач бизнеса. Это единая платформа корпоративного MLOps позволяет управлять всем жизненным циклом DS\/ML от постановки бизнес-задач до управления внедренными моделями <a href=\"https:\/\/neoflex.dognauts.ru\/#about\">Neoflex Dognauts<\/a><\/p>\n<h4>Коммерческая реализация WhaleOps<\/h4>\n<p>На рынке существуют и коммерческие реализации платформ, основанные на технологиях Apache и тесно интегрированные с принципами CRISP-ML(Q) и MLOps. Одним из ярких примеров является компания <b>WhaleOps Technology<\/b>. <a href=\"https:\/\/www.linkedin.com\/company\/whaleops\">linkedin.com<\/a> Основанная в августе 2021 года ключевыми участниками проектов Apache DolphinScheduler и Apache SeaTunnel, WhaleOps специализируется на создании решений для DataOps и MLOps. <a href=\"https:\/\/github.com\/WhaleOps\">github.com<\/a> Платформа WhaleOps предлагает комплексный набор инструментов, который помогает компаниям внедрять и управлять ML-моделями в продакшене, используя открытые стандарты и обеспечивая высокий уровень автоматизации и контроля качества на всех этапах жизненного цикла модели. <a href=\"https:\/\/cn.linkedin.com\/company\/whaleops\">cn.linkedin.com<\/a> Такая интеграция open-source фреймворков и коммерческих платформ позволяет организациям строить масштабируемые и надежные ML-системы, полностью соответствующие лучшим практикам, описанным в CRISP-ML(Q).<\/p>\n<h3>Практические кейсы применения<\/h3>\n<p>CRISP-ML(Q) применяется в различных отраслях для создания надежных и управляемых ML-решений:<\/p>\n<ul>\n<li><b>Предиктивное обслуживание в Mercedes-Benz<\/b>: Использование CRISP-ML(Q) для прогнозирования поломок автомобилей. На фазе мониторинга был выявлен дрейф данных, вызванный изменением условий эксплуатации, что потребовало своевременного переобучения моделей для поддержания их точности.<\/li>\n<li><b>Кредитный скоринг в банках<\/b>: На фазе оценки качества (QA) методики CRISP-ML(Q) помогли обнаружить смещение модели против клиентов старше 60 лет. Это позволило скорректировать модель перед её развертыванием, обеспечив справедливость и соответствие этическим нормам.<\/li>\n<\/ul>\n<h3>Критика и ограничения<\/h3>\n<p>Несмотря на свои преимущества, CRISP-ML(Q) имеет и некоторые ограничения:<\/p>\n<ul>\n<li><b>Сложность внедрения<\/b>: Для небольших проектов или стартапов, возможно, будет избыточным следование всем детальным процедурам CRISP-ML(Q) из-за требований к документации и ресурсам.<\/li>\n<li><b>Нехватка инструментов<\/b>: Хотя MLOps предоставляет множество инструментов, некоторые аспекты QA, такие как автоматизированная проверка этики или полностью автоматизированное управление дрейфом данных, все еще требуют активного участия человека и не всегда полностью автоматизированы.<\/li>\n<\/ul>\n<h3>Заключение<\/h3>\n<p>CRISP-ML(Q) — это наиболее полная и зрелая методология для управления промышленными ML-проектами. Она успешно закрывает пробелы CRISP-DM за счет:<\/p>\n<ol start=\"1\">\n<li><b>Системного обеспечения качества (QA)<\/b> на всех этапах жизненного цикла.<\/li>\n<li><b>Эффективного эксплуатационного мониторинга<\/b> развернутых моделей.<\/li>\n<li><b>Пристального внимания к воспроизводимости<\/b> всех экспериментов и моделей.<\/li>\n<\/ol>\n<p>Для достижения максимального успеха в ML-проектах рекомендуется комбинировать методологические рамки CRISP-ML(Q) с инженерными практиками MLOps. Интеграция мощных open-source фреймворков, таких как Apache SeaTunnel и Apache DolphinScheduler, а также использование комплексных MLOps-платформ, как Databricks или ZenML, и коммерческих решений вроде WhaleOps, позволяет автоматизировать и масштабировать эти процессы. Дальнейшее развитие методологии, вероятно, будет направлено на стандартизацию этических аудитов и дальнейшую автоматизацию процессов обработки дрейфа данных, делая ML-системы ещё более надёжными и управляемыми.<\/p>\n<h3>Источники<\/h3>\n<ul>\n<li>Оригинальная статья CRISP-DM: <a href=\"https:\/\/medium.com\/voice-tech-podcast\/cross-industry-standard-process-for-data-mining-crisp-dm-9edc0c5e3a1\">https:\/\/medium.com\/voice-tech-podcast\/cross-industry-standard-process-for-data-mining-crisp-dm-9edc0c5e3a1<\/a><\/li>\n<li>CRISP-DM и его популярность: <a href=\"https:\/\/www.datascience-pm.com\/crisp-dm-still-most-popular\/\">https:\/\/www.datascience-pm.com\/crisp-dm-still-most-popular\/<\/a><\/li>\n<li>CRISP-ML(Q) и MLOps: <a href=\"https:\/\/www.mdpi.com\/2076-3417\/11\/19\/8861\">https:\/\/www.mdpi.com\/2076-3417\/11\/19\/8861<\/a><\/li>\n<li>Руководство по выбору алгоритма: <a href=\"https:\/\/www.kdnuggets.com\/2020\/05\/guide-choose-right-machine-learning-algorithm.html\">https:\/\/www.kdnuggets.com\/2020\/05\/guide-choose-right-machine-learning-algorithm.html<\/a><br \/>\n<i>image-194.png.jpg<\/i><\/li>\n<li>Подробное описание CRISP-ML(Q) на Medium: <a href=\"https:\/\/medium.com\/@desmondonam\/understanding-the-crisp-ml-q-1e8c5bbfb8cb\">https:\/\/medium.com\/@desmondonam\/understanding-the-crisp-ml-q-1e8c5bbfb8cb<\/a><\/li>\n<li>Apache SeaTunnel (официальный проект): <a href=\"https:\/\/news.apache.org\/foundation\/entry\/asf-project-spotlight-apache-seatunnel\">news.apache.org<\/a><\/li>\n<li>SeaTunnel – эволюция архитектуры: <a href=\"https:\/\/blog.devgenius.io\/the-evolution-of-apache-seatunnels-technical-architecture-and-its-applications-in-the-ai-field-24706d6e66e8\">blog.devgenius.io<\/a><\/li>\n<li>SeaTunnel для поиска (пример): <a href=\"https:\/\/apacheseatunnel.medium.com\/breakthrough-in-the-book-search-field-c7d4ef927c69\">apacheseatunnel.medium.com<\/a><\/li>\n<li>DolphinScheduler и SeaTunnel vs Airflow и NiFi: <a href=\"https:\/\/dev.to\/seatunnel\/dolphinscheduler-and-seatunnel-vs-airflow-and-nifi-2jg0\">dev.to<\/a><\/li>\n<li>DolphinScheduler – Workflow as Code + SageMaker: <a href=\"https:\/\/blog.devgenius.io\/workflow-as-code-sagemaker-new-gameplay-with-dolphinschedulers-machine-learning-stock-selection-ad0422e8aae5\">blog.devgenius.io<\/a><\/li>\n<li>Apache Airflow vs Spark: <a href=\"https:\/\/risingwave.com\/blog\/which-one-wins-apache-airflow-or-spark-showdown\/\">risingwave.com<\/a><\/li>\n<li>WhaleOps Technology (LinkedIn): <a href=\"https:\/\/www.linkedin.com\/company\/whaleops\">linkedin.com<\/a><\/li>\n<li>WhaleOps Technology (GitHub): <a href=\"https:\/\/github.com\/WhaleOps\">github.com<\/a><\/li>\n<li>WhaleOps Technology (LinkedIn CN): <a href=\"https:\/\/cn.linkedin.com\/company\/whaleops\">cn.linkedin.com<\/a><\/li>\n<li>Databricks: (“The big book of MLOps от Databricks” – ссылка на книгу, если доступна, или на соответствующий раздел сайта Databricks. Например: <a href=\"https:\/\/www.databricks.com\/solutions\/accelerators\/mlops\">databricks.com<\/a>)<\/li>\n<li>ZenML: <a href=\"https:\/\/zenml.io\/\">zenml.io\/<\/a><\/li>\n<\/ul>\n",
            "date_published": "2025-07-03T00:32:17+03:00",
            "date_modified": "2025-07-03T00:34:26+03:00",
            "tags": [
                "CRISP-ML(Q)",
                "MLOps"
            ],
            "image": "https:\/\/gavrilov.info\/pictures\/image-194.png.jpg",
            "_date_published_rfc2822": "Thu, 03 Jul 2025 00:32:17 +0300",
            "_rss_guid_is_permalink": "false",
            "_rss_guid": "248",
            "_rss_enclosures": [],
            "_e2_data": {
                "is_favourite": false,
                "links_required": [],
                "og_images": [
                    "https:\/\/gavrilov.info\/pictures\/image-194.png.jpg",
                    "https:\/\/gavrilov.info\/pictures\/image-194.png-1.jpg"
                ]
            }
        }
    ],
    "_e2_version": 4171,
    "_e2_ua_string": "Aegea 11.4 (v4171e)"
}