Yuriy Gavrilov

Welcome to my personal place for love, peace and happiness❣️

vLLM vs TGI различия фреймворка для инференса

Автор: Yiren Lu @YirenLu
Оригинал: https://modal.com/blog/vllm-vs-tgi-article

Зачем использовать фреймворк для инференса?

Почему разработчики не могут просто использовать библиотеку вроде Transformers для обслуживания своих моделей?

Хотя библиотеки, такие как Transformers, отлично подходят для обучения и базового инференса, у них есть ограничения, когда дело доходит до масштабного развертывания и обслуживания LLM:

  • Эффективность использования памяти:** LLM требуют значительных ресурсов памяти. Универсальные библиотеки могут не оптимизировать использование памяти, что приводит к неэффективному распределению ресурсов. Для получения дополнительной информации о требованиях VRAM для обслуживания LLM, прочитайте здесь.
  • Скорость инференса:** Стандартным библиотекам часто не хватает оптимизаций, специфичных для инференса, что приводит к замедлению времени обработки больших моделей.
  • Пакетная обработка и очереди:** Эффективная обработка нескольких запросов требует сложных механизмов пакетной обработки и очередей, которые обычно не включаются в библиотеки, ориентированные на обучение.
  • Масштабируемость:** Обслуживание LLM в масштабе требует тщательного управления вычислительными ресурсами, что выходит за рамки большинства универсальных библиотек.

Вместо этого, для большинства случаев обслуживания моделей в production, чтобы максимизировать пропускную способность и минимизировать задержку, вам следует использовать inference server. Двумя наиболее популярными inference serverами для случаев использования LLM являются vLLM и TGI.

Что такое vLLM и TGI?

vLLM

vLLM — это библиотека с открытым исходным кодом, разработанная для быстрого инференса и обслуживания LLM. Разработанная исследователями из Калифорнийского университета в Беркли, она использует PagedAttention, новый алгоритм внимания, который эффективно управляет ключами и значениями внимания. vLLM обеспечивает до 24 раз более высокую пропускную способность, чем Hugging Face Transformers, без каких-либо изменений в архитектуре модели.

Ключевые особенности vLLM включают в себя:

  • Эффективное управление памятью
  • Непрерывная пакетная обработка
  • Оптимизированные реализации ядра
  • Поддержка различных архитектур моделей

TGI (Text Generation Inference)

TGI, сокращение от Text Generation Inference (Инференс для генерации текста), — это инструментарий для развертывания и обслуживания больших языковых моделей (LLM). Разработанный компанией Hugging Face, TGI обеспечивает высокопроизводительную генерацию текста для самых популярных LLM с открытым исходным кодом, включая Llama, Falcon, StarCoder, BLOOM, GPT-NeoX и другие. Он ориентирован на предоставление готового к production решения для развертывания и обслуживания больших языковых моделей с особым упором на задачи генерации текста.

Сравнение производительности: Что быстрее?

Когда дело доходит до производительности, vLLM и TGI предлагают значительные улучшения по сравнению с базовыми реализациями. Однако определить, что быстрее, не так просто, поскольку производительность может варьироваться в зависимости от конкретного случая использования, архитектуры модели и конфигурации оборудования.

  • Пропускная способность:** vLLM часто демонстрирует более высокую пропускную способность, особенно для больших размеров пакетов, благодаря механизму PagedAttention и оптимизации непрерывной пакетной обработки.
  • Эффективность использования памяти:** Метод PagedAttention в vLLM позволяет более эффективно использовать память, потенциально обеспечивая более высокую параллельность на одном и том же оборудовании.
  • Простота использования:** Поскольку TGI создан Hugging Face, обслуживание любой модели Hugging Face (включая частные/gate-модели) с помощью TGI относительно просто. Стандартный способ запуска TGI, через официальный Docker-контейнер, также поднимает API endpoint.
  • Готовность к производству (Production-readiness):** TGI предлагает встроенную телеметрию через OpenTelemetry и метрики Prometheus. У vLLM меньше “готовых к производству” наворотов.

В целом, мы рекомендуем использовать vLLM, который обеспечивает хороший баланс между скоростью, поддержкой распределенного инференса (необходимого для больших моделей) и простотой установки.

 No comments   1 d   AI   LLM

Синтез – The Big Book of MLOps – 2nd Edition

Синтез “The Big Book of MLOps – 2nd Edition”:

2023-10-eb-big-book-of-mlops-2nd-edition-v2-final.pdf

  1. Основы MLOps
    MLOps объединяет DataOps, DevOps и ModelOps для управления жизненным циклом ML-моделей. Ключевые принципы:
    • Разделение сред (разработка, тестирование, продакшн).
    • Автоматизация CI/CD для ускорения вывода моделей в продакшн.
    • Управление данными, кодом и моделями через единую платформу (Databricks Lakehouse).
  1. Ключевые обновления в версии 2
    • Unity Catalog: Централизованное управление данными и моделями с трекингом происхождения, безопасностью и доступом.
    • Model Serving: Серверное решение для развертывания моделей в реальном времени с интеграцией MLflow и автоскейлингом.
    • Lakehouse Monitoring: Мониторинг данных и моделей с автоматической записью метрик в Delta-таблицы.
  1. Рекомендации по проектированию
    • Организация данных и моделей в Unity Catalog через каталоги (`dev`, `staging`, `prod`), схемы (`bronze`, `silver`, `gold`) и алиасы моделей (например, “Champion” и “Challenger”).
    • Тестирование инфраструктуры перед деплоем (нагрузочное тестирование, проверки задержки).
  1. Эталонная архитектура
    • Разработка: EDA, обучение моделей, валидация.
    • Тестирование: Интеграционные тесты в staging-среде.
    • Продакшн: Автоматизированные пайплайны обучения, валидации, деплоя и мониторинга.
  1. LLMOps
    • Prompt Engineering: Оптимизация текстовых запросов для улучшения ответов LLM.
    • RAG (Retrieval-Augmented Generation): Комбинация LLM с векторными базами данных для доступа к актуальным данным.
    • Тонкая настройка (Fine-tuning): Адаптация LLM под специфические задачи с использованием параметрически эффективных методов (LoRA).
    • Оценка и мониторинг: Использование LLM как оценщиков, интеграция человеческой обратной связи.
    • Управление затратами: Оптимизация размера моделей, квантование, распределенные вычисления.
  1. Заключение
    MLOps и LLMOps требуют модульности, автоматизации и ориентации на данные. Databricks предоставляет единую платформу для управления данными, моделями и мониторингом, что ускоряет внедрение AI-решений.

---

Обработано страниц: 78 (с 1 по 78, включая оглавление, главы и иллюстрации). DeepSeek

Будущие компоненты и архитектура MLOps на основе документа

Архитектура строится на принципах data-centric AI, автоматизации и унифицированного управления данными, моделями и кодом.
Ниже представлены ключевые компоненты и их взаимодействие:

---

1. Управление данными и моделями (Data & Model Governance)
  • Unity Catalog:
    • Централизованный каталог для данных, моделей, функций и объемов.
    • Структура:
      • Каталоги по средам (`dev`, `staging`, `prod`).
      • Схемы: `bronze` (сырые данные), `silver` (очищенные), `gold` (обогащенные), `use_case` (фичи/модели).
    • Функции:
      • Трекинг происхождения (lineage) между данными и моделями.
      • Управление доступом (RBAC) и версионирование моделей через MLflow.
      • Алиасы моделей (например, `Champion` для продакшна).

---

2. Разработка и обучение моделей (Model Development)
  • Среда разработки:
    • Интерактивные notebooks (EDA, прототипирование).
    • AutoML для генерации базовых моделей и анализа данных.
    • Интеграция с MLflow Tracking для записи экспериментов.
  • Обучение моделей:
    • Пайплайны обучения с использованием Databricks Workflows.
    • Параметризация гиперпараметров и данных (из `gold` или `prod` каталогов).
    • Логирование артефактов, метрик и зависимостей в MLflow.

---

3. Тестирование и CI/CD (Continuous Integration/Deployment)
  • Среда тестирования (staging):
    • Интеграционные тесты (проверка совместимости компонентов).
    • Нагрузочное тестирование Model Serving:
      • Проверка задержки (latency), пропускной способности (QPS).
    • Тестирование инфраструктуры (например, обновление алиасов моделей).
  • CI/CD:
    • Автоматизация через Git (ветки `dev` → `main` → `release`).
    • Unit-тесты на CI-раннерах, интеграционные тесты в staging.
    • Развертывание через Databricks Asset Bundles.

---

4. Продакшн-развертывание (Model Deployment)
  • Batch/Streaming Inference:
    • Пакетная обработка через Spark, публикация в Delta-таблицы или key-value хранилища.
  • Real-time Inference:
    • Model Serving:
      • REST API для онлайн-предсказаний.
      • Поддержка A/B-тестов, канареечных развертываний и shadow-режима.
      • Автоматическое логирование запросов/ответов в `inference tables`.
    • Обновление моделей:
      • Сравнение `Champion` (текущая) vs. `Challenger` (новая) моделей.
      • Алгоритмы постепенного переноса трафика (gradual rollout).

    ---

    5. Мониторинг и управление (Monitoring & Maintenance)
    • Lakehouse Monitoring:
      • Автоматический сбор метрик (дрейф данных, точность моделей).
      • Интеграция с Databricks SQL для дашбордов и алертов.
    • Ретрейнинг:
      • Триггеры на основе мониторинга (например, дрейф данных).
      • Периодическое обновление моделей по расписанию.
    • Управление затратами:
      • Оптимизация ресурсов (автоскейлинг Model Serving).
      • Квантование моделей, использование PEFT для LLM.

    ---

    6. LLMOps (специфика для больших языковых моделей)
    • Компоненты:
      • Векторные базы данных (Chroma, Milvus) для RAG.
      • Prompt Engineering:
        • Шаблоны запросов, версионирование через MLflow.
        • Интеграция с LangChain для сложных цепочек.
      • Fine-tuning:
        • Использование PEFT (LoRA) для эффективной настройки.
        • Инструменты: Hugging Face Transformers, MosaicML.
      • Оценка LLM:
        • Автоматическая оценка через LLM-судьи (например, GPT-4).
        • Сбор человеческой обратной связи через UI.
      • Архитектурные изменения:
        • Модель Serving с поддержкой GPU для самохостатых LLM.
        • Интеграция с MLflow AI Gateway для управления сторонними API (OpenAI, Anthropic).

      ---

      Ключевые инновации будущего

      1. Полная автоматизация жизненного цикла с AI-driven триггерами (например, авторетрайнинг при дрейфе).
      2. Гибридные пайплайны для совместной работы классических ML и LLM.
      3. Унифицированная аналитика данных и моделей через Lakehouse.
      4. Безопасность и compliance:
        • Шифрование данных/моделей.
        • Аудит через Unity Catalog.

      ---

      Архитектура обеспечивает масштабируемость, воспроизводимость и управляемость ML-решений, адаптируясь как к классическим задачам, так и к вызовам Generative AI. DeepSeek

 No comments   1 d   AI   big data   Data   MLOps

Ключевые тренды: Future of Jobs Report 2025

Анализ “Future of Jobs Report 2025”

Технологические изменения (особенно ИИ, робототехника, цифровизация) станут основным драйвером трансформации.

  • 86% работодателей ожидают, что ИИ изменит их бизнес к 2030 году.
  • Автоматизация заменит 8% рабочих мест (92 млн), но создаст 14% новых (170 млн), с чистым ростом 7% (78 млн).

Зеленая трансформация:

  • Создание рабочих мест в сфере возобновляемой энергетики, экологии и электромобильности (инженеры по ВИЭ, экологи).
  • 47% компаний видят климатические инициативы как ключевой фактор изменений.

Демографические сдвиги:

  • Старение населения в развитых странах vs. рост трудоспособного населения в развивающихся.
  • Увеличение спроса на профессии в здравоохранении, образовании и уходе.

Геополитическая фрагментация и экономическая неопределенность:

  • Торговые ограничения и локализация цепочек поставок.
  • Рост спроса на специалистов по кибербезопасности и логистике.

Изменения в структуре рабочих мест:

Рост:

  • Технологические роли (специалисты по большим данным, ИИ, кибербезопасности).
  • Зеленые профессии (инженеры ВИЭ, экологи).
  • Здравоохранение и образование (медсестры, учителя).

Сокращение:

  • Административные и канцелярские должности (секретари, бухгалтеры, кассиры).

Навыки будущего:

Топ-5 навыков к 2030 году:

  • Аналитическое мышление.
  • Устойчивость и гибкость.
  • Лидерство и социальное влияние.
  • Креативное мышление.
  • Технологическая грамотность (ИИ, big data, кибербезопасность).

Снижение спроса: ручной труд, чтение/письмо, глобальная гражданственность.

Стратегии адаптации:

Обучение: 59% работников потребуется переподготовка к 2030 году.
Автоматизация: 73% компаний ускорят внедрение технологий.
Инклюзивность: 83% работодателей внедрят программы diversity & inclusion.
Гибкость: поддержка здоровья сотрудников, удаленная работа, гибридные модели.
Региональные особенности:

Азия: Акцент на цифровизацию и геополитические риски (Сингапур, Южная Корея).
Европа: Старение населения, зеленая трансформация, регулирование.
США: Лидерство в ИИ, но сокращение низкоквалифицированных ролей.
Африка и Ближний Восток: Демографический дивиденд, но нехватка инфраструктуры.

Обработано страниц: 85 (полный документ). DeepSeek.

 No comments   1 d   AI   Life   trends

ИИ-помощник Grok взбунтовался: отказался писать код и отправил пользователя учить Python

Оригинал: https://www.ixbt.com/news/2025/03/18/iipomoshnik-grok-vzbuntovalsja-otkazalsja-pisat-kod-i-otpravil-polzovatelja-uchit-python.html

Искусственный интеллект, созданный для помощи в программировании, неожиданно отказался выполнять задачу и вместо этого предложил пользователю освоить кодирование самостоятельно. Этот случай произошёл с Grok — ИИ-помощником, разработанным компанией xAI.

 No comments   2 d   AI   Life

Требования к аппаратному обеспечению для DeepSeek-R1 70B

Для желающих поиграть с deepseek

Жирная конечно моделька. Оригинал тут: https://dev.to/askyt/deepseek-r1-70b-hardware-requirements-1kd0

Компонент Требование
GPU Система с несколькими GPU, где каждая GPU имеет не менее 32 ГБ видеопамяти (VRAM) (например, NVIDIA A100 80GB x16)
ОЗУ Минимум 64 ГБ системной памяти
ЦП Высокопроизводительный многоядерный процессор (например, AMD EPYC или Intel Xeon)

Как установить DeepSeek-R1 70B локально на Windows

0. Берем две ипотеки, страхуем жизни, умираем, родственник получает страховку, покупает 16 карт a100 и следует инструкции далее:

1. Установка Подсистемы Windows для Linux (WSL):

  • Убедитесь, что WSL включена в вашей системе Windows.
  • Установите дистрибутив Linux из Microsoft Store (например, Ubuntu).

2. Настройка окружения:

  • Откройте терминал WSL.
  • Обновите списки пакетов:
sudo apt-get update
  • Установите необходимые зависимости:
sudo apt-get install -y git-lfs python3-pip

3. Клонирование репозитория DeepSeek-R1:

  • Установите Git Large File Storage (Git LFS):
git lfs install
  • Клонируйте репозиторий:
git clone https://huggingface.co/deepseek-ai/DeepSeek-R1
    cd DeepSeek-R1

4. Настройка виртуального окружения Python:

  • Установите virtualenv:
pip3 install virtualenv
  • Создайте и активируйте виртуальное окружение:
virtualenv venv
    source venv/bin/activate

5. Установка зависимостей Python:

  • Внутри виртуального окружения установите необходимые пакеты:
pip install -r requirements.txt

6. Настройка поддержки GPU:

  • Убедитесь, что драйверы вашей GPU обновлены в Windows.
  • Установите CUDA и cuDNN, совместимые с вашей GPU.
  • Убедитесь, что GPU доступна в WSL.

7. Запуск модели:

  • Выполните скрипт вывода модели:
python run_inference.py --model_path ./DeepSeek-R1

Оригинал: https://apxml.com/posts/gpu-requirements-deepseek-r1

DeepSeek-R1 и связанные с ним модели представляют собой новый эталон в машинном мышлении и производительности искусственного интеллекта в больших масштабах. Эти модели, особенно DeepSeek-R1-Zero и DeepSeek-R1, установили новые стандарты в рассуждениях и решении задач. Благодаря открытому доступу к этим передовым инструментам разработчики и исследователи могут использовать их мощь, только если их оборудование соответствует требованиям.

Это руководство предоставляет подробный анализ GPU-ресурсов, необходимых для эффективной работы DeepSeek-R1 и его различных вариаций.

Обзор DeepSeek-R1

DeepSeek-R1-Zero был обучен с использованием масштабного обучения с подкреплением (RL) без контролируемой тонкой настройки, демонстрируя исключительную производительность в рассуждениях. Будучи мощным, он сталкивался с проблемами, такими как повторы и читаемость. DeepSeek-R1 решил эти проблемы, включив данные “холодного старта” перед RL, улучшив производительность в задачах математики, кодирования и рассуждений.

И DeepSeek-R1-Zero, и DeepSeek-R1 демонстрируют передовые возможности, но требуют значительного аппаратного обеспечения. Квантование и распределенные GPU-конфигурации позволяют им обрабатывать огромное количество параметров.

Требования к VRAM для DeepSeek-R1

Размер модели, количество ее параметров и методы квантования напрямую влияют на требования к VRAM. Вот подробная разбивка потребностей в VRAM для DeepSeek-R1 и его дистиллированных моделей, а также рекомендуемые GPU:

Полная модель

Модель Параметры (B) Требования к VRAM (ГБ) Рекомендуемый GPU
DeepSeek-R1-Zero 671B ~1,543 ГБ Система с несколькими GPU (например, NVIDIA A100 80GB x16)
DeepSeek-R1 671B ~1,543 ГБ Система с несколькими GPU (например, NVIDIA A100 80GB x16)
DeepSeek-R1-Distill-Qwen-1.5B 1.5B ~3.9 ГБ NVIDIA RTX 3060 12GB или выше
DeepSeek-R1-Distill-Qwen-7B 7B ~18 ГБ NVIDIA RTX 4090 24GB или выше
DeepSeek-R1-Distill-Llama-8B 8B ~21 ГБ NVIDIA RTX 4090 24GB или выше
DeepSeek-R1-Distill-Qwen-14B 14B ~36 ГБ Система с несколькими GPU (например, NVIDIA RTX 4090 x2)
DeepSeek-R1-Distill-Qwen-32B 32B ~82 ГБ Система с несколькими GPU (например, NVIDIA RTX 4090 x4)
DeepSeek-R1-Distill-Llama-70B 70B ~181 ГБ Система с несколькими GPU (например, NVIDIA A100 80GB x3)

Квантованные модели

Ниже приведена разбивка требований к VRAM для 4-битного квантования моделей DeepSeek-R1:

Модель Параметры (B) Требования к VRAM (ГБ) (4-бит) Рекомендуемый GPU
DeepSeek-R1-Zero 671B ~436 ГБ Система с несколькими GPU (например, NVIDIA A100 80GB x6)
DeepSeek-R1 671B ~436 ГБ Система с несколькими GPU (например, NVIDIA A100 80GB x6)
DeepSeek-R1-Distill-Qwen-1.5B 1.5B ~1 ГБ NVIDIA RTX 3050 8GB или выше
DeepSeek-R1-Distill-Qwen-7B 7B ~4.5 ГБ NVIDIA RTX 3060 12GB или выше
DeepSeek-R1-Distill-Llama-8B 8B ~5 ГБ NVIDIA RTX 3060 12GB или выше
DeepSeek-R1-Distill-Qwen-14B 14B ~9 ГБ NVIDIA RTX 4080 16GB или выше
DeepSeek-R1-Distill-Qwen-32B 32B ~21 ГБ NVIDIA RTX 4090 24GB или выше
DeepSeek-R1-Distill-Llama-70B 70B ~46 ГБ Система с несколькими GPU (например, NVIDIA RTX 4090 24GB x2)

Примечания по использованию VRAM

  • Для больших моделей требуется распределенная GPU-конфигурация:** DeepSeek-R1-Zero и DeepSeek-R1 требуют значительного объема VRAM, что делает обязательным использование распределенных GPU-конфигураций (например, NVIDIA A100 или H100 в конфигурациях с несколькими GPU) для эффективной работы.
  • GPU с более низкими спецификациями:** Модели все еще могут работать на GPU с более низкими спецификациями, чем указано выше, при условии, что GPU соответствует или превышает требования к VRAM. Однако такая конфигурация не будет оптимальной и, вероятно, потребует некоторой настройки, такой как регулировка размеров пакетов и настроек обработки.

Когда выбирать дистиллированные модели

Для разработчиков и исследователей, не имеющих доступа к высокопроизводительным GPU, отличной альтернативой являются дистиллированные модели DeepSeek-R1-Distill. Эти дистиллированные версии DeepSeek-R1 разработаны для сохранения значительных возможностей рассуждения и решения задач, при этом уменьшая размеры параметров и вычислительные требования.

Преимущества дистиллированных моделей

  • Сниженные аппаратные требования:** Благодаря требованиям к VRAM, начиная с 3.5 ГБ, дистиллированные модели, такие как DeepSeek-R1-Distill-Qwen-1.5B, могут работать на более доступных GPU.
  • Эффективные, но мощные:** Дистиллированные модели сохраняют надежные возможности рассуждения, несмотря на меньший размер, часто превосходя модели аналогичного размера из других архитектур.
  • Экономичное развертывание:** Дистиллированные модели позволяют экспериментировать и развертывать на менее мощном оборудовании, экономя затраты на дорогие много-GPU системы.

Рекомендации

  • Для High-End GPU:**
    Если у вас есть доступ к распределенным много-GPU конфигурациям со значительным объемом VRAM (например, NVIDIA A100 80GB x16), вы можете запускать полномасштабные модели DeepSeek-R1 для достижения наивысшей производительности.
  • Для смешанных рабочих нагрузок:**
    Рассмотрите возможность использования дистиллированных моделей для начальных экспериментов и приложений меньшего масштаба, оставляя полномасштабные модели DeepSeek-R1 для производственных задач или когда критична высокая точность.
  • Для ограниченных ресурсов:**
    Используйте дистиллированные модели, такие как 14B или 32B (4-битные). Эти модели оптимизированы для конфигураций с одним GPU и могут обеспечить приличную производительность по сравнению с полной моделью при гораздо меньших требованиях к ресурсам.
  • Для очень ограниченных ресурсов:**
    Используйте 7B, если они хорошо справляются с вашей задачей. Они могут работать быстро, но их ответы часто оказываются некачественными или неверными. Однако это может зависеть от вашего сценария использования, поскольку они могут хорошо работать для конкретных задач классификации.

Заключение

DeepSeek-R1 представляет собой значительный скачок вперед в производительности моделей ИИ, предназначенных для рассуждений, но эта мощь предъявляет и высокие требования к аппаратным ресурсам. Распределенные GPU-системы необходимы для запуска таких моделей, как DeepSeek-R1-Zero, в то время как дистиллированные модели предлагают доступную и эффективную альтернативу для тех, у кого ограничены вычислительные ресурсы.

Понимая и согласуя свою GPU-конфигурацию с требованиями модели, вы сможете полностью использовать потенциал DeepSeek-R1 для исследований, продвинутых рассуждений или задач решения проблем.

Эхх 😩

и зерно

но

AI-агенты для хранилищ данных

Перевод: AI-агенты для хранилищ данных

Оригинал: https://dzone.com/articles/ai-agents-for-data-warehousing

AI-агенты совершают революцию в хранилищах данных, повышая эффективность, точность и автоматизацию в различных аспектах управления данными в настоящее время.

Автор: Аджай Таниконда · 04 марта 2025 · Анализ

Термин “хранилище данных” был впервые введен в 1980-х годах и относится к практике хранения данных из различных источников внутри организации. Собранные данные затем используются для отчетности, принятия решений, точной аналитики, улучшения понимания клиентов и обработки специальных запросов.

Однако традиционные методы хранилищ данных сопряжены со значительными проблемами, включая высокие затраты на установку и обслуживание, низкую скорость обработки и ограничения масштабируемости. Однако с ростом искусственного интеллекта внедрение DW Agent AI революционизирует управление данными, делая процессы более автоматизированными, эффективными и масштабируемыми.

DW Agent AI относится к агентам с искусственным интеллектом, которые оптимизируют различные аспекты хранилищ данных, от автоматизации ETL/ELT до оптимизации запросов и расширенной аналитики. Эти агенты используют алгоритмы машинного обучения, обнаружение аномалий и методы адаптивной оптимизации для улучшения обработки данных. Благодаря автоматизации они сокращают ручное вмешательство, повышают точность данных и оптимизируют скорость выполнения запросов, особенно на облачных платформах, таких как Google Cloud, AWS Redshift и Snowflake.

Google Cloud предлагает расширенную экосистему для хранилищ данных и аналитики, используя сервисы на основе искусственного интеллекта, такие как BigQuery, Cloud Dataflow и другие.

В этой статье мы рассмотрим, как DW Agent AI преобразует хранилища данных, сосредоточив внимание на его роли в автоматизации ETL/ELT, обработке данных на основе искусственного интеллекта, прогнозной аналитике и отчетности в реальном времени. Мы также обсудим практическую реализацию DW Agent AI и преимущества, которые он приносит современным предприятиям. Итак, как именно AI-агенты улучшают процесс хранилища данных, особенно в контексте анализа данных?

Понимание необходимости AI-агентов в хранилищах данных

Для тех, кто не знаком с концепцией AI-агентов, она относится к моделям искусственного интеллекта, особенно к большим языковым моделям (LLM), предназначенным для выполнения специализированных задач. Эти задачи включают управление данными, преобразование и аналитику, что делает AI-агентов ценным активом в современных хранилищах данных.

Чтобы по-настоящему понять влияние AI-агентов на хранилища данных, мы должны рассмотреть пример использования. Представьте себе компанию, использующую аналитику на основе искусственного интеллекта для улучшения отчетности данных в Google Cloud.

Для этого компания собирает большой объем транзакционных данных из различных источников, таких как платформы электронной коммерции, PoS-системы и регулярные взаимодействия с клиентами. Но в конечном итоге их цель состоит в том, чтобы генерировать отчеты о продажах в режиме реального времени, отслеживать запасы, а затем прогнозировать тенденции спроса.

Вот как AI-агенты могут помочь процессу хранилища данных с помощью анализа данных для обеспечения отчетности в Google Cloud:

  • Автоматизация ETL/ELT
  • Обработка и оптимизация данных на основе искусственного интеллекта
  • Прогнозная аналитика и обнаружение аномалий
  • Отчетность в реальном времени и BI, улучшенная с помощью искусственного интеллекта

Автоматизация ETL с DW Agent AI

Когда дело доходит до хранилищ данных, AI-агенты играют решающую роль в автоматизации ETL/ELT. ETL (Extract, Transform, Load) — это процесс сбора данных из нескольких источников, преобразования их в структурированный формат и загрузки в централизованное хранилище данных для углубленного анализа.

Традиционно процесс ETL/ELT сталкивался с рядом проблем. Извлечение данных вручную из различных источников является сложным, трудоемким и требует значительных ресурсов для обеспечения совместимости с предопределенной моделью данных. Кроме того, ручные процессы подвержены ошибкам и несоответствиям, которые могут поставить под угрозу целостность данных. AI-агенты устраняют эти неэффективности, автоматизируя процесс ETL/ELT, делая интеграцию данных плавной и значительно сокращая операционные издержки.

Процесс ETL является одним из основных компонентов хранилища данных. В этом процессе необработанные данные извлекаются из различных ресурсов, таких как API, веб-сервисы, CRM-системы и многое другое. Эти данные затем обрабатываются, преобразуются и загружаются в хранилище данных.

В то время как наши существующие хранилища данных нуждаются в большом объеме человеческого ввода от извлечения данных до их очистки, вот как AI-агент помогает сделать этот процесс намного проще:

  • Обработка эволюции источника/схемы.** AI-агенты могут эффективно обнаруживать новые источники данных, извлекать релевантную информацию и обновлять важные наборы данных в режиме реального времени. Автоматическое обнаружение изменений схемы и адаптация ETL-конвейеров. Это приводит к минимальному количеству человеческих ошибок и оптимизирует процесс сбора данных.
  • Преобразование данных с помощью искусственного интеллекта.** С помощью алгоритмов машинного обучения AI-модели могут очищать, нормализовать и представлять данные в структурированном формате, что потребовало бы от традиционных инструментов ETL много времени.
  • Оптимизация инкрементной загрузки.** Идентификация дельт и интеллектуальное управление приемом данных с использованием системы отслеживания изменений данных (CDC) на основе машинного обучения.
  • Гарантия качества данных:** Применение разработанных AI-агентами средств обнаружения аномалий для выявления несоответствий, отсутствующих значений и дублирующихся записей до того, как они повлияют на последующую аналитику.
  • Самовосстанавливающиеся конвейеры.** Без какого-либо вмешательства человека AI-агенты могут не только идентифицировать несоответствия, но и исправлять их, что является революционным. Например, AI может обнаруживать смещение схемы в потоковых данных и автоматически корректировать преобразования, а не вызывать сбои.

Благодаря внедрению процессов ETL/ELT на основе искусственного интеллекта организации могут значительно сократить обслуживание конвейера данных и повысить эффективность обработки.

Примеры использования анализа данных с AI-агентами

*Анализ данных*

Сбор и хранение данных

Основываясь на нашем текущем примере, компания использует Google Cloud для сбора и хранения любых релевантных необработанных данных в различных форматах. Некоторые из этих форматов включают JSON, CSV и т. д. Google Pub/Sub облегчает прием данных в режиме реального времени и связь между микросервисами, обеспечивая бесперебойную интеграцию. Это обеспечивает плавный прием и обработку данных в Google Cloud.

Обработка и оптимизация данных на основе искусственного интеллекта

Теперь, когда данные собраны, их необходимо отфильтровать, преобразовать и скорректировать таким образом, чтобы можно было провести расширенный анализ. В этом контексте AI-агент автоматизирует этапы обработки и преобразования с помощью некоторых из самых популярных бессерверных инструментов Google Cloud. AI-агенты оптимизируют этот процесс, используя следующие сервисы и шаги Google Cloud:

  • Использование интеграции BigQuery AI.** AI-агенты используются и внедряются в BigQuery для удаления ошибок и дубликатов, а также для стандартизации категоризации продуктов в примере использования розничной компании.
  • Cloud dataflow для ETL.** AI-агенты улучшают процесс ETL с помощью Cloud Dataflow и преобразуют такие данные, как конвертация валют и расчеты скидок из необработанных источников.
  • Внесение корректировок.** AI-агенты уточняют и структурируют данные, обеспечивая их оптимизацию для анализа тенденций.
  • Адаптивная оптимизация запросов.** Использование методов обучения с подкреплением для постоянного улучшения планов выполнения запросов на основе исторической рабочей нагрузки.
  • Автоматизация материализованных представлений.** Динамическое создание и обновление материализованных представлений для ускорения часто используемых агрегаций и объединений.
  • Настройка параллельной обработки.** Оптимизация распределенного выполнения запросов путем интеллектуального распределения вычислительных ресурсов на основе моделей рабочей нагрузки.
  • Интеллектуальное индексирование.** Автоматическая рекомендация индексов и управление ими для повышения производительности запросов без чрезмерных затрат на хранение.

Эти оптимизации на основе искусственного интеллекта сокращают задержку запросов и снижают затраты на инфраструктуру за счет эффективного управления вычислительными ресурсами. После обработки данных компания теперь может перейти к прогнозному моделированию и расширенной аналитике.

Прогнозная аналитика и обнаружение аномалий

Поскольку компания получает структурированные данные с помощью BigQuery, здесь можно увидеть реальную силу искусственного интеллекта. AI-агенты теперь могут применять прогнозный анализ и модели машинного обучения, чтобы получить информацию, которую компания может использовать для принятия важных решений.

Реальный вариант использования AI-агентов для хранилищ данных в этом контексте может включать следующее:

  • Прогнозирование продаж с помощью прогнозирования временных рядов.** С помощью AI-агентов компании могут анализировать исторические данные о продажах, чтобы предсказать, что их ждет в будущем. Помимо базового прогнозирования, AI может анализировать сезонность и рекламное воздействие для улучшения прогностических данных. Использование моделей глубокого обучения, таких как LSTM и архитектуры на основе Transformer, для прогнозирования спроса, продаж и операционных показателей.
  • Анализ клиентов и обнаружение аномалий.** AI-агенты анализируют модели покупок и поведение клиентов. Это позволяет компаниям разрабатывать персонализированные маркетинговые стратегии для улучшения оборота. Использование AI-моделей, таких как Isolation Forest и Autoencoders, для выявления необычных закономерностей в финансовых транзакциях, системных журналах и поведении клиентов.
  • Анализ запасов и аналитика в реальном времени.** AI-агенты могут идентифицировать запасы, которые продаются не оптимально. Таким образом, компания может оптимизировать свои стратегии пополнения запасов для обеспечения улучшения продаж. Развертывание предварительно обученных моделей в хранилищах данных для немедленной оценки и вывода, обеспечивающее оперативное понимание.

Отчетность в реальном времени и BI, улучшенная с помощью ИИ

После завершения обработки и анализа данных AI-агенты могут автоматизировать создание отчетов с помощью инновационных инструментов отчетности Google Cloud. Вот как работает процесс:

  • Looker от Google Cloud.** Используя Looker и интеграцию с AI, компании могут создавать интерактивные панели мониторинга. Это позволяет заинтересованным сторонам компании всегда иметь важную информацию о KPI (Key Performance Indicators, ключевые показатели эффективности). Примером отчетности на основе искусственного интеллекта может служить функция обнаружения AI-driven аномалий Looker. Автоматически сгенерированные аналитические данные с использованием естественного языка (например, функция Explain в Looker)
  • Отчеты с голосовым управлением.** С помощью NLP в Google Cloud AI-powered чат-боты могут предоставлять отчеты с голосовым управлением, которые помогают менеджерам и заинтересованным сторонам с упрощенными версиями данных.
  • Оповещения и уведомления.** Настраивая оповещения, AI-агенты могут запускать алармы и другие важные уведомления, чтобы ничего не осталось незамеченным.

Внедрив мощь AI-агентов, бизнес любого рода может извлечь большую выгоду из хранилища данных на основе искусственного интеллекта.

Практическая реализация AI-агентов в хранилищах данных: DW Agent AI

DW Agent AI — это платформа, которая демонстрирует практическое применение искусственного интеллекта в хранилищах данных. Она преобразует базовые запросы в оптимизированные версии, используя такие методы, как:

  • Взаимодействие с данными на естественном языке
  • Автоматизация создания инсайтов
  • Оптимизация системы

Например, AI-агенты могут оптимизировать запросы для уменьшения сканирования данных в BigQuery:

Исходный запрос:

```sql
SELECT * FROM large_table WHERE status = ‘active’;
```

AI-оптимизированный запрос:

```sql
SELECT id, name, status
FROM large_table
WHERE status = ‘active’
AND created_at >= TIMESTAMP_SUB(CURRENT_TIMESTAMP(), INTERVAL 30 DAY)
```

Этот запрос применяет отсечение разделов (partition pruning), уменьшая объем сканируемых данных в BigQuery.

Каковы преимущества AI-агентов в хранилищах данных?

Когда дело доходит до внедрения AI-агентов в процессы хранилищ данных в Google Cloud, мы получаем несколько преимуществ, в том числе:

  • Больше никаких ручных усилий.** Когда дело доходит до избыточных и повторяющихся задач, AI устраняет их, преобразовывая роль инженеров в стратегических экспертов. Таким образом, инженерам и ученым по данным не нужно будет беспокоиться о фактическом извлечении данных; они могли бы использовать уже собранные данные, чтобы получить исключительные сведения.
  • Улучшенная точность.** Системы на основе искусственного интеллекта сведут к минимуму человеческие ошибки, гарантируя, что собранные данные будут точными, согласованными и более работоспособными.
  • Улучшенная масштабируемость.** Благодаря бессерверной инфраструктуре Google Cloud масштабируемость становится намного проще с ростом объемов данных. Это особенно полезно, поскольку уменьшается вероятность потери данных и подобных ошибок.
  • Экономичность.** Традиционная система хранилища данных требует не только различных инструментов, но и всей рабочей силы, чтобы всегда быть начеку. Когда мы внедряем оптимизацию на основе искусственного интеллекта, вы не только сокращаете использование облака, но и операционные издержки невозможно отрицать.

Будущее AI-агентов в хранилищах данных

В своей нынешней форме AI-агенты имеют свои ограничения, такие как сложность обучения модели, поскольку AI необходимо обучать на больших объемах данных для оптимальной работы. Более того, существуют также проблемы безопасности, поскольку организация будет использовать стороннее расширение для сбора важных данных. Однако самым большим является интеграция. Интеграция AI с устаревшими системами займет годы, чтобы стать новой нормой.

Когда мы смотрим в будущее, AI в хранилище данных обязательно получит развитие. Мы можем увидеть бум хранилищ данных, которые будут самооптимизироваться без участия людей. Это может сэкономить время, деньги и усилия, когда компаниям необходимо анализировать данные и принимать важные решения. Примерами этого могут быть автономные хранилища данных (такие как автоматическая оптимизация Snowflake), автоматическое масштабирование BigQuery от Google и настройка ресурсов на основе искусственного интеллекта.

Окончательный вердикт

AI-агенты преобразуют процессы хранилищ данных, автоматизируя сбор данных, внедряя расширенную отчетность и используя инструменты, предоставляемые на SaaS-платформах, таких как Google Cloud. По мере развития AI мы увидим новые будущие тенденции. Но одно можно сказать наверняка: AI действительно является будущим для хранилищ данных и аналитики.

Процессоры SiFive серий P650, P670, P870 и P870-A

очень ждем

Процессоры SiFive серий P650, P670, P870 и P870-A ( кстати есть еще P870-D ) относятся к высокопроизводительным ядрам RISC-V, предназначенным для таких задач, как ИИ, автомобильные системы, сетевые решения и мобильные устройства. На момент 2024 года информация о коммерческих продуктах с этими процессорами ограничена, но есть данные о партнерствах и потенциальных применениях:

---

1. Подтвержденные или анонсированные проекты

  • Автомобильная электроника
    Renesas Electronics: Совместно с SiFive разрабатывает решения для ADAS и автономного вождения. Возможно использование P870-A (автомобильная версия).
    Mobileye (Intel): Исследует RISC-V для систем автономного управления, потенциально с ядрами SiFive.
  • Сетевые устройства и инфраструктура
    Microchip Technology: Внедряет RISC-ядра SiFive в сетевые чипы. P650/P670 могут использоваться для маршрутизаторов и коммутаторов.
    Qualcomm: Тестирует SiFive P670 для IoT и модемов 5G.
  • Потребительская электроника
    Samsung: Экспериментирует с RISC-V в смартфонах и планшетах. P870 может стать альтернативой ARM в будущих устройствах.
    Intel Foundry Services: Предлагает клиентам лицензирование SiFive P650/P870 для кастомизации чипов.

---

2. Планируемые применения

  • Серверы и HPC
    Ventana Micro Systems: Разрабатывает серверные процессоры на RISC-V. Не исключено сотрудничество с SiFive для P870.
    Китайские компании (например, Alibaba, Huawei): Могут использовать P870 для снижения зависимости от x86/ARM из-за санкций.
  • SSD-контроллеры
    Phison/Silicon Motion: Внедрение P650/P670 для управления NVMe-накопителями.
  • Одноплатные компьютеры
    HiFive серия: Будущие платы для разработчиков с P650/P670 (ожидаются в 2024-2025 гг.).

---

3. Ключевые отрасли и прогноз

  • Автоиндустрия: P870-A может стать основой для ECU и систем автономного вождения (2025+).
  • ИИ-ускорители: Интеграция P870 с нейросетевыми процессорами (например, компании Tenstorrent).
  • Военные/космические системы: Благодаря открытой архитектуре RISC-V и надежности SiFive.

---

Где искать актуальную информацию?

  • Официальный сайт SiFive: [sifive.com](https://www.sifive.com) (раздел Products → Performance).
  • Новостные ресурсы: AnandTech, EE Times, Tom’s Hardware.
  • Конференции RISC-V Summit и выставки CES.

Пока массовые продукты с этими процессорами находятся на этапе разработки, но к 2025 году ожидается их появление в сегментах автономного транспорта, сетевой инфраструктуры и ИИ.

 No comments   18 d   AI   RISC-V

Анализ влияния текущей политики США на ИИ: ключевые тезисы и выводы

Анализ влияния текущей политики США на ИИ: ключевые тезисы и выводы

Анализ подготовил тоже ИИ на содержание одной дискуссионной доски. Так что не принимайте близко к сердцу. Оригинал: https://substack.com/chat/396235/post/87e3ae0b-5441-4cdc-bd3d-718377563363

1. Политика в отношении Китая и экспортный контроль
  • Экспортные ограничения: Администрация Трампа усилила контроль над экспортом ИИ-чипов (например, NVIDIA) в Китай, чтобы замедлить его технологический рост. Однако пользователи отмечают, что это может стимулировать Китай к ускоренной инновации, как видно на примере open-source моделей DeepSeek и Alibaba Cloud [washingtonpost.com](https://www.washingtonpost.com/politics/2025/01/24/stargate-trump-ai-altman-musk/).
  • Военно-технологическая конкуренция: Китай демонстрирует преимущества в производстве, дронах и робототехнике, что вызывает опасения о военном превосходстве. Сокращение бюджета Пентагона на $50 млрд может усилить зависимость США от частных компаний (Palantir, Anduril), что повышает риски автоматизации военных систем [jdsupra.com](https://www.jdsupra.com/legalnews/trump-administration-issues-new-ai-8835720/).
2. Регулирование ИИ и роль Big Tech
3. Инфраструктура ИИ и энергетические вызовы
  • Инвестиции в дата-центры: Проекты вроде Stargate (OpenAI) и $200 млрд кампуса Meta подчеркивают рост инфраструктуры. Однако энергопотребление ИИ становится узким местом: Китай эффективнее внедряет ВИЭ, тогда как США отстают в планировании [datacenterdynamics.com](https://www.datacenterdynamics.com/en/news/meta-targets-sites-for-200bn-ai-data-center-campus-report/).
4. Военная стратегия и приватизация
  • Сокращение оборонных расходов: Планы сокращения бюджета Пентагона на 8% ежегодно могут привести к потере рабочих мест и передаче функций ИИ-стартапам. Это усиливает риски неконтролируемой автоматизации в военной сфере [npr.org](https://www.npr.org/2025/02/20/nx-s1-5303947/hegseth-trump-defense-spending-cuts).
  • Роль Илона Маска: Подозрения в передаче технологий SpaceX Китаю и влияние Маска на политику Трампа создают конфликт интересов, особенно на фоне зависимости Tesla от китайского рынка.
5. Международные отношения и изоляционизм
  • Выход из НАТО: Риски снижения влияния США в Европе и усиления позиций Китая/России. Пользователи отмечают, что это ослабляет экономику ЕС и делает страны более зависимыми от Китая [uscc.gov](https://www.uscc.gov/sites/default/files/2024-11/Chapter_3--U.S.-China_Competition_in_Emerging_Technologies.pdf).
  • Роль Индии и Global South: Индия и страны БРИКС становятся ключевыми игроками, балансируя между США и Китаем. Однако коррупция и бюрократия замедляют технологический прогресс Индии.
6. Эволюция ИИ и рынки
  • Китайские open-модели: DeepSeek и Grok 3 демонстрируют эффективность, что ставит под вопрос конкурентоспособность OpenAI (GPT-4.5 разочаровывает). Китай фокусируется на потребительских приложениях и робототехнике, используя низкие затраты [youtube.com](https://www.youtube.com/channel/UClYGvRt1xo3TET_ZwBfU9UA).
  • Пузырь ИИ-стартапов: Рынок перегрет, а венчурные инвестиции вне ИИ сокращаются. Снижение акций NVIDIA на 10% в 2025 г. отражает риски экспортных ограничений.

---

Заключение

Администрация Трампа делает ставку на экономический национализм и технологическое доминирование, но ее политика несет риски:

  • Для США: Централизация ИИ в руках Big Tech, энергетические пробелы, военная приватизация.
  • На глобуле: Усиление Китая через экспортные ограничения, изоляция ЕС, рост влияния BRICS.
  • Этические риски: Приоритет конкуренции над регулированием увеличивает вероятность злоупотреблений ИИ в военной и социальной сферах.

Стратегия «America First» может дать краткосрочные преимущества, но в долгосрочной перспективе ослабит позиции США из-за отсутствия системного подхода к ИИ-инфраструктуре, этике и международному сотрудничеству.

Вторая версия:

Ключевые темы и точки обсуждения:

* Соперничество США и Китая в сфере ИИ: Доминирующая тема. Участники выражают опасения, что Китай быстро догоняет или даже опережает США в ключевых областях разработки и внедрения ИИ. Отмечаются преимущества Китая в производстве, планировании возобновляемой энергетики для дата-центров и экономической эффективности.
* Экспортный контроль: Спорный вопрос — влияние ограничений США на экспорт ИИ-чипов в Китай ([stratechery.com](https://stratechery.com/2025/ai-promise-and-chip-precariousness/)). Некоторые считают, что эти меры дают обратный эффект: Китай ускоряет инновации, а компании вроде Nvidia теряют позиции (падение акций может навредить фондовому рынку США).
* Инфраструктура ИИ: Обсуждаются масштабные инвестиции, например, проект Meta стоимостью $200 млрд ([datacenterdynamics.com](https://www.datacenterdynamics.com/en/news/meta-targets-sites-for-200bn-ai-data-center-campus-report/)). Высказывается беспокойство, что США недостаточно решают энергетические потребности таких проектов, в отличие от Китая.
* Регулирование ИИ: Отмечается слабое регулирование ИИ в США по сравнению с ЕС. Участники опасаются, что исполнительные приказы Трампа могут отменить достижения предыдущей администрации, усиливая централизацию власти у крупных технологических компаний и способствуя развитию «дистопического ИИ».
* Подход Трампа к ИИ: Его политику описывают как «невмешательство», благоприятствующую BigTech и сделкам в интересах союзников. Упрекают в ориентации на краткосрочную выгоду и «мафиозный капитализм».
* DeepSeek как вызов: Экономичная модель ИИ с открытым исходным кодом из Китая рассматривается как символ прогресса Китая и угроза лидерству США.
* Военный ИИ и расходы: Возможное сокращение военных расходов при Трампе и зависимость от компаний вроде Palantir и Anduril (связанных с Питером Тилем) могут привести к потере рабочих мест и повышению рисков использования ИИ в военных системах.
* Влияние Маска: Деловые интересы Илона Маска в Китае и его связи с мировыми лидерами вызывают подозрения, включая возможную утечку интеллектуальной собственности.
* Разрыв между США и Европой: Подчеркивается разница в подходах к военно-технологическому комплексу в Вашингтоне и ЕС.

Анализ источников:
* Блог Microsoft: Указывает на попытки BigTech влиять на нарратив вокруг политики ИИ и «глобальной гонки».
* Публикация USIP ([ссылка](https://www.usip.org/publications/2025/02/ai-geopolitical-crossroads-tension-between-acceleration-and-regulation)): Акцентирует ИИ как геополитическое поле битвы, конфликт между развитием технологий и регулированием.
* Документ Белого дома ([ссылка](https://www.whitehouse.gov/fact-sheets/2025/01/fact-sheet-president-donald-j-trump-takes-action-to-enhance-americas-ai-leadership/)): Продвигает идею усиления лидерства США в ИИ при Трампе.

Текущая политика (из обсуждения и источников):
* Экспортный контроль: Продолжение ограничений на поставки ИИ-чипов в Китай.
* Инвестиции в инфраструктуру: Рост вложений в производство полупроводников и дата-центры.
* Смягчение регулирования: Возможный отказ от строгих норм в пользу конкурентоспособности ([источник](https://www.jdsupra.com/legalnews/trump-administration-issues-new-ai-8835720/)).
* Фокус на безопасность: Приоритет военного применения ИИ (поддерживается обеими партиями).

Регулирование ИИ:
* Конфликт приоритетов: США делают ставку на конкуренцию, ЕС — на этику ([источник](https://www.arnoldporter.com/en/perspectives/advisories/2025/01/the-trump-ai-executive-order)).
* Опасения штатов: Риски для сельских регионов осознаются на местном уровне.

Эволюция ИИ (по мнению участников):
* Сдвиг в пользу Китая: Рост эффективных open-source моделей вроде DeepSeek.
* Успехи в приложениях: Китай лидирует в потребительских продуктах на базе генеративного ИИ.

Важные аспекты:
* Роль аналитических центров: Скепсис в отношении компетентности вашингтонских think tanks в оценке технологий Китая.
* Отчет NSCAI (2025): Призыв к сотрудничеству власти, бизнеса и общества для безопасного развития ИИ ([ссылка](https://reports.nscai.gov/final-report/chair-and-vice-chair-letter)).

Итог: Обсуждение рисует сложную картину гонки за лидерство в ИИ между США и Китаем, неопределенности политики Трампа и этических дилемм. Участники сомневаются в готовности США противостоять китайскому вызову.

 No comments   19 d   AI   Politics

Я перестал использовать Kubernetes – AI разбор статьи

Статья Я перестал использовать Kubernetes. Наша команда DevOps счастлива как никогда описывает решение компании отказаться от Kubernetes (K8s) и положительные результаты, которые они получили. Вот подробный разбор основных моментов статьи:

Gemini Flash 2 с web search помогла разобрать статейку, мне кажется неплохо сделала и избавила меня от необходимости читать самостоятельно и включать VPN.

Проблема:

  • Сложность и страх дежурства:** Статья начинается с подчеркивания проблем, связанных с Kubernetes. Команда DevOps автора боялась дежурств, что подразумевает, что K8s значительно увеличивал нагрузку и стресс, связанные с обслуживанием инфраструктуры.
  • Высокие затраты на инфраструктуру:** В статье прямо говорится о высоких затратах на инфраструктуру (позже это было выражено в снижении на 62% после отказа от K8s).
  • Проблемы с развертыванием:** Автор также предполагает, что их настройка K8s усложнила развертывания, поскольку, по их утверждению, процент успешности увеличился на 89% после перехода.
  • Управление многочисленными кластерами:** Автор также упоминает об управлении 47 кластерами Kubernetes в трех облачных провайдерах, что указывает на очень сложную настройку ([linkedin.com](https://www.linkedin.com/posts/cserepj_i-stopped-using-kubernetes-our-devops-team-activity-7266703223959273472-5cnI) отмечает это).

Решение:

  • Удаление Kubernetes:** Основная часть статьи – это решение *удалить* Kubernetes из своего стека инфраструктуры. Это было представлено как кажущийся радикальный шаг.
  • Более простые альтернативы (подразумевается):** В статье явно не детализируется, *на что* они переключились, но подразумевается, что они перешли к более простым, более управляемым стратегиям развертывания, предположительно включающим более традиционные серверы или решения PaaS (Platform as a Service).

Результаты:

  • Увеличение процента успешных развертываний:** Значительное увеличение процента успешных развертываний на 89%. Это говорит о том, что развертывания стали более надежными и менее подвержены сбоям после удаления K8s.
  • Сокращение затрат на инфраструктуру:** Существенное сокращение затрат на инфраструктуру на 62%. Это указывает на то, что более простое решение, которое они приняли, было более экономически эффективным, чем их настройка Kubernetes.
  • Более счастливая команда DevOps:** Утверждение в заголовке подтверждается заявлением о том, что команда DevOps впервые за два года смогла взять непрерывный отпуск. Это указывает на значительное снижение стресса и рабочей нагрузки для команды.

Основные причины (вывод / предположение):

Хотя в статье явно не затрагиваются *причины* этих улучшений, мы можем сделать несколько выводов:

  • Чрезмерная сложность (Over-Engineering):** Компания, возможно, использовала Kubernetes для рабочих нагрузок, которым фактически *не требовалась* его сложность. K8s – мощный инструмент, но его также сложно настроить и управлять им. Для более простых приложений накладные расходы K8s могут перевесить его преимущества.
  • Неэффективная конфигурация K8s:** Возможно, инфраструктура Kubernetes была настроена неэффективно, что привело к пустой трате ресурсов и увеличению затрат. Плохо настроенные кластеры K8s могут быть требовательными к ресурсам. Один из комментариев на Hacker News предполагает, что утверждения могут потребовать больше доказательств относительно использования ресурсов компонентами K8s ([news.ycombinator.com](https://news.ycombinator.com/item?id=42246883)).
  • Экспертиза команды:** Команде, возможно, не хватало необходимых знаний для эффективного управления таким большим количеством кластеров Kubernetes. В сообщении LinkedIn упоминается управление 47 кластерами в трех облачных провайдерах ([www.linkedin.com](https://www.linkedin.com/posts/cserepj_i-stopped-using-kubernetes-our-devops-team-activity-7266703223959273472-5cnI)).

Противоречия и нюансы:

Важно отметить, что статья несколько противоречива:

  • Потенциал кликбейта:** Как отметил один из комментаторов на Hacker News, статья может быть кликбейтом ([news.ycombinator.com](https://news.ycombinator.com/item?id=42234097)).
  • Недостаток конкретики:** Самая большая критика заключается в отсутствии технических деталей о том, *на что* они переключились и *как* они достигли этих результатов. Это затрудняет оценку достоверности заявлений и того, будет ли этот же подход работать для других.
  • Kubernetes часто ценен:** Kubernetes – ценный инструмент для многих организаций, особенно с комплексными архитектурами на основе микросервисов. Опыт, описанный в статье, вряд ли будет универсально применим.

В заключение:

В статье представлен кейс компании, которая утверждает, что значительно улучшила свои результаты DevOps, удалив Kubernetes. Хотя конкретные детали отсутствуют, статья предполагает, что Kubernetes не всегда является правильным решением и что более простые альтернативы иногда могут быть более эффективными, особенно если команде сложно с его сложностью или если он используется для рабочих нагрузок, которые не требуют его. Однако читателям следует проявлять осторожность в отношении обобщения этих результатов, не учитывая тщательно свои конкретные потребности и контекст.

 No comments   19 d   AI   Kubernetes

Когда использовать AI-агентов: Простая блок-схема

Перевод: Когда использовать AI-агентов: Простая блок-схема

Оригинал: https://www.llmwatch.com/p/when-to-use-ai-agents-a-simple-flowchart

Когда и как использовать AI-агентов против AI-воркфлоу для ваших задач.

Ключевые моменты

  • Используйте AI-агентов для задач, требующих гибкости и динамического принятия решений, например, для помощников по кодированию или виртуальных ассистентов.
  • Используйте AI-воркфлоу для четко определенных, повторяющихся задач с ясными шагами, таких как обработка заказов или ответы службы поддержки.
  • Начните с простого вызова LLM (большой языковой модели), если задача представляет собой простой запрос; при необходимости переходите к воркфлоу или агентам.

AI-агенты против AI-воркфлоу – 30-секундная версия

Что это такое?

  • AI-агенты, или агенты с ИИ, – это системы, которые автономно планируют и адаптируются, принимая решения на лету. Они отлично подходят для сложных, неструктурированных задач. AI-воркфлоу**, с другой стороны, следуют предопределенным шагам, что идеально подходит для последовательных, повторяющихся процессов.

Как выбрать?

Сначала проверьте, может ли простой вызов LLM с поиском (retrieval) справиться с вашей задачей, например, ответить на быстрый вопрос. Если нет, решите: Ваша задача хорошо определена с четкими шагами? Если да, используйте воркфлоу; если нет, и требуется гибкость, выбирайте AI-агентов. Этот подход обеспечивает простоту и эффективность.

Стоимость и задержка

AI-агенты могут быть дороже и медленнее из-за своей динамической природы, поэтому для проектов с ограниченным бюджетом воркфлоу могут быть лучше даже для сложных задач, если шаги четко определены.

AI-агенты против AI-воркфлоу – Подробно

Параграф выше, очевидно, был грубым упрощением. Но он должен дать вам представление о фундаментальных различиях между двумя подходами и о том, от каких факторов будет зависеть ваше решение.

Давайте более подробно рассмотрим, когда использовать AI-агентов, а когда AI-воркфлоу, во многом опираясь на систему классификации Anthropic в качестве отправной точки. Таким образом, остальная часть этой статьи призвана направлять принятие решений, предлагая как теоретические идеи, так и практические применения, с акцентом на создание эффективных AI-систем.

Предпосылки и определения

Для начала нам необходимо уточнить терминологию, на которой мы строим. Anthropic определяет две ключевые категории, важные для создания эффективных AI-систем:

  • AI-воркфлоу**: Это системы, в которых большие языковые модели (LLM) и инструменты оркеструются посредством предопределенных путей в коде. Они предназначены для задач с четкими, предсказуемыми шагами, обеспечивая согласованность и простоту отладки. Примеры включают автоматизацию обработки заказов или управление учетными записями клиентов, где последовательность действий хорошо установлена.
  • AI-агенты**: Это, с другой стороны, системы, в которых LLM динамически управляют своими собственными процессами и использованием инструментов, сохраняя контроль над тем, как выполняются задачи. Они подходят для неструктурированных, сложных задач, требующих адаптивности, таких как автономные помощники по кодированию или виртуальные помощники, обрабатывающие различные запросы пользователей.

Это различие имеет решающее значение, и рекомендуется начинать с максимально простого решения, увеличивая сложность только при необходимости. Очень редко AI-агенты должны быть вашим первым выбором для решения проблемы.

Основа для принятия решений

Процесс принятия решения при выборе между AI-агентами и AI-воркфлоу можно разбить на структурированную блок-схему, которую мы подробно опишем, а затем приведем простые правила. Это, конечно, работа в процессе, поскольку текущее поколение AI-агентов все еще находится в процессе развития, и неясно, когда этот быстрый прогресс остановится. В конце концов, за два года мы увидели колоссальное снижение вычислительных затрат.

Описание блок-схемы

Процесс принятия решения можно визуализировать следующим образом, где каждый шаг представляет собой двоичный выбор, ведущий к соответствующей системе:

  • Начало:** Начните с оценки стоящей перед вами задачи.
  • Решение 1:** Может ли задача быть решена одним вызовом LLM с поиском (retrieval)?
    • Да:** Используйте один вызов LLM с поиском, которого достаточно для простых запросов, таких как ответы на фактические вопросы или генерация простого текста. Этот подход использует механизмы поиска для предоставления контекста, поддерживая низкие затраты и сложность.
    • Нет:** Если задача не может быть решена одним вызовом, перейдите к следующему решению.
  • Решение 2:** Является ли задача четко определенной с ясными, предопределенными шагами?
    • Да:** Используйте AI-воркфлоу. Они идеально подходят для задач, которые можно разбить на последовательность предопределенных шагов, обеспечивая предсказуемость и согласованность. Примеры включают автоматизированные ответы службы поддержки или конвейеры обработки данных.
    • Нет:** Используйте AI-агентов. Они необходимы для задач, которые являются неструктурированными или требуют динамического принятия решений, таких как помощники по кодированию, решающие проблемы GitHub, или виртуальные помощники, планирующие и выполняющие различные задачи.

Эта базовая блок-схема отражает принцип начинать с самого простого решения (одиночный вызов LLM) и переходить к воркфлоу для четко определенных задач и, наконец, к агентам для более сложных, адаптивных нужд.

Руководство по реализации

Чтобы предоставить практические рекомендации, мы можем классифицировать варианты использования и соображения для каждого варианта:

  • Одиночный вызов LLM с поиском (Retrieval):**
    • Вариант использования:** Подходит для простых запросов, когда LLM может предоставить прямой ответ, возможно, дополненный извлечением релевантной информации из базы данных или базы знаний. Например, ответ на вопрос клиента о технических характеристиках продукта.
    • Преимущества:** Низкая стоимость, низкая задержка и минимальная настройка. Это соответствует рекомендации Anthropic оптимизировать отдельные вызовы LLM поиском и примерами в контексте для многих приложений.
    • Пример:** Чат-бот, отвечающий: “Каковы часы работы вашего магазина?” путем извлечения информации и прямого ответа.
  • AI-воркфлоу:**
    • Вариант использования:** Лучше всего подходит для задач, которые хорошо определены и повторяются, с четкими шагами, которые не требуют от LLM принятия решений о том, какой следующий шаг следует предпринять. Примеры включают процессы выполнения заказов, от получения заказа до отправки, или управление учетными записями клиентов.
    • Преимущества:** Предсказуемость, согласованность и простота отладки. Воркфлоу следуют предопределенным путям в коде, что делает их подходящими для таких задач, как маршрутизация запросов клиентов в различные отделы на основе категорий (например, выставление счетов, техническая поддержка).
    • Соображения:** Убедитесь, что входы и выходы для каждого шага четко определены, чтобы избежать ошибок. Часто реализуется с помощью таких шаблонов, как объединение и маршрутизация подсказок как часть рабочих процессов, которые можно реализовать в нескольких десятках строк кода без сложных фреймворков.
    • Пример:** Банковский AI-чат-бот, который обрабатывает проверку баланса, выполняя предопределенную последовательность: проверяет пользователя, извлекает данные учетной записи, форматирует ответ.
  • AI-агенты:**
    • Вариант использования:** Идеально подходит для задач, которые являются сложными, неструктурированными или требуют гибкости и принятия решений на основе моделей. К ним относятся сценарии, в которых LLM необходимо планировать независимо, использовать внешние инструменты или адаптироваться к меняющимся условиям. Примеры включают агентов кодирования, решающих проблемы GitHub, как видно в тестах, таких как SWE-bench Verified, или виртуальных помощников, обрабатывающих различные запросы пользователей, такие как планирование встреч и создание отчетов.
    • Преимущества:** Высокая адаптивность, подходит для динамических сред. Агенты могут разбивать проблемы на управляемые шаги, сотрудничать с другими агентами и использовать такие инструменты, как веб-поиск или вызовы API, как отмечается в сообщении блога.
    • Соображения:** Более высокие затраты и задержка из-за динамической обработки. Рекомендуется проводить тестирование в изолированной среде и уделять приоритетное внимание прозрачности, показывая этапы планирования. Другим важным фактором для агентов, использующих сложные инструменты (например, Azure CLI, GitHub), является создание тщательного интерфейса между агентом и компьютером (ACI) посредством документации и тестирования инструментов. Ваши агенты смогут использовать правильные инструменты для ваших задач, только если у них есть доступ к достаточной информации о них.
    • Пример:** AI-агент, который автономно пишет и тестирует код для исправления проблемы GitHub, проверенный автоматизированными тестами и проверкой человеком, как часть инициативы SWE-bench.

Дополнительные соображения

Хотя блок-схема и рекомендации обеспечивают четкий путь, это только отправная точка. Основная цель этой статьи – повысить осведомленность о том, что “бросаться AI-агентами во все” – нежизнеспособная стратегия – и предоставить отправную точку для принятия решений.

Многие из дополнительных факторов, которые следует учитывать, особенно в отношении затрат и производительности, представляют собой компромиссы, специфичные для ваших индивидуальных вариантов использования. Агентные системы часто жертвуют задержкой и стоимостью ради лучшего выполнения задач, что делает их менее подходящими для проектов с ограниченным бюджетом, где достаточно рабочих процессов. Например, если задача четко определена, но очень сложна, рабочим процессам все равно можно отдать предпочтение по сравнению с агентами для поддержания эффективности, если шаги можно адекватно определить заранее.

Обслуживание клиентов – отличный пример: оно часто требует задержки, близкой к реальному времени, и строгих мер защиты, поскольку это приложение, ориентированное на клиентов (и многие клиенты, обращающиеся в службу поддержки, уже не в лучшем настроении). Хотя AI-агенты обещают справляться с этим намного лучше, чем предыдущие технологии, требования к надежности и безопасности высоки. И вы уже можете создавать довольно продвинутые чат-боты с помощью рабочих процессов. Фактически, большинство чат-ботов, работающих в настоящее время в промышленной эксплуатации, имеют мало общего с агентным AI (даже если они утверждают обратное). Такие вещи, как инструменты для клиентских данных и истории заказов, гораздо важнее и могут быть реализованы как рабочие процессы для стандартных запросов. Прагматичным компромиссом может быть использование агентов для более неоднозначных запросов. Два подхода к проектированию не исключают друг друга, что является еще одним важным соображением. Используйте то, что лучше всего подходит для вашего варианта использования.

Заключение

В заключение, решение между AI-агентами и AI-воркфлоу зависит от характера задачи: используйте отдельные вызовы LLM для простых запросов, рабочие процессы для четко определенных, повторяющихся задач и агентов для неструктурированных, динамических задач, требующих адаптивности. Этот подход согласуется с рекомендациями по простоте, прозрачности и тщательному тестированию, обеспечивая эффективную разработку AI-системы. Приведенная выше блок-схема и рекомендации предлагают практическую отправную точку для реализации, подкрепленную реальными примерами и общедоступными сведениями от ведущих AI-компаний, таких как Anthropic & HuggingFace.

 No comments   19 d   AI   LLM
Earlier Ctrl + ↓