Yuriy Gavrilov

Welcome to my personal place for love, peace and happiness❣️

Поможет ли A-Tune оптимизировать Trino?

Детали тут и примеры: https://habr.com/ru/companies/astralinux/articles/870074/

PS: A-Tune активно используется в китайской ОС OpenEuler и его российской версии OpenScaler, а теперь еще и Astra групп им интересуется.

Анализ статьи и утилиты A-Tune для оптимизации настроек ОС применительно к запуску кластера Trino

Нейроночки такое пишут, все можно не читать, а сразу переходить к делу и статье:

Статья на Habr посвящена утилите A-Tune, разработанной для автоматической оптимизации настроек операционной системы (ОС) под конкретные рабочие нагрузки. Утилита использует методы машинного обучения для анализа характеристик системы и подбора оптимальных параметров, таких как управление ресурсами CPU, памятью, дисковыми операциями и сетевыми настройками.

Основные возможности A-Tune:
  1. Анализ и классификация рабочих нагрузок: A-Tune определяет тип нагрузки (например, CPU-intensive, I/O-intensive) и настраивает параметры ОС для максимальной производительности.
  2. Автоматическая настройка параметров ОС: Утилита изменяет параметры ядра Linux, планировщиков, управления памятью и других подсистем.
  3. Поддержка различных сценариев использования: A-Tune может быть полезна для баз данных, веб-серверов, виртуализации и других задач.
Применимость к кластеру Trino:

Trino (ранее PrestoSQL) — это распределенный SQL-движок для выполнения аналитических запросов на больших объемах данных. Его производительность зависит от:

  • Оптимизации использования CPU и памяти.
  • Эффективного управления сетевыми соединениями.
  • Минимизации задержек при операциях ввода-вывода (I/O).
Потенциальная польза A-Tune для Trino:
  1. Оптимизация CPU и памяти: A-Tune может настроить параметры ядра и планировщики для оптимального распределения ресурсов между узлами кластера.
  2. Улучшение производительности I/O: Утилита может оптимизировать параметры файловой системы и дисковых операций, что важно для Trino, так как он активно работает с данными.
  3. Сетевые настройки: A-Tune может улучшить производительность сети, что критично для распределенных запросов в кластере Trino.
Оценка эффективности:
  • Потенциальный эффект: A-Tune может дать заметный прирост производительности, особенно если кластер Trino работает на “сырых” настройках ОС, которые не оптимизированы под конкретную нагрузку.
  • Ограничения: Эффективность A-Tune зависит от корректности классификации нагрузки и точности подбора параметров. Для Trino, который имеет специфические требования к ресурсам, может потребоваться дополнительная ручная настройка.
  • Тестирование: Для оценки реального эффекта рекомендуется провести тестирование на тестовом кластере Trino с использованием A-Tune и сравнить производительность до и после оптимизации.
Вывод:

Утилита A-Tune может быть полезной для оптимизации кластера Trino, особенно если настройки ОС не были ранее адаптированы под его нагрузку. Однако для достижения максимального эффекта рекомендуется сочетать использование A-Tune с ручной настройкой параметров, специфичных для Trino. Тестирование в реальных условиях поможет точно оценить потенциальный прирост производительности.

Или вот такой ответ в режиме рассуждений:

Анализ утилиты A-Tune для оптимизации настроек кластера Trino

Введение:
A-Tune — это утилита, использующая машинное обучение для оптимизации настроек операционной системы (ОС) на основе характеристик нагрузки. В этом анализе оценивается потенциальная эффективность A-Tune при оптимизации кластера Trino, распределенного движка SQL с конкретными требованиями к CPU, памяти, вводу-выводу и сетевым настройкам.

Основные соображения:

  1. Точность классификации рабочих нагрузок:
    • A-Tune классифицирует рабочие нагрузки и применяет соответствующие оптимизации. Точность этой классификации критична для Trino, который может иметь уникальный профиль рабочей нагрузки. Если A-Tune может эффективно идентифицировать и оптимизировать для конкретных потребностей Trino, это может быть очень полезно.
  1. Легкость интеграции:
    • Сложность интеграции A-Tune с Trino является важным фактором. Если настройка проста, это добавляет ценность; однако, обширная конфигурация могла бы нивелировать потенциальные выигрыши в производительности.
  1. Сравнение с существующими инструментами:
    • Необходимо учитывать, предлагают ли A-Tune уникальные преимущества по сравнению с существующими инструментами оптимизации Trino или лучшими практиками. Если это так, A-Tune становится более привлекательным.
  1. Метрики производительности и бенчмарки:
    • Конкретные данные о повышении производительности необходимы для оценки эффективности A-Tune. Бенчмарки, специфичные для рабочих нагрузок Trino, предоставили бы ценные сведения.
  1. Случаи из практики и опыт пользователей:
    • Изучение случаев из практики или опыта пользователей с использованием A-Tune на подобных рабочих нагрузках может предоставить практические сведения о его реальной производительности.
  1. Совместимость с ОС:
    • Подтверждение совместимости A-Tune с ОС, на которой работает Trino (обычно Linux), является критическим для его применимости.
  1. Легкость использования:
    • Кривая обучения для использования A-Tune должна быть управляемой. Если для его использования требуется глубокое знание настройки ОС, он может не быть доступен для всех пользователей.

Заключение:

A-Tune может быть полезным инструментом для оптимизации кластеров Trino, автоматизируя настройки ОС. Однако его эффективность зависит от точности классификации рабочих нагрузок, легкости интеграции и масштаба улучшений производительности. Для оценки его полезности следует:

  • Оценить точность A-Tune в обработке конкретных профилей рабочих нагрузок Trino.
  • Оценить легкость настройки и обслуживания в среде Trino.
  • Сравнить его преимущества с существующими инструментами оптимизации.
  • Изучить доступные метрики производительности и случаи из практики.
  • Убедиться в совместимости с подлежащей ОС.
  • Рассмотреть удобство использования инструмента и кривую обучения.

Если A-Tune обеспечивает значительные улучшения производительности с управляемой реализацией, он может быть ценным дополнением к стратегиям оптимизации Trino. В противном случае, затраты времени и усилий могут не оправдать его использование.

А вы что думаете?

Вышло приложение DeepSeek для iOS

Сеточка интересная, а пользоваться ей стало удобнее. Давно ей пользуюсь.

Умеет работать с файлами и картинками. Переводы делает очень хорошо.

Сеточка интересна своей реализацией режима рассуждений. Работает немного странно. Базовый язык в ней видимо английский. Если ей написать в этом режиме «что ты умеешь?», то будет примерно так: вы написали на русском языке, что ты умеешь? Я должна ответить…
Еще умеет искать в интернете, очень полезная опция.

Опция поиска в интернете

 No comments   3 d   AI

DolphinScheduler and SeaTunnel vs AirFlow and NiFi

В современную эпоху, где данные играют ключевую роль, предприятия сталкиваются с растущими потребностями в обработке данных и управлении рабочими процессами. На рынке появились различные инструменты для удовлетворения этих потребностей, среди которых DolphinScheduler и SeaTunnel часто упоминаются наряду с AirFlow и NiFi как решения. В этой статье мы подробно сравним эти два набора инструментов, анализируя их с точки зрения функциональности, производительности и удобства использования, чтобы помочь предприятиям выбрать наиболее подходящие инструменты для своих бизнес-сценариев.

DolphinScheduler и SeaTunnel, как новые инструменты для планирования задач больших данных и синхронизации данных, привлекли внимание благодаря своей высокой производительности, простоте развертывания и активной поддержке сообщества. DolphinScheduler ориентирован на планирование задач больших данных, поддерживает несколько языков и платформ, а также интегрируется с компонентами больших данных, в то время как SeaTunnel выделяется благодаря поддержке множества источников данных и эффективному использованию ресурсов памяти.

В отличие от них, AirFlow и NiFi известны своей зрелостью, стабильностью и широким спектром применения. AirFlow — это инструмент для планирования задач и управления рабочими процессами, ориентированный на инженеров данных, который ценится за мощные возможности планирования задач и управления зависимостями. NiFi, с другой стороны, сосредоточен на управлении и обработке потоков данных, известен своим визуальным интерфейсом и надежными возможностями обработки ошибок.

В этой статье будет проведено детальное сравнение различий между этими двумя наборами инструментов с точки зрения архитектуры, функциональности и сценариев использования, а также их сильных и слабых сторон. Благодаря этим сравнениям мы стремимся предоставить предприятиям всесторонний взгляд, чтобы помочь им принимать более обоснованные решения при построении своих экосистем обработки и управления данными. Независимо от того, стремитесь ли вы к высокопроизводительному планированию задач больших данных или вам требуется гибкая обработка потоков данных, эта статья предоставит вам ценные рекомендации и руководства.

---

1. DolphinScheduler vs Apache Airflow

Преимущества DolphinScheduler

  1. Распределенное планирование задач:
    • Поддержка распределенной архитектуры, способность обрабатывать крупномасштабное планирование задач.
    • Легкое масштабирование узлов задач, динамическое распределение ресурсов и балансировка нагрузки.
    • Высокая доступность, поддержка множества типов задач и сложных зависимостей между ними, что делает его идеальным для производственных сред уровня предприятия.
  1. Графический дизайн рабочих процессов:
    • Интуитивно понятный интерфейс DAG для мониторинга задач в реальном времени и простого управления расписанием.
    • Поддержка планирования на основе данных, что полезно в сценариях, ориентированных на данные.
  1. Мультитенантность и контроль доступа:
    • Тонкий контроль доступа и поддержка мультитенантности, подходящие для сложных организационных структур предприятий.
    • Обеспечение высокой безопасности благодаря механизмам изоляции пользователей, задач и ресурсов.
  1. Интеграция с экосистемой больших данных:
    • Глубокая интеграция с экосистемами больших данных (например, Hadoop, Hive, Spark, Flink), поддержка множества типов задач (Shell, Python, SQL, MapReduce и т.д.).
    • Расширение возможностей интеграции данных через плагины.
  1. Простота развертывания и масштабируемость:
    • Скрипты для быстрого развертывания и поддержка контейнеризации (например, Docker и Kubernetes), что упрощает обслуживание и масштабирование.

Недостатки DolphinScheduler

  • Ограниченная поддержка больших AI-моделей: В настоящее время отсутствует надежная поддержка планирования задач для AI и больших моделей, экосистема для инструментов машинного обучения находится на ранней стадии развития.

Преимущества Apache Airflow

  1. Python-ориентированный дизайн:
    • Определение рабочих процессов полностью на Python, что позволяет разработчикам гибко писать сложную логику задач, подходит для команд с сильной технической подготовкой.
  1. Богатая экосистема плагинов:
    • Большое количество плагинов, поддерживаемых сообществом (300+ официальных плагинов), что решает разнообразные задачи интеграции и обработки данных.
  1. Поддержка глобального сообщества:
    • Активное сообщество пользователей по всему миру, обширная документация и учебные ресурсы.

Недостатки Apache Airflow

  1. Ограниченные возможности распределенного планирования:
    • Уступает DolphinScheduler в сценариях крупномасштабного планирования задач, часто возникают проблемы с производительностью.
  1. Сложность конфигурации и управления:
    • Требует знания Python, что может привести к значительному объему кода при организации сложных рабочих процессов, менее дружелюбен для нетехнических пользователей.

---

2. SeaTunnel vs Apache NiFi

Преимущества SeaTunnel

  1. Унифицированный дизайн для пакетной и потоковой обработки:
    • Поддержка как пакетной, так и потоковой обработки, унифицированная модель программирования для различных сценариев интеграции данных.
    • Высокая производительность и низкая задержка для задач потоковой обработки данных.
  1. Легковесность и высокая производительность:
    • Оптимизированная реализация поддерживает высокую пропускную способность данных, превосходя NiFi по производительности.
    • Эффективное использование ресурсов для сложных задач синхронизации данных.
  1. Поддержка множества коннекторов:
    • Встроенная поддержка 192+ источников данных, включая базы данных, платформы больших данных, файловые системы и очереди сообщений.
    • Готов к использованию без дополнительной разработки, что ускоряет интеграцию данных на предприятии.
  1. Гибкость развертывания:
    • Поддержка локальных, кластерных и контейнеризованных сред, адаптация к различным сценариям и масштабам.
    • Инструменты для настройки без написания кода, снижающие технический порог входа.
  1. Обеспечение качества данных:
    • Возможность преобразования, проверки и очистки данных во время синхронизации, что гарантирует надежность данных.

Недостатки SeaTunnel

  1. Конфигурация через файлы:
    • В настоящее время задачи определяются через конфигурационные файлы, что может быть сложнее для пользователей, привыкших к интерфейсам drag-and-drop.
  1. Ограниченная возможность кастомизации:
    • По сравнению с архитектурой плагинов NiFi, разработка пользовательских плагинов в SeaTunnel более сложна.

Преимущества Apache NiFi

  1. Графический интерфейс:
    • Интерфейс drag-and-drop для определения и управления потоками данных, что делает его удобным для нетехнических пользователей.
  1. Расширяемость и гибкость:
    • Архитектура NiFi позволяет легко расширять и настраивать функции для удовлетворения различных потребностей интеграции и обработки данных.
    • Поддержка плагинов для интеграции пользовательских процессоров, задач отчетности и других компонентов.
  1. Динамическая настройка во время выполнения:
    • Возможность изменять конфигурации потоков данных во время выполнения без остановки задач, что упрощает отладку и оптимизацию.

Недостатки Apache NiFi

  1. Более низкая производительность:
    • Уступает SeaTunnel в сценариях с высокой нагрузкой и задачами с низкой задержкой.
  1. Ограниченная поддержка пакетной обработки:
    • Более подходит для потоковой обработки данных, с меньшей поддержкой крупномасштабных задач пакетной обработки.

---

3. Итог

Сильные стороны DolphinScheduler и SeaTunnel

  • DolphinScheduler выделяется в распределенном планировании задач, поддержке задач больших данных и управлении на уровне предприятия, что делает его предпочтительным выбором для крупномасштабных сценариев.
  • SeaTunnel выделяется благодаря унифицированному дизайну для пакетной и потоковой обработки, а также высокой производительности синхронизации данных, демонстрируя отличные результаты в задачах реального времени и сложной пакетной обработки.

Заключение: DolphinScheduler и SeaTunnel лучше подходят для сложных корпоративных сред и задач высокопроизводительной интеграции данных, обладая значительными техническими преимуществами в интеграции с экосистемами больших данных и распределенных возможностях. Их потенциал в поддержке больших моделей также станет ключевым направлением для будущего развития.

---

О Apache SeaTunnel

Apache SeaTunnel — это простая в использовании, высокопроизводительная распределенная платформа для интеграции данных, поддерживающая синхронизацию огромных объемов данных в реальном времени и способная стабильно и эффективно синхронизировать сотни миллиардов данных в день.

Присоединяйтесь к сообществу Apache SeaTunnel и способствуйте развитию открытого исходного кода!

Присоединяйтесь к нам сейчас! ❤️❤️

Как генеративный ИИ ускорил будущее работы

Оригинал: https://www.constellationr.com/blog-news/how-generative-ai-has-supercharged-future-work

В современном быстро меняющемся и ориентированном на данные деловом мире генеративный искусственный интеллект (ИИ) находится в процессе трансформации того, как компании внедряют инновации, работают и функционируют. С такими примерами, как ChatGPT, генеративный ИИ вскоре окажет значительное влияние на конкурентоспособность, доходы и прибыль компаний. Благодаря возможностям ИИ, который помогает людям синтезировать знания и быстро использовать их для достижения результатов, компании могут автоматизировать сложные задачи, ускорять принятие решений, создавать ценные аналитические данные и раскрывать масштабируемые возможности, которые ранее были недоступны.

Большинство отраслевых исследований подтверждают это. Например, крупное исследование недавно показало, что компании в странах, активно внедряющих ИИ, могут увеличить свой ВВП на 26% к 2035 году. Более того, то же исследование прогнозирует, что мировая экономика получит выгоду в размере ошеломляющих $15,7 трлн за счет доходов и экономии к 2030 году благодаря трансформационной силе ИИ. Для специалистов по знаниям или руководителей бизнеса внедрение генеративного ИИ открывает широкий спектр новых возможностей, помогая оставаться конкурентоспособными на постоянно меняющемся рынке, одновременно повышая эффективность, инновации и рост.

Хотя многие специалисты сосредотачиваются на отраслевых решениях ИИ для таких секторов, как финансовые услуги или здравоохранение, наиболее широкое и значимое влияние ИИ окажет в области универсальных возможностей, которые позволят обычным специалистам выполнять свою работу быстрее и лучше. Короче говоря, это поможет работникам знаний работать более эффективно для достижения значимых результатов для бизнеса. Именно в этой горизонтальной области генеративный ИИ за последние шесть месяцев резко повысил ставки, привлекая широкое внимание благодаря своему огромному потенциалу для повышения производительности, прокладывая новый технологический путь, который позволяет применять весь объем мировых знаний к любой отдельной задаче.

Генеративный ИИ, большие языковые модели, базовые модели, приложения ИИ и будущее работы
Реализация ценности генеративного ИИ при преодолении вызовов

На мой профессиональный взгляд, способность генеративного ИИ создавать полезный, впечатляюще синтезированный текст, изображения и другие типы контента практически без усилий на основе нескольких текстовых подсказок уже стала важной бизнес-возможностью, которую стоит предоставить большинству работников знаний. В моих исследованиях и экспериментах с этой технологией многие рабочие задачи выигрывают от увеличения скорости выполнения в 1,3–5 раз. Есть и другие, менее измеримые преимущества, связанные с инновациями, разнообразием ввода и альтернативными издержками. Генеративный ИИ также может предоставлять особенно ценные типы контента, такие как код или форматированные данные, которые обычно требуют значительного опыта и/или обучения для создания. Он также способен проводить углубленный анализ сложных, узкоспециализированных материалов, включая юридические документы и даже медицинские диагнозы.

Короче говоря, последние сервисы генеративного ИИ доказали, что эта технология достигла переломного момента и готова приносить ценность в широком, демократизированном виде для обычных работников во многих ситуациях.

Но не так быстро, говорят голоса осторожности, указывающие на множество скрытых вызовов. ИИ — это мощная технология, которая имеет две стороны медали, поэтому требуется небольшая подготовка, чтобы использовать её, избегая потенциальных проблем, таких как:

  1. Смещение данных: Генеративные модели ИИ работают только на основе данных, на которых они обучены, и если данные содержат встроенные предубеждения, модель будет их воспроизводить. Это может привести к непредвиденным последствиям, таким как сохранение нежелательных практик или исключение определенных групп людей.
  2. Интерпретируемость моделей: Генеративные модели ИИ могут быть сложными, и их результаты трудно интерпретировать, что может затруднить для бизнеса понимание того, как было принято то или иное решение или рекомендация. Это отсутствие объяснимости может привести к недоверию или скептицизму, особенно в ситуациях с высокими ставками, хотя со временем эта проблема, вероятно, будет решена.
  3. Киберугрозы: Как и любая технология, обрабатывающая и хранящая конфиденциальные данные, генеративные модели ИИ могут быть уязвимы для кибератак, таких как взломы, утечки данных, злонамеренные атаки или, что более коварно, отравление входных данных. Компании должны принимать соответствующие меры для защиты своих ИИ-систем и данных от этих рисков.
  4. Юридические и этические соображения: Использование генеративного ИИ может вызывать юридические и этические вопросы, особенно если оно используется для принятия решений, влияющих на жизнь людей, таких как найм или кредитные решения. Компании должны убедиться, что их использование ИИ соответствует юридическим и этическим стандартам и не нарушает права на конфиденциальность или другие права. Некоторые генеративные ИИ-системы, используемые сегодня, могут нарушать законы о конфиденциальности, что уже привело к действиям со стороны таких стран, как Италия.
  5. Чрезмерная зависимость от ИИ: Со временем чрезмерная зависимость от генеративных моделей ИИ может привести к утрате человеческого суждения и принятия решений, что может быть вредным в ситуациях, когда требуется вмешательство человека, но необходимые навыки уже утрачены. Компании должны найти правильный баланс между использованием ИИ и человеческой экспертизой.
  6. Обслуживание и устойчивость: Генеративные модели ИИ требуют постоянного обслуживания и обновлений для сохранения эффективности, что может быть трудоемким и дорогостоящим. По мере масштабирования использования ИИ компании также должны обеспечить наличие ресурсов и инфраструктуры для поддержки своих ИИ-систем, особенно когда они начинают создавать собственные базовые модели для корпоративных знаний. Также важно следить за тем, чтобы ресурсоемкость больших языковых моделей не приводила к чрезмерному потреблению энергии.
Успех с универсальным ИИ на рабочем месте

Тем не менее, привлекательность преимуществ, которые может принести ИИ — от повышения производительности задач до стратегического использования знаний — будет только усиливаться по мере появления новых доказательств того, что современные решения генеративного ИИ действительно способны приносить результаты. Это потребует от организаций внедрения необходимых операционных, управленческих и контрольных мер по мере продвижения по кривой зрелости внедрения ИИ.

Некоторые из первоначальных шагов, которые практически все организации должны предпринять в этом году, внедряя генеративный ИИ в цифровую рабочую среду и предоставляя его сотрудникам, включают:

  1. Четкие руководящие принципы и политики ИИ: Установите четкие руководящие принципы и политики по использованию ИИ-инструментов, включая вопросы конфиденциальности данных, безопасности и этические аспекты. Убедитесь, что эти политики четко доведены до сотрудников и легко доступны.
  2. Обучение и подготовка: Обеспечьте сотрудников всесторонним обучением и подготовкой по эффективному и безопасному использованию ИИ-инструментов. Это включает обучение самим технологиям и решениям, а также соответствующим юридическим и этическим аспектам, которые они должны соблюдать. Платформы цифровой адаптации также могут быть особенно полезны для ускоренного внедрения ИИ-инструментов на рабочем месте.
  3. Структуры управления ИИ: Установите четкие структуры управления для контроля за использованием ИИ-инструментов в организации. Это включает назначение ответственности и выделение бюджета для контроля ИИ-систем, установление четких линий связи и обеспечение наличия соответствующих проверок и балансов.
  4. Надзор и мониторинг: Установите процессы постоянного надзора и мониторинга ИИ-инструментов, чтобы убедиться, что сотрудники используют их эффективно и безопасно. Это включает мониторинг производительности ИИ-систем, соблюдение политик и руководящих принципов, обеспечение использования согласованных моделей по всей организации и мониторинг потенциальных предубеждений или этических проблем.
  5. Сотрудничество и обратная связь: Поощряйте сотрудничество и обратную связь между сотрудниками, использующими ИИ-инструменты, а также между сотрудниками и руководством. Это включает создание каналов для обратной связи и предложений по улучшению, обмен лучшими практиками использования ИИ, а также формирование культуры сотрудничества и непрерывного обучения навыкам ИИ.
  6. Создание четких этических принципов: Компании должны установить четкие этические принципы для использования ИИ-инструментов на рабочем месте, основанные на таких принципах, как прозрачность, справедливость и подотчетность. Эти принципы должны быть доведены до всех сотрудников, использующих ИИ-инструменты.
  7. Проведение этических оценок воздействия: Перед внедрением ИИ-инструментов компании должны проводить этические оценки воздействия, чтобы выявить и устранить потенциальные этические риски и убедиться, что инструменты соответствуют ответственной практике, а также этическим принципам и ценностям компании.
  8. Мониторинг предубеждений ИИ: Компании должны регулярно отслеживать предубеждения в ИИ-инструментах как на этапе разработки, так и после внедрения. Это включает мониторинг предубеждений в данных, используемых для обучения инструментов, а также в результатах, которые они производят.
  9. Обеспечение прозрачности: Компании должны обеспечивать прозрачность в использовании ИИ-инструментов, включая то, как они работают, как принимаются решения и как используются данные. Это включает предоставление объяснений для решений, принимаемых ИИ-инструментами, и обеспечение их понятности для сотрудников и других заинтересованных сторон.
  10. Соблюдение нормативных требований: Компании должны убедиться, что использование ИИ-инструментов соответствует всем соответствующим нормативным требованиям, включая законы о конфиденциальности данных и правила, связанные с дискриминацией и предубеждениями в портфеле ИИ-инструментов.

Хотя весь этот список может показаться сложным, большинство организаций уже имеют многие из этих элементов в различных частях своей организации благодаря усилиям по внедрению ИИ на уровне отделов. Кроме того, если они разработали корпоративную возможность ModelOps, это особенно подходящее место для большей части этих практик контроля ИИ, в тесной связи с соответствующими внутренними функциями, включая HR, юридический отдел и отдел соответствия.

Основной фокус для внедрения ИИ на рабочем месте: базовые модели

Организации, стремящиеся предоставить своим сотрудникам инструменты с поддержкой ИИ, как правило, будут искать решения, основанные на ИИ-моделях, которые могут легко производить полезные результаты без значительных усилий или обучения со стороны сотрудника. Хотя проблемы с соответствием, предубеждениями и безопасностью, упомянутые выше, могут показаться значительным препятствием, реальность такова, что большинство ИИ-моделей уже имеют базовые уровни защиты и безопасности, а многие другие могут быть предоставлены централизованно через соответствующий Центр передового опыта в области ИИ или аналитики или возможность ModelOps.

Большие языковые модели (LLM) особенно интересны в качестве основы для ИИ-инструментов на рабочем месте, поскольку они представляют собой мощные базовые модели, обученные на огромном объеме открытых текстовых данных. Поставщики инструментов на основе LLM, как правило, идут одним из нескольких путей: большинство из них строят свои решения на существующих проприетарных моделях, специально настроенных/оптимизированных для определенных поведений или результатов, или позволяют выбирать модель, что дает компаниям возможность использовать языковые или базовые модели, которые они уже проверили. Некоторые также выбирают промежуточный путь, начиная с известных, высокопроизводительных моделей, таких как GPT-4 от OpenAI, и добавляя к ним свои собственные улучшения.

Хотя всегда будут существовать ИИ-инструменты для рабочего места, основанные на менее известных и не столь устоявшихся ИИ-фреймворках и моделях, в настоящее время наиболее впечатляющие результаты обычно достигаются с помощью более известных LLM. Хотя этот список постоянно меняется, ведущие базовые модели, известные на данный момент, с разной степенью внедрения в отрасли, включают (в алфавитном порядке):

  • AI21’s Jurassic-2
  • Anthropic’s Claude
  • Cohere’s LLMs
  • Google’s Pathways Language Model (PaLM)
  • Hugging Face’s BLOOM
  • Meta’s LLaMA
  • NVIDIA’s NeMo
  • OpenAI’s GPT-3.5 и GPT-4

Также важно помнить, что хотя некоторые предприятия будут стремиться работать напрямую с LLM и другими базовыми моделями для создания собственных пользовательских ИИ-инструментов, большинство организаций начнут с простых в использовании бизнес-приложений, в которые уже встроена ИИ-модель. Тем не менее, понимание того, какие ИИ-модели лежат в основе тех или иных инструментов, очень полезно для понимания их возможностей, поддерживающих свойств (таких как уровни безопасности) и общих известных рисков.

Ведущие ИИ-инструменты для работы

Ниже приведен список ИИ-инструментов, которые в основном используют какую-либо форму базовой модели для синтеза или создания полезного бизнес-контента и аналитических данных. У меня был сложный выбор: включать ли полный спектр генеративных ИИ-сервисов, включая изображения, видео и код. Но они достаточно подробно описаны в других источниках в интернете и, в любом случае, больше ориентированы на конкретные творческие роли.

Вместо этого я решил сосредоточиться на бизнес-ориентированных ИИ-инструментах, основанных на базовых моделях, которые в основном текстовые и более универсальные по своей природе, что делает их хорошей основой для широкого внедрения среди большего числа сотрудников.

Вот некоторые из наиболее интересных решений для ИИ-инструментов, которые можно широко использовать в рабочих ситуациях (в алфавитном порядке):

  • Bard — выход Google на рынок ассистентов знаний на основе LLM.
  • ChatGPT — универсальный ассистент знаний, который запустил текущий бум генеративного ИИ.
  • ChatSpot — ассистент по контенту и исследованиям от Hubspot для маркетинга, продаж и операций.
  • Docugami — ИИ для управления бизнес-документами, использующий специализированную базовую модель для бизнес-документов.
  • Einstein GPT — ассистент по контенту, аналитике и взаимодействию для платформы Salesforce.
  • Google Workspace AI Features — Google добавил ряд генеративных ИИ-функций в свою платформу для повышения производительности.
  • HyperWrite — помощник для бизнес-писательства, ускоряющий создание контента.
  • Jasper for Business — умный создатель контента, который помогает сотрудникам оставаться в рамках бренда при создании внешнего контента.
  • Microsoft 365 Copilot/Business Chat — ИИ-ассистент для создания контента и бизнес-чаты, работающие на основе контекстных данных пользователя.
  • Notably — платформа для бизнес-исследований с поддержкой ИИ.
  • Notion AI — еще одно бизнес-решение в популярной категории ассистентов по контенту и писательству.
  • Olli — аналитические/BI-панели для предприятий, созданные с использованием ИИ.
  • Poe by Quora — чат-бот-ассистент знаний, использующий ИИ-модели Anthropic.
  • Rationale — инструмент для принятия бизнес-решений с использованием ИИ.
  • Seenapse — инструмент для генерации бизнес-идей с поддержкой ИИ.
  • Tome — ИИ-инструмент для создания презентаций PowerPoint.
  • WordTune — универсальный помощник для писательства.
  • Writer — ИИ-ассистент для писательства.

Как видите, помощники для писательства доминируют среди ИИ-инструментов для работы, поскольку их легче всего создавать с использованием LLM, и они наиболее универсальны. Однако появляется все больше ИИ-инструментов, охватывающих многие другие аспекты генеративной работы, некоторые из которых вы можете увидеть в списке выше.

В будущих материалах об ИИ и будущем работы я буду исследовать вертикальные ИИ-решения на основе LLM/базовых моделей для юридической сферы, HR, здравоохранения, финансовых услуг и других отраслей/функций. Наконец, если у вас есть стартап в области ИИ для бизнеса, который a) в основном использует базовую модель в своей работе, b) имеет платящих корпоративных клиентов и c) вы хотели бы быть добавленным в этот список, пожалуйста, напишите мне. Вы также можете связаться со мной для брифингов по поставщикам ИИ на рабочем месте или консультаций для клиентов.

Перевод сделал DeepSeek v3

 No comments   4 d   AI   Life   Work

Заменят ли пилотов авиалайнеров на искусственный интеллект

Утро Россия 1 – 19.12.2024 – Смотрим.ру

Обновлено 28 августа 2024 г., 10:08 по восточному времени

Лес Абенд — отставной ветеран American Airlines с 34-летним стажем, пытающийся вновь обрести страсть к пилотированию самолетов на нижних эшелонах — без помощи второго пилота.

Оригинал: https://www.flyingmag.com/jumpseat/replacing-airline-pilots-with-ai

Традиционные кабины пилотов претерпевают трансформационные изменения.

2 мая на авиабазе Эдвардс в Калифорнии министр ВВС США Фрэнк Кендалл поднялся на борт испытательного F-16, получившего название VISTA (Variable In-Flight Simulator Test Aircraft – Многоцелевой самолет-тренажер с изменяемыми параметрами полета), оснащенного платформой искусственного интеллекта. Министр Кендалл и пилот-испытатель на заднем сиденье наблюдали за полетом, не прикасаясь к органам управления, в то время как другой F-16, управляемый человеком, имитировал воздушный бой с VISTA.

Читая между строк сообщения СМИ, можно сделать вывод, что демонстрация закончилась ничьей между двумя истребителями. Я аплодирую Кендаллу за то, что он подверг себя опасности, но это показательное выступление имело свою цель. Это была публичная демонстрация поддержки использования ИИ в воздушных боях.

Использование ИИ в воздушных боях, безусловно, является перспективным, особенно если это может спасти жизни. Но как насчет использования ИИ на борту гражданских авиалайнеров? Готовы ли пилоты принять эту технологию и ее интеграцию в кабину пилота? Сократится ли необходимый экипаж с двух пилотов до одного пилота плюс ИИ? Станет ли ИИ в конечном итоге полной заменой всех пилотов авиакомпаний? И примут ли пассажиры концепцию беспилотных самолетов — некоторые концепции передовой воздушной мобильности движутся в этом направлении, последуют ли за ними авиалайнеры?

Прежде чем начинать такое философское обсуждение, лучше получить хотя бы базовое представление об ИИ, потому что это сложная тема, которая, как правило, обсуждается в общих чертах. Мы все видели примеры использования этой технологии для удивительно точного воспроизведения известных личностей с помощью фотографий, видео и голоса. С этой концепцией, укоренившейся в нашем сознании, неудивительно, что мы воспринимаем сценарий из “Мира Дикого Запада”, где роботы восстают против своих создателей, как конечный результат.

За девять лет полетов на Boeing 777 я всегда поражался тому, насколько стабильно автоматика выполняла плавную посадку самолета, особенно выравнивание и приземление. Из-за негласного соперничества между моими навыками и возможностями машины я редко позволял системе автоматической посадки завершить свою работу до самой бетонной полосы, если только погодные условия не диктовали иного. Это были отношения любви/ненависти.

Тем не менее, функция автоматической посадки, в которой использовалось три отдельных автопилота, была очень базовой формой ИИ. Система работала в рамках определенного набора параметров. Пилоты должны были инструктировать систему с помощью переключателей и программирования бортового компьютера (FMC). Это была обычная процедура, отрабатываемая на регулярных тренировках. В современной терминологии автоматическая посадка, вероятно, не квалифицировалась бы как ИИ.

Сейчас ИИ считается “генеративным”. Вместо того чтобы просто полагаться на ввод данных человеком, генеративный ИИ использует алгоритмы прогнозирования, ряд формул или инструкций, для создания одного или нескольких действий. В случае с текстом компьютер может генерировать оригинальный контент — например, роман. Эти действия или творения достигаются путем извлечения многочисленных, а возможно, и бесконечных источников данных, т.е. информации из Интернета.

Это не идеальная система, потому что иногда генерируемый контент может приводить к тому, что на языке ИИ называется «галлюцинациями». Часть материала может быть дезинформацией, слегка неверной или совершенно некорректной. Помните, что некоторые данные извлекаются из таких источников, как интернет-сайты, которые сами по себе печально известны своей неточностью.

F-16 VISTA развивал свой генеративный ИИ для маневрирования в воздушном бою как с помощью данных, полученных на специально оборудованных симуляторах, так и с самого самолета. Помимо этой информации, я уверен, что ВВС держат проект в строжайшей тайне. Но я просто сделаю безопасное предположение, что галлюцинации исключены из уравнения.

Искусственный общий интеллект (ИОИ или AGI) — это концепция технологии, которой большинство боится. Для тех, кто моего возраста, ИОИ — это причина, по которой персонаж стрелка Юла Бриннера из фильма “Мир Дикого Запада” 1973 года действует убийственно, выходя за рамки своего человеческого программирования. Но эта фаза технологии в основном теоретическая. Компьютеры пока не способны развивать свой собственный интеллект или личность вне данных, которые были введены или извлечены.

Итак, как генеративный ИИ мог бы помогать и сосуществовать в кабине пилота авиалайнера? Во-первых, не хочется это признавать, но пилоты авиакомпаний сопротивляются переменам. Скептицизм заложен в нашей природе. Введите новую процедуру или систему в кабине, и мы найдем в ней проблему. Введите ИИ, и брови поползут вверх.

Когда я перешел на Boeing 767 с Jurassic Jet (B-727), самолета, который все еще управлялся с помощью шкивов, тросов и капризного автопилота, идея управления машиной с помощью переключателей на верхней панели была чужда моему существу. Однажды во время тренировки на симуляторе я взбунтовался и отключил автопилот, выразив свое недовольство нашему проверяющему. Я убедил его позволить мне с честью выполнить посадку на одном двигателе собственными руками, пообещав с этого момента соблюдать протокол автоматизации авиакомпании. В конце концов, я поддался технологии, но это была борьба.

В качестве примера использования ИИ в кабине пилота авиалайнера рассмотрим следующий сценарий: рейс XYZ находится в 30 минутах от прибытия в международный аэропорт имени Джона Ф. Кеннеди (KJFK). Сообщается, что RVR (Дальность видимости на ВПП) находится на минимальном уровне. Если заход на посадку выполнен, и необходим уход на второй круг, делает ли самолет еще одну попытку или следует на запасной аэродром по плану полета или куда-либо еще?

Описанный выше сценарий не является нетипичной ситуацией. Если им управляет дальновидный экипаж, решение уже принято до начала захода на посадку. Но если данные, включая погоду, топливо, расстояние до запасных аэродромов, наличие свободных мест на стоянке, наличие мест в гостиницах, стыковки пассажиров, законность продолжительности рабочего времени экипажа, техническое состояние и т.д., доступны бортовой системе ИИ, это становится проблемой компьютерного алгоритма.

Когда данные обработаны, экипаж может просмотреть информацию с компьютера, которая может подтвердить его решение, или информация может привести к рассмотрению другого решения. Использование ИИ становится совместным, потенциально снижая рабочую нагрузку в кабине пилота.

В июле 1989 года капитан Al Haynes из United Airlines, управлявший DC-10, знаменито скоординировал один из самых значительных моментов, связанных с управлением ресурсами экипажа. Когда у самолета произошла катастрофическая, нелокализованная поломка двигателя после того, как диск вентилятора отделился от двигателя № 2 (центрального), перерезав все гидравлические линии, самолет можно было контролировать только с помощью дифференциальной тяги. Из 296 пассажиров и членов экипажа на борту 184 выжили после «невозможной посадки» в Су-Сити, штат Айова.

McDonnell Douglas заявила, что сценарий полного отказа гидравлики невозможен. Предложил бы ИИ то же самое решение? Предложил бы ИИ лучшее решение? Рекомендовал бы ИИ невероятную координацию действий экипажа и изобретательность, которые были продемонстрированы? Я, конечно, не эксперт по ИИ, но мой ответ был бы отрицательным.

Двадцать лет спустя рейс 1549 US Airways приземлился на реку Гудзон после того, как стая гусей попала в оба двигателя на относительно небольшой высоте, что привело к двойному отказу двигателей. По моей оценке, ИИ мог бы создать отвлечение, которое могло бы помешать быстрым решениям и действиям, предпринятым капитаном Чесли «Салли» Салленбергером и вторым пилотом Джеффри Скилзом.

Исходя из текущего состояния технологии ИИ, кажется, что беспилотный самолет — это даже не отдаленное будущее. Может ли ИИ быть полезным в кабине пилота в его нынешней форме? Конечно, но не для замены одного из пилотов. Это тема для совершенно другой истории.

ПС: Фуф, пилоты спят спокойно :) замены в горизонте не видно, только контуры 😀

 No comments   28 d   AI   Aircraft

Как Apache DolphinScheduler решает проблемы обработки данных для Bosch Smart Driving

Оригинал: https://apachedolphinscheduler.substack.com/p/how-apache-dolphinscheduler-conquers

Введение докладчика

Тао Чаоцюань, бэкенд-разработчик в Bosch Smart Driving (Китай), отвечает за обработку и планирование данных. Он имеет обширный практический опыт в области обработки данных для умного вождения. В декабре 2024 года на онлайн-встрече сообщества Apache DolphinScheduler он поделился примерами применения Apache DolphinScheduler в обработке данных для умного вождения и планами развития на будущее.

Спасибо за чтение Substack Apache DolphinScheduler! Этот пост публичный, так что не стесняйтесь делиться им.

Предпосылки бизнеса

Bosch Smart Driving (Китай) является частью Bosch Group, полное название Robert Bosch GmbH, основанной в 1886 году, с глобальной штаб-квартирой в Германии. В компании работает более 420 000 сотрудников, и она представлена более чем в 50 странах. Ее бизнес охватывает четыре основные области: автомобильные и интеллектуальные транспортные технологии, промышленные технологии, потребительские товары, а также энергетические и строительные технологии.

Сегодняшняя тема будет посвящена технической трансформации и бизнес-применению Bosch в области технологий умного вождения на основе Apache DolphinScheduler.

Развитие технологий умного вождения сильно зависит от данных. Данные являются не только краеугольным камнем обучения моделей, но и ключом к функциональной верификации. Модели умного вождения требуют большого количества высококачественных данных для обучения, чтобы повысить точность восприятия, принятия решений и управления. В то же время, чтобы обеспечить надежность и безопасность системы, функциональная верификация транспортных средств в реальных условиях также требует разнообразных тестовых данных.

Трансформация доступа

До:

До использования Apache DolphinScheduler Bosch Smart Driving полагался на Jenkins для реализации оркестрации и планирования рабочих процессов внутри бизнес-кода. Преимуществом этого метода является высокая гибкость, позволяющая определять любую форму оркестрации рабочего процесса. Однако недостаток также очевиден – высокая степень связанности с бизнес-кодом. Любое изменение в рабочем процессе требует модификации бизнес-кода, что увеличивает сложность и риски обслуживания.

После:

После выбора планировщика Bosch Smart Driving решил использовать Apache DolphinScheduler и провел серию преобразований доступа на основе версии 3.2.0 для повышения эффективности и гибкости обработки данных.

Ниже приведены конкретные планы реализации серии преобразований, проведенных Bosch Smart Driving.

MQ Триггер

На основе источника данных Bosch Smart Driving увеличил создание источников сообщений и связал источники сообщений с рабочим процессом, добившись автоматического запуска рабочего процесса. Это улучшение позволяет рабочему процессу более гибко реагировать на изменения в источнике данных.

Улучшение узлов

Bosch Smart Driving в значительной степени полагается на задачи K8S и динамические задачи для оркестрации и провел некоторые ключевые преобразования на основе DolphinScheduler в этом отношении, включая:

* Основной процесс и подпроцессы: Оптимизировано управление основным процессом и подпроцессами.
* Пользовательский плагин: Разрешено использование пользовательских плагинов для удовлетворения специфических бизнес-потребностей.
* Изменение правил генерации подпроцессов динамических узлов: Скорректированы правила генерации подпроцессов динамических узлов для лучшего контроля вывода параметров.
* Асинхронный триггер и опрос: Реализованы механизмы асинхронного запуска и опроса для повышения скорости отклика задач.
* Условный HTTP: Введены условные HTTP-запросы для реализации более сложной логики рабочего процесса.

Динамический приоритет

Bosch Smart Driving также реализовал функциональность динамического приоритета на основе Apache DolphinScheduler для удовлетворения потребностей различных бизнес-сценариев и обеспечения того, чтобы ключевые задачи могли выполняться с приоритетом.

Рекомендации

Архитектура развертывания:

Bosch Smart Driving принял развертывание K8S для достижения изоляции между управляющими кластерами и вычислительными кластерами. Эта стратегия изоляции включает:

* Изоляция пространства имен: Благодаря изоляции на уровне пространства имен достигается логическое разделение между различными задачами.
* Изоляция узлов: Благодаря изоляции на уровне узлов гарантируется, что вычислительные задачи не приведут к вытеснению управляющих узлов из-за конкуренции за ресурсы или нагрузки.

Версия кластера:

Bosch Smart Driving внедрил TTL Controller, механизм, который контролирует, как долго после завершения задания оно будет удалено. Эта функция официально вступила в силу с версии Kubernetes v1.23. Следует отметить, что использование более старых версий может привести к повышенной нагрузке на кластер Kubernetes и даже вызвать Ds worker OOM (Out of Memory), поэтому следует соблюдать осторожность при его использовании.

Настройка задачи K8S:

В отношении настройки задачи K8S Bosch Smart Driving предлагает следующие рекомендации:

* Передача параметров задачи: Избегайте использования большого JSON для передачи параметров и старайтесь использовать файловое взаимодействие, используя адреса файлов в качестве параметров, чтобы уменьшить нагрузку на передачу по сети.
* Квота ресурсов: Для долгосрочных задач k8s постарайтесь настроить одинаковый запрос и ограничение, чтобы избежать перепродажи ресурсов, ведущей к OOM.
* Управление вводом/выводом: Для задач с интенсивным вводом/выводом старайтесь избегать большого количества операций чтения и записи на локальный диск и используйте CFS (Comprehensive File System), чтобы уменьшить влияние на другие задачи на текущем узле.

Изоляция задач K8S и динамический приоритет:

Столкнувшись с проблемой планирования различных типов задач k8s в одном кластере k8s для выполнения, Bosch Smart Driving предлагает следующие решения:

* Поддержка динамического изменения приоритета задач на главном узле: Позволяет динамически регулировать приоритет задач для удовлетворения различных бизнес-потребностей.
* Распределение различных типов задач по разным узлам с помощью меток узлов и допусков: Таким образом, можно гарантировать, что различные типы задач изолированы с точки зрения использования ресурсов, сохраняя при этом свои соответствующие приоритеты.

Планы на будущее

Наконец, Bosch Smart Driving выразил планы по реализации новых функций и дальнейших улучшений в будущем, включая реализацию изоляции ресурсов задач и интеграцию с CICD, чтобы еще больше повысить эффективность и стабильность обработки данных для умного вождения. Эти планы помогут технологическому прогрессу и развитию бизнеса Bosch Smart Driving в области умного вождения.

Заключение

Этот доклад не только демонстрирует практическое применение Apache DolphinScheduler в умной обработке данных в Bosch, компании со столетней историей, но также предоставляет ценный практический опыт и направления развития на будущее. Приглашаем вас узнать больше и присоединиться к сообществу Apache DolphinScheduler, чтобы получить больше информации и ресурсов, а также совместно продвигать развитие технологий умного вождения.

От себя добавлю:

При таких показателях и возрасте компании удается быть немногим прибыльной ( не жадной ) имея 400 тысяч сотрудников. Вопрос один: как? Подумайте)

и вот еще любопытные факты: RISC-V и BCAI

Вот например инвестиции в BCAI были около 300млн. Если посчитать на 1 сотрудника это 750 евро. вы тратили в 2017 году на ИИ 750 евро, а они да)

Идея или как пройти собеседование с ИИ

Оригинал: https://www.championat.com/cybersport/news-5307548-bloger-proshyol-sobesedovanie-v-krupnoj-korporacii-s-pomoschyu-chatgpt.html

TikTok-блогер провёл интересный эксперимент. Он откликнулся на вакансию «Аэрокосмический инженер» от корпорации Lockheed Martin, обладая нулевыми знаниями по указанной специальности.
Затем с ним связался представитель компании для проведения онлайн-собеседования. Блогер смог успешно его пройти с помощью нейросети ChatGPT.

Чат-бот в режиме реального времени обрабатывал вопросы интервьюера и генерировал развёрнутый ответ. Блогеру оставалось только зачитать готовый текст от нейросети.
Lockheed Martin — американская военно-промышленная корпорация. Она является крупнейшим в мире разработчиком и производителем современного высокотехнологичного вооружения, а также военной техники. На данный момент капитализация Lockheed Martin составляет $ 113 млрд.

Но суть конечно в другом, куча операторов в колл центрах решают сотни вопросов помогая людям, тяжелый труд, не все выдерживают. Интересно были бы они рады встретить помощника в виде ии, который им помогал бы с ответом на возникшие вопросы клиентов в реальном времени, подключает нужных людей, если надо, ищет ответы в базе знаний. Мне кажется сотрудники колл центров были бы чуть чуть счастливее, будь у них такая игрушка электронный помощник. А повесив трубку с клиентом, оператор с ним может поговорить пару минут если есть возможность, как там борщ сварить или еще что то неформальное.

 No comments   1 mo   AI

Прогноз от Saxo Bank на 2025 год

Вышел очередной шок-прогноз от Saxo Bank на 2025 год. Аналитики говорят, что такие прогнозы — традиционный декабрьский пиар-ход Saxo Bank. Сам банк говорит, что это список маловероятных, но все же возможных событий в новом году, которые способны повлиять на мир, поэтому прогноз так и называется — «вопиющий». И тем не менее его подробным образом изучают во всех ведущих мировых СМИ.
В прогнозе на 2025 год Saxo Bank выдал восемь сценариев вместо обычных десяти. Первый — о том, что доллар США рухнет из-за того, что Дональд Трамп еще больше повысит торговые пошлины для стран-импортеров. Это ударит по странам Глобального Юга, которые начнут искать альтернативу доллару. Американская валюта потеряет статус мировой резервной.
Во втором пункте прогноз о том, что компания Nvidia, которая продает чипы для процессоров, обгонит Apple по капитализации в два раза. Причина — глобальная гонка искусственных интеллектов.

Согласно третьему прогнозу, Китай вольет в свою экономику 50 трлн юаней — треть своего ВВП, из-за чего китайцы начнут больше покупать, производить, рождаемость там повысится. Мировые цены на сырье вырастут, а китайский юань укрепится. По четвертому пункту сердце человека напечатают на биопринтере, что повлияет на продолжительность жизни.

Еще одно предсказание: на Земле закончится весь бензин из-за гигантского спроса на мировые запасы нефти, а из-за небывалого спроса на электромобили не станет ОПЕК.
Шестой прогноз о дата-центрах для ИИ. Они потребляют все больше электроэнергии, граждане будут больше платить за коммуналку, поэтому власти США введут для дата-центров налог.

По седьмому сценарию произойдет сильнейший шторм с ужасающим количеством осадков, который впервые в истории обанкротит крупную страховую компанию. Это вызовет волнения на фондовых рынках.

Ну и британский фунт, упавший из-за Brexit, снова вырастет по отношению к евро, поскольку Великобритания проведет новую фискальную политику.

https://www.bfm.ru/news/563485

 No comments   1 mo   AI   Crypto   Life

Поздравляем детей на новый год – Ёлка желаний

У многих в офисах стали ставить ёлки желаний детей из детских домов. У нас тоже такую поставили.

Попробовал написать поздравление с помощью нейроночки. Получилось лучше всего у Claude Sonet 3.5. А проще всего это сделать можно в Gigachat от Сбера https://t.me/gigachat_bot

Я аж прослезился. 😭 Читайте сами, но я вас предупреждал))

Дорогая Женечка!

С Новым годом, милое дитя! Я получил твоё письмо, которое долетело до меня через метели и звёздные дали. Знаешь, глядя на твою фотографию рядом с книжными полками, я вижу в твоих глазах отражение тех самых звёзд, о которых хочу тебе рассказать.

Представь себе, Женечка, что там, высоко над нами, раскинулся бескрайний космос – такой огромный, что даже я, Дед Мороз, не могу обойти его весь! В нём кружатся миллиарды звёзд, каждая из которых может быть чьей-то мечтой. И знаешь что? Космос похож на твои мечты – он такой же безграничный и полный чудес.

В этом огромном космосе есть туманности, похожие на волшебные облака, и галактики, закручивающиеся спиралями, будто морозные узоры на зимнем окне. Каждая звезда там – как маленький огонёк надежды, который никогда не гаснет.

Женечка, твоё сердце – словно маленькая Вселенная, в которой живут самые светлые мечты. И знаешь что? Мечты – это не просто фантазии, это маленькие звёздочки, которые освещают путь к будущему. Я, как хранитель новогодних чудес, точно знаю: когда ты искренне веришь в свою мечту, она обязательно сбывается!

Пусть в новом году твои мечты растут выше самых высоких ёлок, пусть они сияют ярче самых ярких звёзд! И помни: даже если путь к мечте кажется длинным, как путешествие через всю галактику, каждый маленький шаг приближает тебя к цели.

Храни свои мечты, моя дорогая, и верь в чудеса! Ведь чудеса случаются с теми, кто в них верит.

С новогодним волшебством,
Твой Дедушка Мороз

P.S. Я оставил тебе под ёлочкой особенный подарок, который напомнит тебе о бескрайнем космосе и о том, что мечты обязательно сбываются! 🌟

А в подарке https://www.ozon.ru/product/proektor-zvezdnogo-neba-shakachu-vega-bt-360-meteor-6-slaydov-muzykalnyy-nochnik-zvezdnoe-1354326542/

Ночник Шакачу – ооочень красивый) тоже такой хотел бы в детстве))

 No comments   1 mo   charity   Life

Пополнение – Asurah

In ‘The Masks we Wear’ series, I wanted to bring together the folkloric fused with a futuristic cyberpunk aesthetic to create something that felt timeless or time agnostic. Ironically, the pandemic has made this series especially timely for our ‘new normal’

Vini Naso
 No comments   1 mo   art   Art nft   NFT

Интеграция данных на базе SeaTunnel: Как 58.com обрабатывает более 500 млрд датасетов ежедневно

Перевод: https://dev.to/seatunnel/seatunnel-powered-data-integration-how-58-group-handles-over-500-billion-data-points-daily-3d1m

Введение

В эпоху цифровизации данные стали одним из самых ценных активов для бизнеса. Как ведущая платформа услуг повседневной жизни в Китае, 58 Group постоянно исследует и внедряет инновации в построении своей платформы интеграции данных. В этой статье будут подробно рассмотрены эволюция архитектуры, стратегии оптимизации и планы будущего развития платформы интеграции данных 58 Group на основе Apache SeaTunnel.

Вызовы платформы интеграции данных

Бизнес-контекст

58 Group имеет широкий спектр бизнесов, и с быстрым развитием этих направлений объем данных из различных бизнес-областей, таких как найм, недвижимость, вторичный рынок жилья, вторичный рынок товаров, местные услуги и информационная безопасность, значительно увеличился. 58 Group должна обеспечить свободное перемещение и конвергенцию данных между различными источниками данных для достижения единого управления, циркуляции и обмена данными. Это включает не только сбор, распределение и хранение данных, но и приложения, такие как офлайн-вычисления, синхронизация между кластерами и профилирование пользователей.

В настоящее время 58 Group обрабатывает более 500 миллиардов сообщений ежедневно, с пиковым объемом обработки сообщений, превышающим 20 миллионов, и количеством задач, превышающим 1600. Обработка такого огромного объема данных представляет значительные вызовы.

Вызовы

В обеспечении свободного перемещения и конвергенции данных между различными источниками и достижении единого управления, циркуляции и обмена данными 58 Group сталкивается с вызовами, включая:

  • Высокая надежность: Обеспечение отсутствия потерь данных при различных условиях сбоя, обеспечение согласованности данных и стабильной работы задач.
  • Высокая пропускная способность: Обработка больших потоков данных для достижения высокой параллельности и массового переноса данных.
  • Низкая задержка: Соответствие бизнес-потребностям в обработке данных в реальном времени и быстром отклике.
  • Простота обслуживания: Упрощение конфигурации и автоматизация мониторинга для снижения нагрузки на обслуживание, упрощения быстрого обнаружения и устранения неисправностей, а также обеспечения долгосрочной доступности системы.

Эволюция архитектуры

Архитектура платформы интеграции данных 58 Group прошла через несколько этапов эволюции, чтобы адаптироваться к меняющимся бизнес-потребностям и технологическим разработкам.

Ранняя архитектура

  • 2017: Использовался Flume для интеграции платформы.
  • 2018: Внедрен Kafka Connect 1.0.
  • 2020: Использовалась версия Kafka Connect 2.4, достигнута инкрементальная балансировка нагрузки и CDC (Change Data Capture).
  • 2023: Внедрен Apache SeaTunnel, интегрированный в платформу реального времени вычислений, и расширены различные Source/Sink.

С 2017 по 2018 год платформа интеграции данных 58 Group использовала архитектуру Kafka Connect, основанную на интеграции данных с Kafka, с горизонтальным масштабированием и распределенной обработкой, поддерживающей работу Workers и Tasks на нескольких узлах; Workers автоматически перераспределяют задачи на другие Workers при сбое, обеспечивая высокую доступность; также поддерживается автоматическое управление смещением и управление задачами и конфигурацией через Rest API.

Однако с расширением объема бизнеса и разнообразием сценариев эта архитектура столкнулась с ограничениями:

Ограничения архитектуры

  • Невозможность достижения полной интеграции данных.
  • Проблемы с Coordinator Bottleneck
    • Heartbeat Timeout: Тайм-ауты сердцебиения Worker-to-coordinator вызывают перебалансировку задач, вызывая временные прерывания задач.
    • Heartbeat Pressure: Workers синхронизируются с координаторами, отслеживая состояния Workers и управляя большим объемом метаданных задач.
    • Coordinator Failure: Простой координатора влияет на распределение и перераспределение задач, вызывая сбои задач и снижение эффективности обработки.
  • Влияние Task Rebalance
    • Task Pause and Resume: Каждая перебалансировка приостанавливает задачи, затем перераспределяет их, что приводит к кратковременным прерываниям задач.
    • Rebalance Storms: Если несколько узлов Workers часто присоединяются или покидают кластер, или если сетевая дрожь вызывает тайм-ауты сердцебиения, частые Rebalance могут значительно повлиять на эффективность обработки задач, вызывая задержки.

Учитывая эти недостатки, 58 Group в 2023 году внедрила Apache SeaTunnel, интегрировав его в платформу реального времени вычислений для свободного расширения различных Source/Sink.

Текущая архитектура

В настоящее время платформа интеграции данных 58 Group, основанная на движке Apache SeaTunnel, интегрирует источники данных (Kafka, Pulsar, WMB, Hive и т.д.), обрабатывает их через встроенные функции Transform SeaTunnel и отправляет их в целевые базы данных (Hive, HDFS, Kafka, Pulsar, WMB, MySQL, SR, Redis, HBASE, Wtable, MongoDB и т.д.), достигая эффективного управления задачами, управления статусом, мониторинга задач, интеллектуальной диагностики и многого другого.

Плавная миграция и настройка производительности

Плавная миграция

При внедрении Apache SeaTunnel 58 Group должна была выполнить плавную миграцию платформы интеграции данных, чтобы минимизировать влияние на пользователей или бизнес и обеспечить согласованность данных, сохраняя согласованность формата, пути и отсутствие потерь данных.

Эта цель представляла вызовы, включая затраты и риски миграции, такие как понимание и подтверждение формата данных каждой задачи, и миграция включала несколько этапов, что было сложно и требовало времени.

Для решения этой проблемы 58 Group предприняла следующие меры:

  • Для источников добавлен RawDeserializationSchema для совместимости с неструктурированными данными.
  • Для целей, таких как использование hdfs sink для hive, для совместимости с загрузкой партиций и путями.
  • Разработка автоматических инструментов миграции:
    • Автоматическое генерирование конфигураций задач, генерирование соответствующих конфигураций задач SeaTunnel на основе конфигураций Kafka Connect.
    • Отключение исходных задач, сброс смещений и запуск новых задач.
    • Проверка и проверка.

Настройка производительности

58 Group также провела несколько оптимизаций производительности на платформе интеграции данных, включая:

  • Добавление Pulsar Sink Connector: Для увеличения пропускной способности.
  • Поддержка Array Data: Улучшение совместимости HbaseSink.
  • Поддержка установки времени истечения срока действия: Оптимизация RedisSink.
  • Увеличение пропускной способности PulsarSource: Оптимизация метода сжатия файловых коннекторов.
  • Исправление проблем с парсингом KafkaSource: Улучшение гибкости конфигурации клиентов Kafka.

Мониторинг и автоматизация операций

Кроме того, 58 Group улучшила стабильность и эффективность платформы интеграции данных через мониторинг и автоматизацию операций:

  • Мониторинг задач: Реальный мониторинг статуса задач для быстрого обнаружения и устранения сбоев.
  • Автоматизация операций: Сокращение ручного вмешательства через автоматизированные инструменты для увеличения операционной эффективности.

Планы будущего развития

58 Group имеет четкие планы на будущее развития платформы интеграции данных:

  • Постоянное улучшение интеллектуальной диагностики: Повышение точности и эффективности диагностики неисправностей через технологии машинного обучения и искусственного интеллекта.
  • Обновление на облачную и контейнеризованную инфраструктуру: Перенос платформы интеграции данных в облачную среду и реализация контейнеризованного развертывания для улучшения использования ресурсов и гибкости.

Заключение

Эволюция и оптимизация архитектуры платформы интеграции данных 58 Group — это непрерывный процесс итерации и инноваций. Через постоянные технологические исследования и практику 58 Group успешно построила эффективную, стабильную и масштабируемую платформу интеграции данных на основе Apache SeaTunnel, обеспечивая сильную поддержку данных для развития бизнеса. В будущем 58 Group продолжит углубляться в область интеграции данных, чтобы предоставлять лучшие услуги для пользователей.

Для справки

Что такое Apache SeaTunnel и для чего он нужен?

Apache SeaTunnel — это открытая платформа для интеграции данных, разработанная на основе Apache Spark и Apache Flink. Она предназначена для обеспечения высокопроизводительной, надежной и масштабируемой обработки потоковых и пакетных данных. SeaTunnel предоставляет удобный интерфейс для разработчиков, позволяющий легко интегрировать различные источники данных (такие как Kafka, Pulsar, Hive и другие) и отправлять их в различные хранилища данных (такие как HDFS, Kafka, MySQL, Redis и т.д.).

Основные функции и преимущества Apache SeaTunnel:

  1. Высокая производительность: SeaTunnel использует мощные движки Apache Spark и Apache Flink для обеспечения высокой скорости обработки данных.
  2. Надежность: Платформа обеспечивает гарантию доставки данных, чтобы избежать потерь данных при сбоях.
  3. Масштабируемость: SeaTunnel может легко масштабироваться для обработки больших объемов данных.
  4. Гибкость: Поддерживает множество источников и приемников данных, что делает его универсальным инструментом для интеграции данных.
  5. Простота использования: Предоставляет удобный интерфейс для разработчиков, упрощая настройку и управление задачами интеграции данных.

Для чего нужен Apache SeaTunnel?

Apache SeaTunnel используется для решения задач интеграции данных в различных сценариях, таких как:

  • Обработка потоковых данных: SeaTunnel может использоваться для обработки данных в реальном времени, например, для анализа данных сенсоров, мониторинга активности пользователей и т.д.
  • Интеграция данных из различных источников: SeaTunnel позволяет объединять данные из разных источников, таких как базы данных, хранилища объектов, системы логгирования и т.д.
  • Перенос данных: SeaTunnel может использоваться для переноса данных между различными хранилищами данных, например, из MySQL в HDFS или из Kafka в Elasticsearch.
  • Агрегация и трансформация данных: SeaTunnel предоставляет мощные инструменты для агрегации и трансформации данных, что позволяет создавать сложные аналитические модели.

Что за компания 58 Group в Китае?

58 Group — это ведущая китайская платформа услуг повседневной жизни, предоставляющая широкий спектр онлайн-сервисов, включая поиск работы, недвижимость, вторичный рынок товаров, местные услуги и многое другое. Компания была основана в 2005 году и с тех пор стала одним из крупнейших игроков на рынке онлайн-услуг в Китае.

Основные направления деятельности 58 Group:

  1. Поиск работы: Платформа предоставляет услуги по поиску работы для соискателей и размещению вакансий для работодателей.
  2. Недвижимость: 58 Group предлагает услуги по аренде и продаже недвижимости, включая жилую и коммерческую недвижимость.
  3. Вторичный рынок товаров: Платформа позволяет пользователям покупать и продавать б/у товары, такие как электроника, мебель, одежда и т.д.
  4. Местные услуги: 58 Group предоставляет широкий спектр местных услуг, включая ремонт, уборку, перевозки и многое другое.
  5. Информационная безопасность: Компания также занимается обеспечением информационной безопасности для своих пользователей.

Значение 58 Group в китайской экономике:

58 Group играет важную роль в китайской экономике, предоставляя удобные и доступные услуги для миллионов пользователей. Благодаря широкому спектру услуг и постоянному внедрению инноваций, 58 Group помогает упростить повседневную жизнь китайцев и стимулировать развитие местного бизнеса.

Проще говоря: 58 Group — это как китайский аналог Craigslist или Avito, но гораздо большего масштаба, предлагающий множество различных услуг в одном месте.

Презентация старая: http://filecache.investorroom.com/mr5ir_58/144/download/58.com%20Presentation-Q2%2719_0919_Management%20update.pdf

Earlier Ctrl + ↓