Welcome to my personal place for love, peace and happiness 🤖

Later Ctrl + ↑

Шаблон архитектуры системы

Отличный шаблончик на vc нашел

Читаем тут:
https://a.gavrilov.info/data/posts/Architecture-Description-Template.ru.pdf

Пишем свой тут:
https://a.gavrilov.info/data/posts/Architecture-Description-Template.ru.docx

Оригинальный пост: https://vc.ru/u/1915268-anna-y/1087763-dlya-arhitektorov-i-analitikov-ischerpyvayushii-shablon-opisaniya-arhitektury-prilozheniya-34-stranicy-polzy

Канальчик автора:
Anna Y
ITSM-эксперт. 25 лет развиваю процессы в ИТ. Пишу про сложные ИТ-решения. Пишу по большой любви https://t.me/itsm4u и на заказ https://t.me/tyzhavtor

Еще любопытный док получилось бы на тему концепций, что то в эту сторону

https://a.gavrilov.info/data/posts/Framing%20product%20concepts%20for%20your%20team:%20mission,%20vision,%20strategy,%20roadmap%20|%20by%20Carlin%20Yuen%20|%20Medium.pdf

Почему мы перешли с Dremio на Trino

В нашей постоянно развивающейся индустрии данных, выбор правильного инструмента может существенно повлиять на эффективность и гибкость работы. Мы недавно перешли с Dremio на Trino. Решение об этом шаге было принято после анализа и испытаний, и в этой статье я расскажу о причинах этого перехода, особенностях каждого продукта, а также о том, как это повлияет на нашу работу в рамках концепции Data Mesh.

Московский художник Даниил Кудряшов https://kudryashovdd.com/allartworks
Московский художник Даниил Кудряшов https://kudryashovdd.com/allartworks

Dremio и Trino: Основные Отличия

Dremio позиционируется как коробочный продукт, который предоставляет целый набор инструментов “из коробки”. Эта платформа позволяет пользователям выполнять аналитические запросы на больших наборах данных с использованием своего движка SQL. По своей природе Dremio старается исполнять запросы внутри себя, что зачастую приводит к необходимости выгрузки значительных объёмов данных из источника, прежде чем приступать к анализу. Это, в свою очередь, увеличивает время ожидания для пользователей и потребляет дополнительные ресурсы.

Dremio имеет свои плюсы и минусы:

Плюсы:

  • Лёгкость в использовании и интеграции.
  • Поддержка современных форматов данных.
  • Концепция data-as-code.

Минусы:

  • Высокая стоимость лицензий и серверов.
  • Особеннсоти исполнения запросов, которые нагружают систему источник.
  • Ограниченные настройки и закрытый код.
  • Ограниченная возможность кастомизации.

И конечно отсутствие обновлений, поддержки, что фактически является тупиком в развитии для нас.

Trino

Trino, ранее известный как PrestoSQL, представляет собой SQL-движок, который отлично подходит для платформ данных, требующих высокой степени кастомизации. В отличие от Dremio, Trino выполняет запросы ровно так, как это указано в SQL, что позволяет избежать излишних выгрузок данных и оптимизировать процесс обработки запросов. Благодаря своей открытой архитектуре, Trino предоставляет гибкость в настройках и кастомизации, что является ключевым преимуществом. Trino хорошо интегрируется с такими технологиями как Iceberg и Data Build Tool, kafka и многими другими, что обеспечивает более эффективное управление данными и их структурой. Позволяет нам выполнять запросы к данным в топиках Kafka, что особенно востребовано в текущий момент, а также легко добавлять новые типы коннекторов, Dremio так не умеет.

Плюсы:

  • Открытая архитектура и возможность кастомизации.
  • Высокая производительность и эффективность.
  • Поддержка современных форматов данных и подключений.
  • Развитое сообщество и документация.

Компания CedrusData – полностью российская компания и занимается ускорением базового Trino, Cedrus это фактически Trino на стероидах. Компания занимается развитием как новой функциональности, так и разрешением ошибок и просто поддержкой.

Минусы:

  • Необходимость дополнительных настроек и конфигураций.
  • Потребность в более глубоком техническом знании.

Причины Перехода

Гибкость и Настраиваемость

Одной из основных причин перехода с Dremio на Trino является гибкость и настраиваемость последнего. Trino позволяет легко адаптировать платформу данных под любые потребности, что особенно важно в рамках нашей концепции Data Mesh. Это значительно упрощает управление данными и позволяет экономить ресурсы, разделяя хранение данных от вычислительных мощностей.

Открытая Архитектура и Сообщество

Trino имеет открытую архитектуру, что позволяет любому внести изменения или предложить улучшения. Это делает платформу более гибкой и быстро адаптирующейся к изменяющимся требованиям. Большое сообщество пользователей и разработчиков обеспечивает постоянное обновление и улучшение функциональности, что гарантирует высокую производительность и актуальность продукта.

Экономия Ресурсов

Trino требует меньших затрат на исполнение запросов, что уменьшает нагрузку на инфраструктуру и сокращает расходы. Пользователи могут обращаться с данными на любом хранении, будь то Oracle или файлы CSV, благодаря единому SQL-интерфейсу.

Безопасность и Управление

Хотя Dremio предлагал платные функции безопасности, бесплатная версия не могла удовлетворить наши требования. Trino, напротив, предлагает широкий спектр настроек безопасности, а также возможность интеграции с различными инструментами управления данными.

Поддержка и Документация

Trino имеет обширную документацию и активное сообщество, что обеспечивает поддержку и обмен опытом между пользователями. В отличие от Dremio, где настройки часто являются закрытыми и требуют вмешательства поддержки, которой у нас уже нет, Trino предоставляет полный доступ к настройкам и их описаниям.

Влияние на Платформу

Переход на Trino позволит нам лучше следовать Data Mesh и основным принципым, а именно:

  • Видимость: данные станут более доступными и легко находимыми для пользователей.
  • Доступность: пользователи смогут быстро извлекать данные из различных систем и форматов.
  • Понимание: наличие описаний данных поможет лучше понимать контекст и содержание.
  • Связность: пользователи смогут легко использовать дополнительные атрибуты благодаря связям в данных.
  • Доверие: уверенность в качестве данных будет повышена.
  • Совместимость: общие представления о данных у производителей и потребителей.
  • Безопасность: данные будут защищены от несанкционированного доступа и манипуляций.

Что такое Data Mesh?

Заключение

Переход с Dremio на Trino – это важный шаг на пути к улучшению нашей платформы данных. Мы уверены, что гибкость, высокая производительность и открытая архитектура Trino помогут нам достигнуть новых высот в управлении и анализе данных. Следите за новостями и присоединяйтесь к обсуждению в нашем чате поддержки!

Всем хороших выходных! Напишите в комментариях, как вам запомнился Dremio, и что вы пожелаете новому ядру на базе Trino.

Калининград, выезд БИТа

Kolors — диффузионная модель для генерации изображений

⚡️ Встречайте Kolors — диффузионная модель для генерации изображений с упором на фотореализм

Kolors — это большая диффузионная модель, опубликованная вчера командой Kuaishou Kolors.

Kolors была обучена на миллиардах пар “текст-изображение” и показывает отличные результаты в генерации сложных фотореалистичных изображений.

По результатам оценки 50 независимых экспертов, модель Kolors генерирует более реалистчиные и красивые изображения, чем Midjourney-v6, Stable Diffusion 3, DALL-E 3 и другие модели

🟡 Страничка Kolors https://kwai-kolors.github.io/post/post-2/
🟡 Попробовать https://huggingface.co/spaces/gokaygokay/Kolors
🖥 GitHub https://github.com/Kwai-Kolors/Kolors

@ai_machinelearning_big_data

Представляем обновленную версию дистрибутива OpenScaler 24.03 LTS

Важные новости! 😎

На днях мы поделились информацией о том, что:
Специалисты нашего сообщества активно работают над новой версией OpenScaler на базе openEuler 24.03 LTS. Скоро анонсируем. Следите за новостями!

Обещание выполнено!

Представляем обновленную версию дистрибутива OpenScaler 24.03 LTS!

Ключевые нововведения:
🌟 Улучшенное ядро Linux 6
🌟 Интеллектуальное планирование и настройка с помощью алгоритмов ИИ
🌟 Расширенные возможности на различных платформах для повышения производительности и надежности приложений и многое другое.

📤 Установочные образы OpenScaler 24.03 LTS доступны для архитектур Arm и x86.

Подробнее о релизе дистрибутива OpenScaler 24.03 LTS читайте в нашем анонсе. https://openscaler.ru/2024/07/04/openscaler-23-03-release/

Хотите протестировать новую версию дистрибутива? OpenScaler 24.03 LTS уже доступен дня скачивания на официальном сайте сообщества в разделе “Загрузки”!
https://openscaler.ru/downloads/

Будем рады ответить на ваши вопросы. Загляните к нам на форум 😉
https://openscaler.ru/forum/

Woodpecker — мощный расширяемый движок CI/CD

🖥 Woodpecker — мощный расширяемый движок CI/CD

Woodpecker ориентирован на создание конвейеров внутри контейнеров Docker

— Woodpecker полностью open-source

— Woodpecker использует контейнеры Docker; если возможностей обычного Docker-образа не хватит, можно создать плагины для расширения возможностей

— Woodpecker позволяет легко создавать несколько рабочих процессов и они могут даже зависеть друг от друга

🖥 GitHub https://github.com/woodpecker-ci/woodpecker
🟡 Доки https://woodpecker-ci.org/docs/usage/intro

Docker

Lance — современный колоночный формат данных для ML

🌟 Lance — современный колоночный формат данных для ML-приложений, реализованный на Rust

— pip install pylance

Lance идеально подходит для создания поисковых систем и хранилищ данных, для масштабного обучения ML-моделей, для хранения таких данных как облака точек.
Поддерживает конвертацию из Parquet в 2 строки кода, при этом он быстрее Parquet в 100 раз.
Lance можно без проблем использовать с pandas, DuckDB, Polars, pyarrow и не только.

🖥 GitHub https://github.com/lancedb/lance
🟡 Примеры использования https://lancedb.github.io/lance/examples/examples.html

@data_analysis_ml

Earlier Ctrl + ↓