<?xml version="1.0" encoding="utf-8"?> 
<rss version="2.0"
  xmlns:itunes="http://www.itunes.com/dtds/podcast-1.0.dtd"
  xmlns:atom="http://www.w3.org/2005/Atom">

<channel>

<title>Yuriy Gavrilov: posts tagged Lakehouse</title>
<link>https://gavrilov.info/tags/lakehouse/</link>
<description>Welcome to my personal place for love, peace and happiness 🤖 Yuiry Gavrilov</description>
<author></author>
<language>en</language>
<generator>Aegea 11.4 (v4171e)</generator>

<itunes:owner>
<itunes:name></itunes:name>
<itunes:email>yvgavrilov@gmail.com</itunes:email>
</itunes:owner>
<itunes:subtitle>Welcome to my personal place for love, peace and happiness 🤖 Yuiry Gavrilov</itunes:subtitle>
<itunes:image href="https://gavrilov.info/pictures/userpic/userpic-square@2x.jpg?1643451008" />
<itunes:explicit>no</itunes:explicit>

<item>
<title>Создаем Streaming Lakehouse за час: руководство по RisingWave, Lakekeeper и Trino</title>
<guid isPermaLink="false">278</guid>
<link>https://gavrilov.info/all/sozdaem-streaming-lakehouse-za-chas-rukovodstvo-po-risingwave-la/</link>
<pubDate>Sat, 06 Sep 2025 23:03:00 +0300</pubDate>
<author></author>
<comments>https://gavrilov.info/all/sozdaem-streaming-lakehouse-za-chas-rukovodstvo-po-risingwave-la/</comments>
<description>
&lt;p&gt;Вы когда-нибудь мечтали о платформе, где данные, отправленные через простой API-вызов, через секунды становятся доступны для аналитических запросов в вашем озере данных? Мечты сбываются. Эта статья — подробное, основанное на реальном опыте руководство, которое покажет, как построить современный Streaming Lakehouse с нуля.&lt;/p&gt;
&lt;p&gt;Доки, которые пригодились:&lt;/p&gt;
&lt;p&gt;&lt;a href="https://github.com/risingwavelabs/risingwave/blob/main/docker/docker-compose.yml"&gt;https://github.com/risingwavelabs/risingwave/blob/main/docker/docker-compose.yml&lt;/a&gt;&lt;br /&gt;
&lt;a href="https://github.com/lakekeeper/lakekeeper/blob/main/examples/minimal/docker-compose.yaml"&gt;https://github.com/lakekeeper/lakekeeper/blob/main/examples/minimal/docker-compose.yaml&lt;/a&gt;&lt;br /&gt;
&lt;a href="https://docs.risingwave.com/iceberg/deliver-to-iceberg#rest-catalog"&gt;https://docs.risingwave.com/iceberg/deliver-to-iceberg#rest-catalog&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;Наши главные герои:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;b&gt;RisingWave&lt;/b&gt;: Потоковая база данных, “сердце” нашего пайплайна. Она будет принимать, преобразовывать и материализовывать данные на лету.&lt;/li&gt;
&lt;/ul&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://gavrilov.info/pictures/image-212.png-1.jpg" width="2560" height="868" alt="" /&gt;
&lt;/div&gt;
&lt;ul&gt;
&lt;li&gt;&lt;b&gt;Lakekeeper&lt;/b&gt;: Современный REST-каталог для Apache Iceberg. Наш “библиотекарь”, который знает все о структуре данных в озере.&lt;/li&gt;
&lt;/ul&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://gavrilov.info/pictures/Snimok-ekrana-2025-09-06-v-22.37.28.png" width="1046" height="270" alt="" /&gt;
&lt;/div&gt;
&lt;ul&gt;
&lt;li&gt;&lt;b&gt;Trino&lt;/b&gt;: Мощный движок для федеративных запросов. Наше “окно” в озеро данных для выполнения ad-hoc аналитики.&lt;/li&gt;
&lt;/ul&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://gavrilov.info/pictures/Snimok-ekrana-2025-09-06-v-22.39.34.png" width="958" height="446" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;Мы пройдем весь путь: от сравнения технологий и настройки окружения до отправки данных и любования результатами на дашбордах Grafana. И самое главное — мы поделимся всеми “граблями”, на которые наступили, чтобы вы могли их обойти.&lt;/p&gt;
&lt;h3&gt;Глава 1: Почему RisingWave? Взгляд на альтернативы&lt;/h3&gt;
&lt;p&gt;На рынке потоковой обработки есть много инструментов, но все они предлагают разные подходы. Почему для нашей задачи мы выбрали именно RisingWave?&lt;/p&gt;
&lt;p&gt;&lt;b&gt;RisingWave&lt;/b&gt; — это распределенная потоковая база данных, созданная для упрощения обработки данных в реальном времени. Ее ключевая особенность — использование материализованных представлений поверх потоков данных. Вы пишете знакомый SQL, а RisingWave берет на себя всю сложную работу по инкрементальному обновлению результатов с минимальной задержкой.&lt;/p&gt;
&lt;p&gt;Давайте сравним его с популярными альтернативами.&lt;/p&gt;
&lt;h4&gt;Сравнительная таблица&lt;/h4&gt;
&lt;table cellpadding="0" cellspacing="0" border="0" class="e2-text-table"&gt;
&lt;tr&gt;
&lt;td style="text-align: center"&gt;Критерий&lt;/td&gt;
&lt;td style="text-align: center"&gt;RisingWave&lt;/td&gt;
&lt;td style="text-align: center"&gt;Связка Debezium + Flink&lt;/td&gt;
&lt;td style="text-align: center"&gt;Apache SeaTunnel&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style="text-align: center"&gt;&lt;b&gt;Архитектура&lt;/b&gt;&lt;/td&gt;
&lt;td style="text-align: center"&gt;Единая система: хранение состояния (state) и вычисления в одном продукте.&lt;/td&gt;
&lt;td style="text-align: center"&gt;Компонентная: Debezium (CDC), Kafka (очередь), Flink (обработка), отдельное хранилище состояния.&lt;/td&gt;
&lt;td style="text-align: center"&gt;Инструмент для перемещения данных (data mover) с коннекторами.&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style="text-align: right"&gt;&lt;b&gt;Основная задача&lt;/b&gt;&lt;/td&gt;
&lt;td style="text-align: center"&gt;Создание и поддержка инкрементально обновляемых материализованных представлений.&lt;/td&gt;
&lt;td style="text-align: center"&gt;Гибкая, низкоуровневая обработка потоков общего назначения.&lt;/td&gt;
&lt;td style="text-align: center"&gt;Пакетная и потоковая синхронизация данных между разнородными источниками и приемниками.&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style="text-align: center"&gt;&lt;b&gt;Простота использования&lt;/b&gt;&lt;/td&gt;
&lt;td style="text-align: center"&gt;&lt;b&gt;Очень высокая.&lt;/b&gt; Знание SQL — это 90% успеха. Скрывает сложность управления состоянием.&lt;/td&gt;
&lt;td style="text-align: center"&gt;Низкая. Требует экспертизы в каждом компоненте, написания кода на Java/Scala, управления состоянием.&lt;/td&gt;
&lt;td style="text-align: center"&gt;Средняя. Конфигурация через файлы, но требует понимания особенностей каждого коннектора.&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style="text-align: right"&gt;&lt;b&gt;Обработка данных&lt;/b&gt;&lt;/td&gt;
&lt;td style="text-align: center"&gt;SQL-ориентированная. `CREATE MATERIALIZED VIEW ... AS SELECT ...`.&lt;/td&gt;
&lt;td style="text-align: center"&gt;Программная. DataStream API, Table API/SQL. Позволяет писать сложную бизнес-логику.&lt;/td&gt;
&lt;td style="text-align: center"&gt;Декларативная. Определяет `source`, `transform`, `sink`. Менее гибкая для сложных трансформаций.&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style="text-align: center"&gt;&lt;b&gt;Поддержка SQL&lt;/b&gt;&lt;/td&gt;
&lt;td style="text-align: center"&gt;&lt;b&gt;Первоклассная.&lt;/b&gt; Совместимость с PostgreSQL на уровне синтаксиса и протокола.&lt;/td&gt;
&lt;td style="text-align: center"&gt;Хорошая (Flink SQL), но не является основным интерфейсом.&lt;/td&gt;
&lt;td style="text-align: center"&gt;Ограниченная. Используется для простых трансформаций, а не для определения логики потока.&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style="text-align: center"&gt;&lt;b&gt;Управление состоянием&lt;/b&gt;&lt;/td&gt;
&lt;td style="text-align: center"&gt;&lt;b&gt;Встроенное и автоматическое.&lt;/b&gt; Использует облачное хранилище (S3) как персистентный слой.&lt;/td&gt;
&lt;td style="text-align: center"&gt;&lt;b&gt;Ручное.&lt;/b&gt; Требуется настраивать и управлять чекпоинтами и состоянием (например, RocksDB).&lt;/td&gt;
&lt;td style="text-align: center"&gt;Зависит от движка (Flink/Spark). Не является основной функцией самого SeaTunnel.&lt;/td&gt;
&lt;/tr&gt;
&lt;/table&gt;
&lt;p&gt;&lt;b&gt;Выводы:&lt;/b&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;b&gt;Связка Debezium + Flink&lt;/b&gt; — это невероятно мощный, но сложный “конструктор”. Он идеален для компаний с большими командами инженеров данных, которым нужна максимальная гибкость для создания кастомной логики.&lt;/li&gt;
&lt;li&gt;&lt;b&gt;Apache SeaTunnel&lt;/b&gt; — это отличный “швейцарский нож” для перемещения данных. Его сила — в огромном количестве коннекторов. Он идеален для задач ETL/ELT, когда нужно перелить данные из точки А в точку Б с минимальными трансформациями.&lt;/li&gt;
&lt;li&gt;&lt;b&gt;RisingWave&lt;/b&gt; занимает золотую середину для аналитических задач в реальном времени. Он предлагает простоту и элегантность SQL, скрывая под капотом всю сложность потоковой обработки. Если ваша цель — быстро получить свежие аналитические витрины из потоков данных, RisingWave — ваш выбор.&lt;/li&gt;
&lt;/ul&gt;
&lt;h3&gt;Глава 2: “Кексы” — фишки RisingWave, которые упрощают жизнь 🍰&lt;/h3&gt;
&lt;p&gt;Что делает RisingWave таким привлекательным на практике?&lt;/p&gt;
&lt;ol start="1"&gt;
&lt;li&gt;&lt;b&gt;PostgreSQL-совместимость:&lt;/b&gt; Вы можете подключиться к RisingWave любым клиентом, который “говорит” на протоколе Postgres (например, DBeaver, psql). Синтаксис SQL для создания представлений и запросов вам уже знаком.&lt;/li&gt;
&lt;li&gt;&lt;b&gt;Все-в-одном для стриминга:&lt;/b&gt; RisingWave объединяет в себе прием данных (коннекторы), их обработку (инкрементальные вычисления) и хранение состояния. Вам не нужно разворачивать и связывать вместе Kafka, Zookeeper, Flink и RocksDB.&lt;/li&gt;
&lt;li&gt;&lt;b&gt;Нативные Sink’и и Source’ы:&lt;/b&gt; В нашем примере мы использовали встроенный `webhook` коннектор — не нужно писать отдельный сервис для приема данных! RisingWave нативно умеет работать с Kafka/Redpanda, Kinesis, Pulsar, а также писать данные напрямую в Iceberg, Delta Lake и другие системы.&lt;/li&gt;
&lt;li&gt;&lt;b&gt;Инкрементальные вычисления “под капотом”:&lt;/b&gt; Когда вы создаете материализованное представление, RisingWave строит план потоковой обработки. При поступлении новых данных он не пересчитывает все заново, а инкрементально обновляет результат. Это обеспечивает сверхнизкую задержку.&lt;/li&gt;
&lt;/ol&gt;
&lt;h3&gt;Глава 3: Практика: Строим наш Streaming Lakehouse шаг за шагом&lt;/h3&gt;
&lt;p&gt;Теперь перейдем к самому интересному — воссозданию нашего успешного проекта.&lt;/p&gt;
&lt;h4&gt;Этап 1: Архитектура и подготовка окружения (00:00 – 00:15)&lt;/h4&gt;
&lt;p&gt;Наша архитектура выглядит так:&lt;br /&gt;
`Webhook` → `RisingWave (Source → MView → Sink)` → `Lakekeeper (Catalog) + MinIO (Storage)` ← `Trino (Query)`&lt;/p&gt;
&lt;p&gt;Мы используем два `docker-compose` файла:&lt;/p&gt;
&lt;ol start="1"&gt;
&lt;li&gt;&lt;b&gt;Для Lakekeeper и его экосистемы&lt;/b&gt; (Postgres, MinIO, Trino): &lt;b&gt;lakekeeper/examples/minimal&lt;/b&gt; &lt;a href="https://github.com/lakekeeper/lakekeeper/tree/main/examples/minimal"&gt;https://github.com/lakekeeper/lakekeeper/tree/main/examples/minimal&lt;/a&gt; .&lt;/li&gt;
&lt;li&gt;&lt;b&gt;Для RisingWave и его окружения&lt;/b&gt;  Postgres для метаданных, MinIO для состояния, Grafana):      &lt;b&gt;risingwave/docker/docker-compose.yml&lt;/b&gt; &lt;a href="https://github.com/risingwavelabs/risingwave/blob/main/docker/docker-compose.yml"&gt;https://github.com/risingwavelabs/risingwave/blob/main/docker/docker-compose.yml&lt;/a&gt; .&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;&lt;b&gt;Ключевое действие:&lt;/b&gt; Мы запускаем оба стека, но для RisingWave вносим изменения, чтобы он мог взаимодействовать с Lakekeeper и Trino. Мы объединяем их в одну сеть, добавив в `docker-compose.yml` от RisingWave следующие строки:&lt;/p&gt;
&lt;pre class="e2-text-code"&gt;&lt;code class=""&gt;# risingwave/docker/docker-compose.yml

services:
  risingwave-standalone:
    # ...
    # Открываем порт для вебхука, по умолчанию он не открыт наружу
           .....
        --webhook-listen-addr 0.0.0.0:4567 \ 
           .....
    ports:
      - &amp;quot;4566:4566&amp;quot;. 
      # ... другие порты
      - &amp;quot;4567:4567&amp;quot;   # &amp;lt;--- Это важно для рабочего webhook 
    networks:
      - trino_network
# ... и для других сервисов, которые должны общаться с внешним стеком ...

networks:
  trino_network:
    name: minimal_iceberg_net # Имя сети из docker-compose Lakekeeper
    external: true&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;&lt;b&gt;Важный момент:&lt;/b&gt; По умолчанию RisingWave не выставляет порт `4567` для вебхуков наружу. Мы добавили его в секцию `ports`, чтобы иметь возможность отправлять `curl` запросы с хост-машины.&lt;/p&gt;
&lt;h4&gt;Этап 2: Настройка каталогов (00:15 – 00:25)&lt;/h4&gt;
&lt;p&gt;“Озеро” без каталога — это просто “болото”. Lakekeeper будет нашим каталогом, а Trino — первым, кто научится им пользоваться.&lt;/p&gt;
&lt;ol start="1"&gt;
&lt;li&gt;&lt;b&gt;Создаем динамический каталог в Trino:&lt;/b&gt;&lt;/li&gt;
&lt;/ol&gt;
&lt;pre class="e2-text-code"&gt;&lt;code class=""&gt;CREATE CATALOG risingwave USING iceberg
    WITH (
        &amp;quot;iceberg.catalog.type&amp;quot; = 'rest',
        &amp;quot;iceberg.rest-catalog.uri&amp;quot; = 'http://lakekeeper:8181/catalog',
        &amp;quot;iceberg.rest-catalog.warehouse&amp;quot; = 'demo',
        &amp;quot;s3.region&amp;quot;= 'dummy',
        &amp;quot;s3.path-style-access&amp;quot; = 'true',
        &amp;quot;s3.endpoint&amp;quot; = 'http://minio:9000',
        &amp;quot;fs.native-s3.enabled&amp;quot; = 'true'
    );&lt;/code&gt;&lt;/pre&gt;&lt;ol start="2"&gt;
&lt;li&gt;&lt;b&gt;Создаем “пустую” таблицу в Trino:&lt;/b&gt; Этот шаг создает метаданные в Lakekeeper. RisingWave будет находить эту таблицу и наполнять ее данными.&lt;/li&gt;
&lt;/ol&gt;
&lt;pre class="e2-text-code"&gt;&lt;code class=""&gt;CREATE TABLE risingwave.trino_namespace.product_view_events (
       event_id varchar,
       user_id varchar,
       event_name varchar,
       product_id varchar,
       category varchar,
       price double,
       event_timestamp timestamp(6) with time zone,
       raw_data varchar
    );&lt;/code&gt;&lt;/pre&gt;&lt;h4&gt;Этап 3: Магия RisingWave (00:25 – 00:45) 🚀&lt;/h4&gt;
&lt;p&gt;Подключаемся к RisingWave через DBeaver (используя порт `4566` и стандартный драйвер PostgreSQL) и начинаем творить магию.&lt;/p&gt;
&lt;ol start="1"&gt;
&lt;li&gt;&lt;b&gt;Создаем источник-вебхук:&lt;/b&gt;&lt;/li&gt;
&lt;/ol&gt;
&lt;pre class="e2-text-code"&gt;&lt;code class=""&gt;CREATE TABLE wbhtable1 (
      data JSONB
    ) WITH (
      connector = 'webhook'
    ) VALIDATE AS secure_compare(
      headers-&amp;gt;&amp;gt;'authorization',
      'TEST_WEBHOOK'
    );&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;Эта команда создает эндпоинт, который принимает JSON и кладет его в таблицу `wbhtable1`. `VALIDATE AS` обеспечивает простую, но эффективную аутентификацию.&lt;/p&gt;
&lt;ol start="2"&gt;
&lt;li&gt;&lt;b&gt;Создаем материализованное представление:&lt;/b&gt;&lt;/li&gt;
&lt;/ol&gt;
&lt;pre class="e2-text-code"&gt;&lt;code class=""&gt;CREATE MATERIALIZED VIEW product_view_events AS
    SELECT
      (data-&amp;gt;&amp;gt;'event_id')::VARCHAR AS event_id,
      (data-&amp;gt;&amp;gt;'user_id')::VARCHAR AS user_id,
      (data-&amp;gt;&amp;gt;'event_name')::VARCHAR AS event_name,
      (data-&amp;gt;'properties'-&amp;gt;&amp;gt;'product_id')::VARCHAR AS product_id,
      (data-&amp;gt;'properties'-&amp;gt;&amp;gt;'category')::VARCHAR AS category,
      (data-&amp;gt;'properties'-&amp;gt;&amp;gt;'price')::DOUBLE PRECISION AS price,
      (data-&amp;gt;&amp;gt;'timestamp')::TIMESTAMP WITH TIME ZONE AS event_timestamp,
      data::VARCHAR AS raw_data
    FROM wbhtable1;&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;Это ядро нашей логики. Мы на лету парсим входящий `JSONB`, приводим типы и создаем структурированное представление `product_view_events`, которое обновляется автоматически.&lt;/p&gt;
&lt;ol start="3"&gt;
&lt;li&gt;&lt;b&gt;Создаем синк (Sink) в Iceberg:&lt;/b&gt;&lt;/li&gt;
&lt;/ol&gt;
&lt;pre class="e2-text-code"&gt;&lt;code class=""&gt;CREATE SINK rest_sink FROM product_view_events
    WITH (
        connector = 'iceberg',
        type = 'upsert',
        primary_key = 'event_id',
        catalog.type = 'rest',
        catalog.uri = 'http://lakekeeper:8181/catalog',
        warehouse.path = 'demo',
        database.name = 'trino_namespace',
        table.name = 'product_view_events',
        s3.endpoint = 'http://minio:9000',
        s3.path.style.access = 'true',
        s3.access.key = 'minio-root-user',
        s3.secret.key = 'minio-root-password',
        s3.region = 'dummy'
    );&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;&lt;b&gt;“Грабли”, которые мы собрали:&lt;/b&gt; На пути к этому финальному запросу мы столкнулись с несколькими ошибками, которые стоили нам времени. Вот они, чтобы вы не повторяли наших ошибок:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;`catalog.uri`: Должен указывать на полный путь к REST API каталогу, в случае Lakekeeper это `&lt;a href="http://lakekeeper:8181/catalog"&gt;http://lakekeeper:8181/catalog&lt;/a&gt;`.&lt;/li&gt;
&lt;li&gt;`warehouse.path`: Должен содержать &lt;b&gt;логическое имя&lt;/b&gt; хранилища (`demo`), а не его физический путь в S3.&lt;/li&gt;
&lt;li&gt;`s3.region`: &lt;b&gt;Критически важный параметр!&lt;/b&gt; S3-клиент внутри RisingWave требует его обязательного указания, даже для MinIO. Хотя само значение (`us-east-1` или любое другое) для MinIO не принципиально, его отсутствие приводит к ошибке `region is missing` и сбою записи данных.&lt;/li&gt;
&lt;/ul&gt;
&lt;h4&gt;Этап 4: Запуск и проверка (00:45 – 01:00)&lt;/h4&gt;
&lt;p&gt;Время накормить нашу систему данными! Запускаем в терминале скрипт для генерации и отправки 100 событий, а можно и тысячу. Этот скрипт полностью рабочий и готов к копированию:&lt;/p&gt;
&lt;pre class="e2-text-code"&gt;&lt;code class=""&gt;seq 1 100 | xargs -I {} -P 10 bash -c '
  EVENT_ID=$(uuidgen)
  USER_ID=&amp;quot;usr_$(uuidgen | head -c 8)&amp;quot;
  PRODUCT_ID=&amp;quot;prod_$(uuidgen | head -c 8)&amp;quot;
  TIMESTAMP=$(date -u +&amp;quot;%Y-%m-%dT%H:%M:%SZ&amp;quot;)

  curl -s -o /dev/null -X POST \
    http://localhost:4567/webhook/dev/public/wbhtable1 \
    -H &amp;quot;Content-Type: application/json&amp;quot; \
    -H &amp;quot;Authorization: TEST_WEBHOOK&amp;quot; \
    -d &amp;quot;{
          \&amp;quot;event_id\&amp;quot;: \&amp;quot;$EVENT_ID\&amp;quot;,
          \&amp;quot;user_id\&amp;quot;: \&amp;quot;$USER_ID\&amp;quot;,
          \&amp;quot;event_name\&amp;quot;: \&amp;quot;product_viewed\&amp;quot;,
          \&amp;quot;properties\&amp;quot;: {
            \&amp;quot;product_id\&amp;quot;: \&amp;quot;$PRODUCT_ID\&amp;quot;,
            \&amp;quot;category\&amp;quot;: \&amp;quot;electronics\&amp;quot;,
            \&amp;quot;price\&amp;quot;: 9199.99
          },
          \&amp;quot;timestamp\&amp;quot;: \&amp;quot;$TIMESTAMP\&amp;quot;
        }&amp;quot;
'&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;И вот он, момент истины. Идем в DBeaver, открываем подключение к Trino и выполняем:&lt;/p&gt;
&lt;pre class="e2-text-code"&gt;&lt;code class=""&gt;select * from risingwave.trino_namespace.product_view_events;&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;Результат перед вами:&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://gavrilov.info/pictures/Snimok-ekrana-2025-09-06-v-22.22.20.png.jpg" width="2560" height="643" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;Данные, только что сгенерированные и отправленные по HTTP, уже лежат в озере данных в формате Parquet и доступны для анализа. Ура!&lt;/p&gt;
&lt;h3&gt;Глава 4: Наблюдаемость: Смотрим на систему под нагрузкой&lt;/h3&gt;
&lt;p&gt;RisingWave поставляется с готовыми дашбордами для Grafana. Взглянем на них после нашей нагрузки.&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;div class="fotorama" data-width="986" data-ratio="2.293023255814"&gt;
&lt;img src="https://gavrilov.info/pictures/Snimok-ekrana-2025-09-06-v-22.18.25.png" width="986" height="430" alt="" /&gt;
&lt;img src="https://gavrilov.info/pictures/Snimok-ekrana-2025-09-06-v-22.20.50.png" width="986" height="454" alt="" /&gt;
&lt;img src="https://gavrilov.info/pictures/Snimok-ekrana-2025-09-06-v-22.20.44.png" width="976" height="454" alt="" /&gt;
&lt;img src="https://gavrilov.info/pictures/Snimok-ekrana-2025-09-06-v-22.20.35.png" width="974" height="452" alt="" /&gt;
&lt;img src="https://gavrilov.info/pictures/Snimok-ekrana-2025-09-06-v-22.20.17.png" width="980" height="446" alt="" /&gt;
&lt;img src="https://gavrilov.info/pictures/Snimok-ekrana-2025-09-06-v-22.19.57.png" width="978" height="446" alt="" /&gt;
&lt;img src="https://gavrilov.info/pictures/Snimok-ekrana-2025-09-06-v-22.19.06.png" width="978" height="450" alt="" /&gt;
&lt;img src="https://gavrilov.info/pictures/Snimok-ekrana-2025-09-06-v-22.18.58.png" width="974" height="456" alt="" /&gt;
&lt;img src="https://gavrilov.info/pictures/Snimok-ekrana-2025-09-06-v-22.18.53.png" width="978" height="448" alt="" /&gt;
&lt;img src="https://gavrilov.info/pictures/Snimok-ekrana-2025-09-06-v-22.20.54.png" width="980" height="462" alt="" /&gt;
&lt;/div&gt;
&lt;div class="e2-text-caption"&gt;Можно листать стрелками --&gt;&gt;&lt;/div&gt;
&lt;/div&gt;
&lt;ul&gt;
&lt;li&gt;&lt;b&gt;Пропускная способность (Throughput):&lt;/b&gt; Мы видим, как данные проходят через материализованное представление и записываются синком. Пики на графике соответствуют нашей нагрузке.&lt;/li&gt;
&lt;/ul&gt;
&lt;ul&gt;
&lt;li&gt;&lt;b&gt;Задержка барьеров (Barrier Latency):&lt;/b&gt; Это ключевой показатель здоровья потоковой системы. Он показывает время, необходимое для создания контрольной точки (чекпоинта). Значения в десятки миллисекунд говорят о том, что система абсолютно здорова и справляется с нагрузкой без задержек.&lt;/li&gt;
&lt;/ul&gt;
&lt;ul&gt;
&lt;li&gt;&lt;b&gt;Ресурсы (CPU/Memory):&lt;/b&gt; Графики показывают стабильное и предсказуемое потребление ресурсов.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Эти метрики доказывают, что система не просто работает, а работает стабильно и эффективно.&lt;/p&gt;
&lt;h3&gt;Заключение&lt;/h3&gt;
&lt;p&gt;Мы сделали это! Меньше чем за час мы развернули и настроили полноценный Streaming Lakehouse. Мы доказали, что современные инструменты, такие как RisingWave, могут кардинально упростить создание сложных систем обработки данных в реальном времени.&lt;/p&gt;
&lt;p&gt;Путь от ошибки `Table does not exist` до работающего пайплайна был непростым, но каждая решенная проблема углубляла мое понимание системы. Теперь есть не просто набор инструкций, а проверенный в бою рецепт, учитывающий все “подводные камни”.&lt;/p&gt;
&lt;p&gt;Путь к аналитике в реальном времени открыт. Хорошего стриминга и бурного потока с домом у озера, главное что бы избушку не смыло :)&lt;/p&gt;
&lt;p&gt;UPD: Проверил еще пару штук&lt;/p&gt;
&lt;p&gt;Создаем сурс из Кафки&lt;/p&gt;
&lt;pre class="e2-text-code"&gt;&lt;code class=""&gt;CREATE SOURCE kafka_src (
  action VARCHAR
) WITH (
  connector = 'kafka',
  topic = 'query_complete',
  properties.bootstrap.server = 'broker1:29092'
);&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;создаем синк в другую кафку&lt;/p&gt;
&lt;pre class="e2-text-code"&gt;&lt;code class=""&gt;CREATE SINK kafka_sink from kafka_src WITH (
  connector = 'kafka',
  topic = 'query_complete',
  properties.bootstrap.server = 'broker2:29092'
) FORMAT PLAIN ENCODE JSON&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;Еще вебхук&lt;/p&gt;
&lt;pre class="e2-text-code"&gt;&lt;code class=""&gt;CREATE TABLE wbhtable2 (
      data JSONB
    ) WITH (
      connector = 'webhook'
    ) VALIDATE AS secure_compare(
      headers-&amp;gt;&amp;gt;'authorization',
      'TEST_WEBHOOK'
    );&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;Делаем материализацию&lt;/p&gt;
&lt;pre class="e2-text-code"&gt;&lt;code class=""&gt;CREATE MATERIALIZED VIEW events AS
    SELECT
      (data-&amp;gt;&amp;gt;'action')::VARCHAR AS action
    FROM wbhtable2;&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;делаем синк из материализации в кафку&lt;/p&gt;
&lt;pre class="e2-text-code"&gt;&lt;code class=""&gt;CREATE SINK kafka_sink2 FROM events WITH (
  connector = 'kafka',
  topic = 'query_complete',
  properties.bootstrap.server = 'broker2:29092'
) FORMAT PLAIN ENCODE JSON (force_append_only='true');&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;Без материализации сообщения прилетают так: {“data”:“{\”action\“: \”55555\“}”}&lt;br /&gt;
А с материализацией: {“action”:“99999”}&lt;/p&gt;
&lt;p&gt;Пример запроса&lt;/p&gt;
&lt;pre class="e2-text-code"&gt;&lt;code class=""&gt;curl -s -o /dev/null -X POST \
    http://localhost:4567/webhook/dev/public/wbhtable2 \
    -H &amp;quot;Content-Type: application/json&amp;quot; \
    -H &amp;quot;Authorization: TEST_WEBHOOK&amp;quot; \
    -d &amp;quot;{\&amp;quot;action\&amp;quot;: \&amp;quot;11111\&amp;quot;}&amp;quot;&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;Еще про s3 подобные архитектуры: &lt;a href="https://gavrilov.info/all/bitva-novyh-arhitektur-sravnivaem-arc-gigapi-i-ducklake/"&gt;https://gavrilov.info/all/bitva-novyh-arhitektur-sravnivaem-arc-gigapi-i-ducklake/&lt;/a&gt;&lt;/p&gt;
&lt;h2&gt;&lt;b&gt;Ошибки в версии 2.4 – какая то пакость была, но поставил 2.6.1 и все заработало&lt;/b&gt;&lt;/h2&gt;
&lt;pre class="e2-text-code"&gt;&lt;code class=""&gt;-- 0. устанавливаем последнюю версию risingwave ( 2.6.1 )


-- 1 Создаем вебхук 

CREATE TABLE wbhtable5 (
      data JSONB
    ) WITH (
      connector = 'webhook'
    ) VALIDATE AS secure_compare(
      headers-&amp;gt;&amp;gt;'authorization',
      'TEST_WEBHOOK'
    );

-- 2 Создаем материализацию 

CREATE MATERIALIZED VIEW product_view_events5 AS
    SELECT
      (data-&amp;gt;&amp;gt;'event_id')::VARCHAR AS event_id,
      (data-&amp;gt;&amp;gt;'user_id')::VARCHAR AS user_id,
      (data-&amp;gt;&amp;gt;'event_name')::VARCHAR AS event_name,
      (data-&amp;gt;'properties'-&amp;gt;&amp;gt;'product_id')::VARCHAR AS product_id,
      (data-&amp;gt;'properties'-&amp;gt;&amp;gt;'category')::VARCHAR AS category,
      (data-&amp;gt;'properties'-&amp;gt;&amp;gt;'price')::DOUBLE PRECISION AS price,
      (data-&amp;gt;&amp;gt;'timestamp')::TIMESTAMP WITH TIME ZONE AS event_timestamp,
      data::VARCHAR AS raw_data
    FROM wbhtable5;

-- 3 создаем подключение к iceberg 

CREATE CONNECTION my_iceberg_conn5 WITH (
    type = 'iceberg',
    warehouse.path = 'risi',  -- s3://my-bucket/warehouse/
   -- database.name = 'risi_space',  оказалось не нужна 
    s3.region = 'dummy',
    s3.access.key = 'ЧЧЧ', -- Ваши ключи
    s3.secret.key = 'ЧЧЧ',   -- Ваши ключи
    catalog.type = 'rest',
    s3.endpoint = 'https://gateway.storjshare.io',
    s3.path.style.access = 'true',
    
    -- ИСПОЛЬЗУЕМ ИМЯ СЕРВИСА И ЕГО ВНУТРЕННИЙ ПОРТ!
    catalog.uri = 'http://lakekeeper:8181/catalog'
)

-- 4 Устанавливаем его по умолчанию 

SET iceberg_engine_connection = 'public.my_iceberg_conn5';


-- Создаем таблицу ( обязательно с ключами )

CREATE TABLE public.my_iceberg_table5 (
       event_id VARCHAR PRIMARY KEY,
       user_id varchar,
       event_name varchar,
       product_id varchar,
       category varchar,
       price double,
       event_timestamp Timestamptz,
       raw_data varchar
) ENGINE = iceberg;

 
-- 5 создаем синк 

CREATE SINK to_sales_events5 INTO my_iceberg_table5 AS
SELECT * FROM product_view_events5;

--- Тут можно curl запустить 

seq 1 10 | xargs -I {} -P 10 bash -c '
  EVENT_ID=$(uuidgen)
  USER_ID=&amp;quot;usr_$(uuidgen | head -c 8)&amp;quot;
  PRODUCT_ID=&amp;quot;prod_$(uuidgen | head -c 8)&amp;quot;
  TIMESTAMP=$(date -u +&amp;quot;%Y-%m-%dT%H:%M:%SZ&amp;quot;)

  curl -s -o /dev/null -X POST \
    http://localhost:4567/webhook/dev/public/wbhtable5 \
    -H &amp;quot;Content-Type: application/json&amp;quot; \
    -H &amp;quot;Authorization: TEST_WEBHOOK&amp;quot; \
    -d &amp;quot;{
          \&amp;quot;event_id\&amp;quot;: \&amp;quot;$EVENT_ID\&amp;quot;,
          \&amp;quot;user_id\&amp;quot;: \&amp;quot;$USER_ID\&amp;quot;,
          \&amp;quot;event_name\&amp;quot;: \&amp;quot;product_viewed\&amp;quot;,
          \&amp;quot;properties\&amp;quot;: {
            \&amp;quot;product_id\&amp;quot;: \&amp;quot;$PRODUCT_ID\&amp;quot;,
            \&amp;quot;category\&amp;quot;: \&amp;quot;electronics\&amp;quot;,
            \&amp;quot;price\&amp;quot;: 9199.99
          },
          \&amp;quot;timestamp\&amp;quot;: \&amp;quot;$TIMESTAMP\&amp;quot;
        }&amp;quot;
'


-- 6 проверяем 

SELECT * FROM product_view_events5;

-- 7 проверяем ( появляются не сразу ) 

select * from my_iceberg_table5&lt;/code&gt;&lt;/pre&gt;&lt;div class="e2-text-picture"&gt;
&lt;img src="https://gavrilov.info/pictures/Snimok-ekrana-2025-11-09-v-17.31.56.png" width="2218" height="530" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;И в keeper она есть&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://gavrilov.info/pictures/Snimok-ekrana-2025-11-09-v-17.33.31.png" width="1420" height="1166" alt="" /&gt;
&lt;/div&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://gavrilov.info/pictures/Snimok-ekrana-2025-11-09-v-17.34.29.png" width="2428" height="456" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;И на S3&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://gavrilov.info/pictures/Snimok-ekrana-2025-11-09-v-17.35.37.png" width="1874" height="126" alt="" /&gt;
&lt;/div&gt;
</description>
</item>


</channel>
</rss>