Databricks открыли код Unity Catalog
Знали ли вы, что Databricks открыли код Unity Catalog? Если нет, вас можно понять. В конце концов, в ту же неделю, когда это было объявлено на Databricks Data + AI Summit, новостной цикл был заполнен новостями об их приобретении компании Tabular. Несмотря на то, что Tabular привлекло всеобщее внимание, оба этих решения взаимосвязаны. Это намекает на более фундаментальный сдвиг в направлении Databricks, который изменит как сферу open source, так и коммерческий ландшафт для данных и ИИ.
В следующих разделах мы объясним, почему Databricks открыли код Unity Catalog, что это будет значить для разработки вашей архитектуры данных, и предоставим информацию о планах Databricks в свете этого объявления.
Поговорим о Tabular
Прежде чем углубиться в ситуацию с Unity Catalog, нам нужно обсудить приобретение Tabular. Как это связано с Unity Catalog? Здесь важны три основные вещи:
- Борьба за право покупки Tabular
- Влияние на Apache Iceberg
- Будущее открытых lakehouse-хранилищ данных
Борьба за право покупки Tabular
Много можно сказать о процессе приобретения Tabular, но стоит сфокусироваться на участниках этого процесса. Databricks были не единственными, кто делал ставки на Tabular. На самом деле, учитывая, что Tabular была продана за более чем $1 миллиард, ясно, что интерес к компании был высок и хорошо финансирован. Особенно в конкуренции выделялась компания Snowflake, еще один лидер в области аналитики. В сочетании с уже серьезными техническими инвестициями в Iceberg со стороны Databricks и Snowflake и их анонсами на саммитах Unity Catalog и Polaris, мы наблюдаем серьезные изменения в пространстве lakehouse и open source. Это будет продолжать оказывать эффект домино. Где идут Databricks и Snowflake, туда пойдет и весь остальной рынок аналитики.
Какое будущее у Apache Iceberg?
Много спекуляций относительно влияния приобретения Tabular на будущее Iceberg. Да, Tabular — коммерческая разработка, а Iceberg — open source, и даже вклад Tabular в Iceberg не является самым значительным. Однако отрицать любое влияние на Iceberg со стороны приобретения Tabular было бы неверно. Технические вклады — это одно (и это важно), но успешные проекты также требуют сильного и поддерживаемого сообщества для поощрения постоянных инвестиций и сосредоточенности на разработке нужных функций. Именно благодаря поддержке и вовлеченности сообщества Tabular был явным лидером.
Теперь, под управлением Databricks, будущее менее определенно. Пока нет оснований считать, что Databricks не станет хорошим управляющим для усилий Tabular до приобретения, они покупали Tabular ради бизнес-решений, а не из альтруистических побуждений. Как только деятельность Tabular в отношении Iceberg перестанет быть необходимой, сложно предсказать, что сделает Databricks. Однако одно можно сказать точно: в отличие от Tabular, Databricks не имеет неразрывной связи с Apache Iceberg.
Хорошие новости для открытых вычислений
Однако, это не все пессимистично и неопределенно. Тот факт, что Databricks владеет Tabular, действительно запутывает фокус Tabular на Iceberg, но это также означает, что у Databricks есть еще больший интерес в поддержке Iceberg и открытой экосистемы lakehouse, проект которой они помогают развивать. Если что-то и изменится, то теперь у команды Tabular будет больше ресурсов для укрепления Iceberg в будущем. Это еще больше повысит жизнеспособность концепции открытого lakehouse.
Каждый из этих моментов важен, но вместе они показывают, что между гигантами рынка аналитики разворачивается конкуренция, связанные с возможностями роста в пространстве lakehouse. То, насколько эти события переплетены с open source, добавляет интриги. Это особенно явно в недавних объявлениях о переходе к открытым исходным кодам Unity Catalog и Polaris.
Matei Zaharia, CTO Databricks, объявляет о версии Unity Catalog с открытым исходным кодом на Databricks Data + AI Summit 2024
Конкурирующие объявления: Unity Catalog против Polaris
Вот интересный факт: конференции Snowflake Summit и Databricks Data + AI Summit часто пересекаются, и в этом году Databricks заранее решили провести свою конференцию в другое время, чтобы избежать деления внимания СМИ и рынка. Это имеет смысл. Эти конференции предназначены для большого количества анонсов, сосредоточенных на максимально возможном освещении новостей, которые важны для этих компаний.
Обе компании сделали значимые объявления, сигнализируя о будущем открытых lakehouse-хранилищ данных: Unity Catalog стал open source, и Snowflake сделала то же самое с Polaris. Если связать это с борьбой за Tabular, которая завершилась в течение двух недель обеих конференций, то можно увидеть некоторое соответствие в стратегических видениях обеих компаний.
Причем речь идет не только о продолжающемся росте принятия концепции lakehouse, но и о том, что более открытый подход вызывает интерес. Настолько, что два крупнейших игрока в аналитике данных серьезно инвестируют и делают пожертвования проектам на основе open source.
Новая эра для открытых lakehouse-хранилищ
Что будет дальше с Databricks и Snowflake, еще предстоит увидеть, но немедленное воздействие на легитимность и ресурсы, вкладываемые в концепцию открытого lakehouse, нельзя игнорировать. Это огромное благо для сообщества lakehouse. Databricks и Snowflake оказывают значительное влияние на инвестиции почти каждой другой компании в области аналитики. Куда идут они, туда последуют и другие, и пользователи open lakehouse получат возможность воспользоваться преимуществами. Больше инструментов, больше выбора и поддержка сделают концепцию open lakehouse более доступной и источником новых проектов. Ожидайте больше положительных изменений в этой области в ближайшие недели, месяцы и годы.
Почему Databricks сделал Unity Catalog open source
Собирая вышеперечисленные пункты, становится проще понять, почему Databricks решили открыть исходный код и передать Unity Catalog:
- Сигнализация правильного времени для инвестиций в lakehouse: Databricks и Snowflake фактически сигнализируют, что пришло время для lakehouse. Увеличенные инвестиции от этих гигантов подчеркивают ценность архитектуры lakehouse, предоставляющей пользователям выбор без привязки к поставщику. Форматы файлов и таблиц с открытым исходным кодом уже стали стандартом, и каталоги данных оставались последним фронтом, где пользователи могли столкнуться с ограничениями. Открывая исходный код Unity Catalog, Databricks делают важный шаг к устранению этой проблемы.
- Зрелость пространства lakehouse: Переход к открытому исходному коду Unity Catalog также показывает, что пространство lakehouse достигло уровня зрелости, который оправданно привлекает более крупные инвестиции. Эта зрелость касается не только технологии, но и экосистемы разработчиков, инструментов и пользователей, которые теперь могут вносить вклад и получать выгоду от инноваций с открытым исходным кодом.
Что дальше для Unity Catalog
Переход Unity Catalog на open source отмечает значительный этап, но это также вызывает вопрос: что будет дальше? Ответ лежит в расширении экосистемы решений, которые уже поддерживают видение Unity Catalog с открытым исходным кодом. Раннее принятие ведущими игроками свидетельствует о многообещающем будущем для архитектуры open lakehouse.
Архитектурные опции Unity Catalog
Многие заметные компании выразили поддержку Unity Catalog OSS, включая AWS, Nvidia, Confluent, LanceDB, StarRocks и многих других. Эти организации признают ценность открытой системы каталогов и готовы интегрироваться и инновационно развивать это основание.
Что делать с этой информацией?
Это призыв к действию для всех инженеров, находящихся на обочине, и тех, кто только начинает пробовать себя в lakehouse, чтобы серьезно отнестись к этому мощному подходу к своей архитектуре данных. Никогда не было лучшего времени, чтобы перейти к открытым решениям.
С чего начать? Начните свое расследование с движков запросов для lakehouse. От Apache Iceberg до Unity Catalog большинство производительности зависит от выбора правильного движка. Для этого вам следует обратить внимание на StarRocks и присоединиться к Slack StarRocks, чтобы получить все советы от сообщества, которые помогут вам ориентироваться в этой новой эре для открытых lakehouse.
Перевод: https://medium.com/starrocks-engineering/why-did-databricks-open-source-unity-catalog-b228bd9be367