Databricks откроет исходные коды Unity Catalog
12 июня 2024 года
Databricks откроет исходные коды Unity Catalog
Алекс Вуди
Оригинал: https://www.datanami.com/2024/06/12/databricks-to-open-source-unity-catalog/
На сегодняшнем саммите Data + AI Summit компания Databricks объявила, что открывает исходные коды Unity Catalog, каталога метаданных, который управляет доступом пользователей и вычислительных систем к данным. Это решение последовало за новостями прошлой недели о проекте Apache Iceberg и знаменует важный поворот для Databricks, стремящейся поддерживать темпы развития на фоне растущего спроса клиентов на открытые lakehouse-платформы.
Databricks представила Unity Catalog в 2021 году как средство управления и обеспечения безопасности доступа к данным, хранящимся в Delta — табличном формате, созданном Databricks в 2017 году и являющемся краеугольным камнем стратегии lakehouse. До сих пор это оставался проприетарный продукт компании.
Однако в последние годы конкурирующий табличный формат Apache Iceberg набирает популярность в экосистеме big data. Databricks ответила на рост популярности Iceberg на прошлой неделе, объявив о планируемом приобретении компании Tabular, основанной создателем Iceberg. Стратегия Databricks заключается в том, чтобы постепенно сближать спецификации Iceberg и Delta, устраняя разницу между ними.
Таким образом, оставался последний барьер между клиентами и их мечтой о полностью открытом data lakehouse — это скромный каталог метаданных. Конкурент Databricks, компания Snowflake, на прошлой неделе решила проблему потенциальной зависимости от проприетарных каталогов метаданных, запустив Polaris, основанный на REST-API Iceberg. Snowflake сообщила Datanami, что планирует передать проект Polaris в open-source, вероятно, в Фонд Apache, в течение 90 дней.
Таким образом, Unity Catalog, оставаясь проприетарным, оказался в стороне в то время, как начинается новая эра открытых lakehouse решений. Чтобы адаптироваться к стратегическим изменениям на рынке, Databricks решила открыть исходные коды Unity Catalog.
Этот шаг создает «USB» для доступа к данным, заявил генеральный директор Databricks Али Годси во время вступительной речи на саммите Data + AI в Сан-Франциско.
«Все изолированные хранилища данных, которые у вас были ранее, могут получить доступ к одной копии данных в стандартизированном формате USB под вашим контролем», — сказал Годси. «Все проходит через единый слой управления, который стандартизирован, — это Unity Catalog — для всех ваших данных».
Ранее Unity Catalog поддерживал Delta и Iceberg, а также Apache Hudi, еще один открытый табличный формат, через Databricks’ Delta Lake UniForm формат. Более того, Unity Catalog также поддерживает REST-API Iceberg, отметил Годси.
«Мы стандартизировали слой данных и слой безопасности так, чтобы вы владели своими данными, а все проходило через эти открытые интерфейсы», — сказал он. «И я думаю, что это будет потрясающе для сообщества, для всех здесь. Потому что у нас появится множество новых сценариев использования. Мы сможем добиться большего уровня инноваций и расширим этот рынок для всех участников».
Генеральный директор Databricks Али Годси объявил об открытии исходного кода Unity Catalog на саммите Data + AI, 12 июня 2024 года.
Клиенты Databricks приветствовали этот шаг, включая AT&T и Nasdaq.
«С объявлением об открытии исходного кода Unity Catalog мы оптимистично воспринимаем шаг Databricks по обеспечению возможности управления lakehouse и метаданными через открытые стандарты», — сказал Мэтт Дуган, вице-президент AT&T по платформам данных. «Возможность использовать совместимые инструменты с нашими данными и активами ИИ при соблюдении единой политики управления является ключевым элементом стратегии AT&T в области данных».
«Решение Databricks открыть исходный код Unity Catalog предоставляет решение, которое помогает устранить изолированные хранилища данных. Мы с нетерпением ждем возможности дальнейшего масштабирования нашей платформы, улучшения управления и модернизации наших приложений для данных, продолжая предоставлять услуги нашим клиентам», — сказал Ленни Розенфельд, вице-президент Nasdaq по платформам доступа к капиталу.
Неясно, какой фонд открытого кода выберет Databricks для Unity Catalog OSS, и какой будет временной график. Ранее Databricks выбрала The Linux Foundation для открытия исходных кодов различных продуктов, разработанных внутри компании, включая Delta и MLFlow.
Unity Catalog будет размещен на Github в четверг во время ключевого выступления технического директора Databricks Матея Захарии на саммите Data + AI, сообщили в компании.