@book{prince2023understanding,
author = “Simon J.D. Prince”,
title = “Understanding Deep Learning”,
publisher = “The MIT Press”,
year = 2023,
url = “http://udlbook.com”
⚡️ Встречайте Kolors — диффузионная модель для генерации изображений с упором на фотореализм
Kolors — это большая диффузионная модель, опубликованная вчера командой Kuaishou Kolors.
Kolors была обучена на миллиардах пар “текст-изображение” и показывает отличные результаты в генерации сложных фотореалистичных изображений.
По результатам оценки 50 независимых экспертов, модель Kolors генерирует более реалистчиные и красивые изображения, чем Midjourney-v6, Stable Diffusion 3, DALL-E 3 и другие модели
На днях мы поделились информацией о том, что:
Специалисты нашего сообщества активно работают над новой версией OpenScaler на базе openEuler 24.03 LTS. Скоро анонсируем. Следите за новостями!
Обещание выполнено!
Представляем обновленную версию дистрибутива OpenScaler 24.03 LTS!
Ключевые нововведения:
🌟 Улучшенное ядро Linux 6
🌟 Интеллектуальное планирование и настройка с помощью алгоритмов ИИ
🌟 Расширенные возможности на различных платформах для повышения производительности и надежности приложений и многое другое.
📤 Установочные образы OpenScaler 24.03 LTS доступны для архитектур Arm и x86.
Хотите протестировать новую версию дистрибутива? OpenScaler 24.03 LTS уже доступен дня скачивания на официальном сайте сообщества в разделе “Загрузки”! https://openscaler.ru/downloads/
🌟 Lance — современный колоночный формат данных для ML-приложений, реализованный на Rust
— pip install pylance
Lance идеально подходит для создания поисковых систем и хранилищ данных, для масштабного обучения ML-моделей, для хранения таких данных как облака точек.
Поддерживает конвертацию из Parquet в 2 строки кода, при этом он быстрее Parquet в 100 раз.
Lance можно без проблем использовать с pandas, DuckDB, Polars, pyarrow и не только.
Три года назад мы открыли исходный код Quickwit, распределенного поискового движка для работы с большими объемами данных. Наша цель была амбициозной: создать новый тип полнотекстового поискового движка, который был бы в десять раз более экономичным, чем Elasticsearch, значительно проще в настройке и управлении, и способным масштабироваться до петабайт данных.
Хотя мы знали потенциал Quickwit, наши тесты обычно не превышали 100 ТБ данных и 1 ГБ/с скорости индексации. У нас не было реальных наборов данных и вычислительных ресурсов для тестирования Quickwit в масштабе нескольких петабайт.
Это изменилось шесть месяцев назад, когда два инженера из Binance, ведущей криптовалютной биржи, обнаружили Quickwit и начали экспериментировать с ним. В течение нескольких месяцев они достигли того, о чем мы только мечтали: они успешно перенесли несколько кластеров Elasticsearch объемом в петабайты на Quickwit, достигнув при этом следующих результатов:
Масштабирование индексации до 1,6 ПБ в день.
Операция поискового кластера, обрабатывающего 100 ПБ логов.
Экономия миллионов долларов ежегодно за счет сокращения затрат на вычисления на 80% и затрат на хранение в 20 раз (при том же периоде хранения).
Значительное увеличение возможностей хранения данных.
Упрощение управления и эксплуатации кластера благодаря хорошо спроектированной многокластерной установке.
В этом блоге я расскажу вам, как Binance построила сервис логов объемом в петабайты и преодолела вызовы масштабирования Quickwit до нескольких петабайт.
Вызов Binance
Как ведущая криптовалютная биржа, Binance обрабатывает огромное количество транзакций, каждая из которых генерирует логи, важные для безопасности, соответствия и оперативных аналитических данных. Это приводит к обработке примерно 21 миллиона строк логов в секунду, что эквивалентно 18,5 ГБ/с или 1,6 ПБ в день.
Для управления таким объемом Binance ранее полагалась на 20 кластеров Elasticsearch. Около 600 модулей Vector извлекали логи из различных тем Kafka и обрабатывали их перед отправкой в Elasticsearch.
Настройка Elasticsearch в Binance
Однако эта установка не удовлетворяла требованиям Binance в нескольких критических областях:
Операционная сложность: Управление многочисленными кластерами Elasticsearch становилось все более сложным и трудоемким.
Ограниченное хранение: Binance хранила большинство логов только несколько дней. Их целью было продлить этот срок до месяцев, что требовало хранения и управления 100 ПБ логов, что было чрезвычайно дорого и сложно с их настройкой Elasticsearch.
Ограниченная надежность: Кластеры Elasticsearch с высокой пропускной способностью были настроены без репликации для ограничения затрат на инфраструктуру, что компрометировало долговечность и доступность.
Команда знала, что им нужно радикальное изменение, чтобы удовлетворить растущие потребности в управлении, хранении и анализе логов.
Почему Quickwit был (почти) идеальным решением
Когда инженеры Binance обнаружили Quickwit, они быстро поняли, что он предлагает несколько ключевых преимуществ по сравнению с их текущей установкой:
Нативная интеграция с Kafka: Позволяет инжектировать логи непосредственно из Kafka с семантикой “ровно один раз”, что дает огромные операционные преимущества.
Встроенные преобразования VRL (Vector Remap Language): Поскольку Quickwit поддерживает VRL, нет необходимости в сотнях модулей Vector для обработки преобразований логов.
Объектное хранилище в качестве основного хранилища: Все проиндексированные данные остаются в объектном хранилище, устраняя необходимость в предоставлении и управлении хранилищем на стороне кластера.
Лучшее сжатие данных: Quickwit обычно достигает в 2 раза лучшего сжатия, чем Elasticsearch, что еще больше сокращает занимаемое место индексами.
Однако ни один пользователь не масштабировал Quickwit до нескольких петабайт, и любой инженер знает, что масштабирование системы в 10 или 100 раз может выявить неожиданные проблемы. Это не остановило их, и они были готовы принять вызов!
Поиск в 100 ПБ, вызов принят
Масштабирование индексации на 1,6 ПБ в день
Binance быстро масштабировала свою индексацию благодаря источнику данных Kafka. Через месяц после начала пилотного проекта Quickwit они индексировали на нескольких ГБ/с.
Этот быстрый прогресс был в значительной степени обусловлен тем, как Quickwit работает с Kafka: Quickwit использует группы потребителей Kafka для распределения нагрузки между несколькими модулями. Каждый модуль индексирует подмножество партиций Kafka и обновляет метахранилище с последними смещениями, обеспечивая семантику “ровно один раз”. Эта установка делает индексаторы Quickwit безсостоятельными: вы можете полностью разобрать свой кластер и перезапустить его, и индексаторы возобновят работу с того места, где они остановились, как будто ничего не произошло.
Однако масштаб Binance выявил две основные проблемы:
Проблемы со стабильностью кластера: Несколько месяцев назад протокол переговоров Quickwit (называемый Chitchat) с трудом справлялся с сотнями модулей: некоторые индексаторы покидали кластер и возвращались, делая пропускную способность индексации нестабильной.
Неоднородное распределение нагрузки: Binance использует несколько индексов Quickwit для своих логов, с различной пропускной способностью индексации. Некоторые имеют высокую пропускную способность в несколько ГБ/с, другие – всего несколько МБ/с. Алгоритм размещения Quickwit не распределяет нагрузку равномерно. Это известная проблема, и мы будем работать над этим позже в этом году.
Чтобы обойти эти ограничения, Binance развернула отдельные кластеры индексации для каждой темы с высокой пропускной способностью, сохраняя один кластер для меньших тем. Изоляция каждого кластера с высокой пропускной способностью не накладывала операционного бремени благодаря безсостоятельным индексаторам. Кроме того, все модули Vector были удалены, так как Binance использовала преобразование Vector непосредственно в Quickwit.
Настройка Quickwit в Binance
После нескольких месяцев миграции и оптимизации Binance наконец достигла пропускной способности индексации в 1,6 ПБ с 10 кластерами индексации Quickwit, 700 модулями, запрашивающими около 4000 vCPU и 6 ТБ памяти, что в среднем составляет 6,6 МБ/с на vCPU. На заданной теме Kafka с высокой пропускной способностью этот показатель увеличивается до 11 МБ/с на vCPU.
Следующий вызов: масштабирование поиска!
Один поисковый кластер для 100 ПБ логов
С Quickwit, способным эффективно индексировать 1,6 ПБ ежедневно, вызов сместился к поиску по петабайтам логов. С 10 кластерами Binance обычно потребовалось бы развернуть модули поиска для каждого кластера, что подрывало одно из преимуществ Quickwit: объединение ресурсов поиска для доступа к общему объектному хранилищу всех индексов.
Чтобы избежать этой ловушки, инженеры Binance придумали умный обходной путь: они создали унифицированное метахранилище, реплицируя все метаданные из метахранилища каждого кластера индексации в одну базу данных PostgreSQL. Это унифицированное метахранилище позволяет развернуть один единственный централизованный поисковый кластер, способный искать по всем индексам!
Многокластерная установка Quickwit
На данный момент Binance управляет разумно размером кластером из 30 модулей поиска, каждый из которых запрашивает 40 vCPU и 100 ГБ памяти. Чтобы дать вам представление, вам нужно всего 5 поисковиков (8 vCPU, 6 ГБ запросов памяти) для нахождения иголки в стоге сена в 400 ТБ логов. Binance выполняет такие запросы на петабайтах, а также запросы агрегации, отсюда и более высокие запросы ресурсов.
Заключение
В целом, миграция Binance на Quickwit была огромным успехом и принесла несколько существенных преимуществ:
Сокращение вычислительных ресурсов на 80% по сравнению с Elasticsearch.
Затраты на хранение сократились в 20 раз при том же периоде хранения.
Экономически жизнеспособное решение для управления большими объемами логов, как с точки зрения затрат на инфраструктуру, так и эксплуатации.
Минимальная настройка конфигурации, эффективно работающая после определения правильного количества модулей и ресурсов.
Увеличение хранения логов до одного или нескольких месяцев в зависимости от типа лога, улучшение возможностей внутренней диагностики.
В заключение, миграция Binance с Elasticsearch на Quickwit была захватывающим шестимесячным опытом между инженерами Binance и Quickwit, и мы очень гордимся этим сотрудничеством. Мы уже запланировали улучшения в сжатии данных, поддержке многокластерных систем и лучшем распределении нагрузки с источниками данных Kafka.
Большое спасибо инженерам Binance за их работу и идеи в ходе этой миграции <3
Суперкомпьютер на кристалле вступает в строй: одна PCIe-карта содержит более 6000 ядер RISC-V с возможностью масштабирования до более чем 360 000 ядер, но стартап до сих пор не раскрывает информацию о ценах.
InspireSemi объявила об успешном завершении дизайна и передаче в производство компании TSMC ускорителя вычислений Thunderbird I. Этот высокодифференцированный “суперкомпьютерный кластер на кристалле” оснащен 1536 пользовательскими 64-битными ядрами RISC-V CPU, специально разработанными для высокоуровневых научных вычислений и обработки сложных данных.
Thunderbird I предназначен для широкого спектра вычислительно-емких приложений, от искусственного интеллекта и машинного обучения до графовой аналитики. Используя открытый стандарт RISC-V CPU ISA, он позволяет упростить разработку и интеграцию в существующие технологические фреймворки, предоставляя доступ к надежной экосистеме программного обеспечения, библиотек и инструментов.
Планируется выпуск PCIe-карты. Архитектура чипа включает высокоскоростную mesh-сеть, которая обеспечивает значительную пропускную способность и минимальную задержку при коммуникации между ядрами, что важно для приложений, полагающихся на синхронизированные операции в нескольких потоках. Эта эффективная сетевая интеграция управляет взаимодействиями внутри массива ядер чипа и систем памяти, обеспечивая оптимальную производительность без распространенных узких мест. Предстоящий выпуск продукта будет включать серверную PCIe-карту, на которой размещены четыре чипа Thunderbird, предоставляя более 6000 взаимосвязанных 64-битных ядер CPU. Эта конфигурация оснащена для обработки двойной точности, необходимой для многих высокопроизводительных вычислительных приложений в таких областях, как климатология, медицинские исследования и сложные симуляции. Рон Ван Делл, генеральный директор InspireSemi, сказал: «Мы гордимся достижением нашей инженерной и операционной команды в завершении дизайна Thunderbird I и отправке его нашим партнерам по производству мирового класса, TSMC, ASE и imec, для производства. Мы ожидаем начать поставки клиентам в четвертом квартале».
Однако пока нет информации о цене. InspireSemi также подчеркивает энергоэффективность Thunderbird I, что перенято из его первоначальной разработки для энергочувствительных блокчейн-приложений. Компания заявляет, что этот подход предлагает более экологичную альтернативу традиционным GPU для дата-центров.
Фестиваль искусств “Традиции и Современность” который пройдет в Гостином дворе с 21 по 23 июля и объединит 10 направлений в одном культурном выставочном пространстве:
живопись,
графика,
скульптура,
фотография,
инсталляция,
прикладное искусство,
маска,
кукла,
цифровое искусство
музейное дело
Особенностью фестиваля этого года будет участие делегаций из стран БРИКС. Как ожидается, в Москву приедут художники и галеристы из более чем 30 стран мира, в том числе Китая, ОАЭ, Ирана, Индии, Эквадора, Чили, Турции, ЮАР, Кипра.
Студия Sxema на фестивале представит работы талантливых цифровых художников из нашего комьюнити, которые ломают границы привычного и создают уникальные произведения искусства с помощью новейших технологий.
Помимо этого, на нашем стенде вы также сможете приобрести так же физические работы таких художников как: Akopto, Damn True, Heavensssblade и Динары Гараевой.
Следите за анонсами в социальных сетях фестиваля и увидимся на выставке!
Мне было всего 4 года, когда я увидел, как моя мама впервые в жизни загружает стиральную машину. Для нее это был великий день. Они с отцом копили деньги годами, чтобы позволить себе такую машину. Мы даже пригласили бабушку посмотреть на машину в первый день стирки. И бабушка была в еще большем восторге. Всю свою жизнь она грела воду на костре и стирала вручную за семью детьми. А теперь ей предстояло увидеть, как электричество справится с этой работой.
Моя мама аккуратно открыла дверцу и загрузила грязные вещи в машину. Затем, когда она закрыла дверь, бабушка сказала: «Нет, нет, нет, нет. Дай мне, дай мне нажать на кнопку». И бабушка нажала на кнопку, и сказала: «Ну и ну! Я хочу это видеть. Дай мне стул. Дай мне стул. Я хочу на это посмотреть». И она сидела перед машиной и наблюдала за ней, пока та не остановилась. Она была загипнотизирована. Для моей бабушки стиральная машинка была чудом.
Сегодня в Швеции и других богатых странах люди пользуются множеством разных машин. Посмотрите: дома забиты техникой. Я даже не знаю, как это все называется. Более того, отправляясь в путешествие, люди используют летающие машины, которые доставляют их в самые дальние точки Земли. И тем не менее, в мире так много людей, которые до сих пор греют воду и готовят пищу на огне. Иногда им даже не хватает еды, и они живут за чертой бедности. 2 миллиарда людей живут меньше, чем на $2 в день. А богатейшие люди вот здесь — миллиард человек — они живут выше того, что я называю “авиалинией”, потому что они тратят больше $80 в день на потребление.
Но это только один, два, три миллиарда человек, а в мире их, очевидно, семь миллиардов, то есть должны быть еще один, два, три, четыре миллиарда, живущие между чертой бедности и авиалинией. У них есть электричество, но у многих ли из них есть стиральные машины? Я тщательно исследовал рыночные данные и обнаружил, что, на самом деле, стиральная машина проникла ниже авиалинии, и сегодня еще одна есть у миллиарда людей, живущих выше стиральной линии. И они потребляют больше $40 в день. У двух миллиардов есть доступ к стиральным машинам.
А оставшиеся 5 миллиардов, как стирают они? Или, если точнее, как стирают большинство женщин в мире? Потому что стирать женщинам по-прежнему тяжело. Они стирают руками. Это тяжелый, отнимающий много времени труд, которым они обязаны заниматься часами каждую неделю. А иногда, чтобы постирать дома, им приходится таскать воду издалека. Или они должны относить грязную одежду далеко к реке. И они хотят стиральную машину. Они не хотят тратить столько времени своей жизни на этот тяжелый труд с такой относительно низкой продуктивностью. И желание их ничем не отличается от желания, которое было у моей бабушки. Посмотрите, два поколения назад в Швеции воду брали из реки, нагревали на костре и так стирали. Наши современницы точно так же хотят иметь стиральную машину.
Но мои заботящиеся об экологии студенты говорят: «Нет, не у каждого человека в мире может быть автомобиль и стиральная машина». Как мы можем сказать этой женщине, что у нее не будет стиральной машины? И затем я спрашиваю студентов, последние два года я все время задаю им вопрос: «Кто из вас не ездит на машине?» И несколько студентов гордо поднимают руки и говорят: «Я не пользуюсь автомобилем». А затем я задаю действительно сложный вопрос: «А многие ли из вас вручную стирают свои джинсы и простыни?» И ни одна рука не поднялась. Даже фанаты экологического движения используют стиральные машины.
Как же получилось, что все пользуются стиральной машиной и верят, что так будет всегда? Что в этом особенного? Я должен был сделать анализ используемой в мире энергии. Вот он. Посмотрите сюда, вы увидите здесь 7 миллиардов человек: «люди авиалинии», «стиральные люди», «люди лампочек» и «люди огня». Одно такое деление — энергетическая единица ископаемого топлива — нефти, угля или газа. В них заключена большая часть электричества и энергии в мире. И всего мир использует 12 единиц, миллиард богатейших использует 6 из них. Половина энергии используется седьмой частью населения Земли. И это те, у кого есть стиральные машины, но дом не напичкан другой техникой, они используют две единицы. Эта группа использует три единицы энергии, по одной на миллион человек. У них тоже есть электричество. И там в конце они не используют даже одной единицы. Получается всего 12.
Но главный предмет беспокойства озабоченных экологическими проблемами студентов — и они правы — это будущее. Куда мы идем? Если просто продлить существующие тенденции, безо всякого реального анализа, до 2050 года, мы увидим два фактора, увеличивающие расход энергии. Во-первых, рост населения. Во-вторых, экономический рост. Рост населения будет происходить среди беднейших людей, потому что у них высокая детская смертность и рождаемость. Из-за этого прибавится еще 2 миллиарда, но это не изменит значительно уровень потребляемой энергии.
А случится вот что — экономический рост. Лучшие из развивающихся экономик — я называю их Новым Востоком — перепрыгнут через воздушную черту. «Оооп!» скажут они. И они начнут потреблять столько же, сколько Старый Запад потребляет сейчас. И эти люди хотят стиральную машину. Я говорил вам. Они придут туда. И они удвоят потребление энергии. Мы надеемся, что электричество станет доступно беднякам. И у них в семьях будет по двое детей, при этом рост населения не прекратится. Но общее потребление энергии увеличится до 22 единиц. И из этих 22 единиц большую часть по-прежнему используют богатейшие люди. Что же нужно сделать? Ведь риск, высокая вероятность изменения климата, реален. Он на самом деле есть. Конечно, они должны быть более энергоэффективными. Они должны каким-то образом изменить поведение. Они также должны начать производить «зеленую энергию», гораздо больше «зеленой энергии». Но до тех пор, пока они тратят столько энергии на человека, им не стоит давать советы остальным, что делать и чего не делать. Здесь мы повсюду можем получить «зеленую энергию».
Вот что, мы надеемся, произойдет. Предстоит реальное испытание в будущем. Но я могу заверить вас, что та женщина в фавеле в Рио хочет стиральную машину. Она очень довольна своим министром энергетики, которая предоставила всем доступ к электричеству — настолько довольна, что она даже проголосовала за нее. И она стала Дилмой Руссеф, избранным президентом одного из самых больших демократических государств в мире — пройдя путь от министра энергетики до президента. Если вы живете при демократии, люди проголосуют за стиральные машины. Они любят их.
Что в них такого волшебного? Моя мама объяснила магию этой машины в самый первый день. Она сказала: «Теперь, Ханс, мы загрузили стирку в машину; машина сделает всю работу. А мы пойдем в библиотеку». Вот в чем волшебство: вы загружаете машину, и что вы получаете из машины? Вы получаете из машины книги, детские книги. И у мамы появилось время читать мне вслух. Ей это нравилось. Я получил начальные знания. Моя карьера профессора началась тогда, когда у моей мамы появилось время читать мне вслух. Она брала книги и для себя. Она сумела выучить английский и выучить его как иностранный язык. И она прочитала множество романов, здесь так много разных романов. И мы очень, очень любим эту машину.
И что мы говорили, мы с моей мамой: «Спасибо тебе, индустриализация. Спасибо, сталелитейный завод. Спасибо, электростанция. И спасибо, заводы по химической переработке, которые подарили нам время читать книги».
Об авторе
Ханс Рослинг (1948-2017) был шведским врачом, академиком и статистиком. Он был профессором международного здравоохранения в Институте Каролинска в Швеции и соучредителем фонда Gapminder. Рослинг получил мировую известность благодаря своим презентациям, которые использовали данные и статистику для объяснения глобальных изменений в здоровье, демографии и экономике. Его книга “Factfulness: Ten Reasons We’re Wrong About the World – and Why Things Are Better Than You Think” (в соавторстве с Анной Рослинг Ронлунд и Ола Рослинг) стала бестселлером и получила высокую оценку за оптимистичный взгляд на мировой прогресс.
Компания Bitwise, управляющая криптовалютными фондами, предлагает всем желающим создать NFT на основе рекламного ролика Ethereum-ETF. В ролике, который будет транслироваться по американскому телевидению с 20 июня, подчёркиваются преимущества сервисов Ethereum по сравнению с традиционными финансовыми услугами. Суть ролика заключается в следующем: «В отличие от крупных финансовых компаний, Ethereum не закрывается в 16:00».
В честь выхода рекламы сотрудники Bitwise создали NFT под названием Big Finance Sleeps («Крупные финансовые компании спят») на основе видеоролика об Ethereum. Эти NFT можно выпускать в сети второго уровня блокчейна ETH Zora Network через портал Zora. Пользователи уже создали 1455 токенов, заплатив за это 1,28 ETH (примерно $4570), то есть стоимость создания одного токена составляет около $3,14. Половина вырученных средств будет переведена коллективу Protocol Guild, поддерживающему разработчиков Ethereum, а другая половина — актёрам, участвовавшим в рекламе.
Bitwise удалось привлечь $2,5 млн перед выпуском Ethereum-ETF, одобренного Комиссией по ценным бумагам и биржам США 23 мая. Однако листинг этого дериватива на фондовой бирже пока не одобрен, поэтому его долями ещё не торгуют.
Три основные различия криптовалют и традиционных финансов:
Время работы: Криптовалюты, такие как Ethereum, работают круглосуточно, в то время как традиционные финансовые институты имеют ограниченные часы работы.
Децентрализация: Криптовалюты часто не имеют центрального управления и основаны на блокчейн-технологии, тогда как традиционные финансы контролируются централизованными учреждениями.
Создание активов: Создание криптовалютных активов (например, NFT) может быть децентрализованным и происходить в любых условиях, тогда как выпуск традиционных финансовых инструментов регулируется и контролируется официальными органами.