Welcome to my personal place for love, peace and happiness❣️

Later Ctrl + ↑

Как Binance строил 100PB сервис для обработки логов на Quickwit

Оригинал: https://quickwit.io/blog/quickwit-binance-story

Три года назад мы открыли исходный код Quickwit, распределенного поискового движка для работы с большими объемами данных. Наша цель была амбициозной: создать новый тип полнотекстового поискового движка, который был бы в десять раз более экономичным, чем Elasticsearch, значительно проще в настройке и управлении, и способным масштабироваться до петабайт данных.

Хотя мы знали потенциал Quickwit, наши тесты обычно не превышали 100 ТБ данных и 1 ГБ/с скорости индексации. У нас не было реальных наборов данных и вычислительных ресурсов для тестирования Quickwit в масштабе нескольких петабайт.

Это изменилось шесть месяцев назад, когда два инженера из Binance, ведущей криптовалютной биржи, обнаружили Quickwit и начали экспериментировать с ним. В течение нескольких месяцев они достигли того, о чем мы только мечтали: они успешно перенесли несколько кластеров Elasticsearch объемом в петабайты на Quickwit, достигнув при этом следующих результатов:

  • Масштабирование индексации до 1,6 ПБ в день.
  • Операция поискового кластера, обрабатывающего 100 ПБ логов.
  • Экономия миллионов долларов ежегодно за счет сокращения затрат на вычисления на 80% и затрат на хранение в 20 раз (при том же периоде хранения).
  • Значительное увеличение возможностей хранения данных.
  • Упрощение управления и эксплуатации кластера благодаря хорошо спроектированной многокластерной установке.

В этом блоге я расскажу вам, как Binance построила сервис логов объемом в петабайты и преодолела вызовы масштабирования Quickwit до нескольких петабайт.

Вызов Binance

Как ведущая криптовалютная биржа, Binance обрабатывает огромное количество транзакций, каждая из которых генерирует логи, важные для безопасности, соответствия и оперативных аналитических данных. Это приводит к обработке примерно 21 миллиона строк логов в секунду, что эквивалентно 18,5 ГБ/с или 1,6 ПБ в день.

Для управления таким объемом Binance ранее полагалась на 20 кластеров Elasticsearch. Около 600 модулей Vector извлекали логи из различных тем Kafka и обрабатывали их перед отправкой в Elasticsearch.

Настройка Elasticsearch в Binance

Однако эта установка не удовлетворяла требованиям Binance в нескольких критических областях:

  • Операционная сложность: Управление многочисленными кластерами Elasticsearch становилось все более сложным и трудоемким.
  • Ограниченное хранение: Binance хранила большинство логов только несколько дней. Их целью было продлить этот срок до месяцев, что требовало хранения и управления 100 ПБ логов, что было чрезвычайно дорого и сложно с их настройкой Elasticsearch.
  • Ограниченная надежность: Кластеры Elasticsearch с высокой пропускной способностью были настроены без репликации для ограничения затрат на инфраструктуру, что компрометировало долговечность и доступность.

Команда знала, что им нужно радикальное изменение, чтобы удовлетворить растущие потребности в управлении, хранении и анализе логов.

Почему Quickwit был (почти) идеальным решением

Когда инженеры Binance обнаружили Quickwit, они быстро поняли, что он предлагает несколько ключевых преимуществ по сравнению с их текущей установкой:

  • Нативная интеграция с Kafka: Позволяет инжектировать логи непосредственно из Kafka с семантикой “ровно один раз”, что дает огромные операционные преимущества.
  • Встроенные преобразования VRL (Vector Remap Language): Поскольку Quickwit поддерживает VRL, нет необходимости в сотнях модулей Vector для обработки преобразований логов.
  • Объектное хранилище в качестве основного хранилища: Все проиндексированные данные остаются в объектном хранилище, устраняя необходимость в предоставлении и управлении хранилищем на стороне кластера.
  • Лучшее сжатие данных: Quickwit обычно достигает в 2 раза лучшего сжатия, чем Elasticsearch, что еще больше сокращает занимаемое место индексами.

Однако ни один пользователь не масштабировал Quickwit до нескольких петабайт, и любой инженер знает, что масштабирование системы в 10 или 100 раз может выявить неожиданные проблемы. Это не остановило их, и они были готовы принять вызов!

Поиск в 100 ПБ, вызов принят

Масштабирование индексации на 1,6 ПБ в день

Binance быстро масштабировала свою индексацию благодаря источнику данных Kafka. Через месяц после начала пилотного проекта Quickwit они индексировали на нескольких ГБ/с.

Этот быстрый прогресс был в значительной степени обусловлен тем, как Quickwit работает с Kafka: Quickwit использует группы потребителей Kafka для распределения нагрузки между несколькими модулями. Каждый модуль индексирует подмножество партиций Kafka и обновляет метахранилище с последними смещениями, обеспечивая семантику “ровно один раз”. Эта установка делает индексаторы Quickwit безсостоятельными: вы можете полностью разобрать свой кластер и перезапустить его, и индексаторы возобновят работу с того места, где они остановились, как будто ничего не произошло.

Однако масштаб Binance выявил две основные проблемы:

  • Проблемы со стабильностью кластера: Несколько месяцев назад протокол переговоров Quickwit (называемый Chitchat) с трудом справлялся с сотнями модулей: некоторые индексаторы покидали кластер и возвращались, делая пропускную способность индексации нестабильной.
  • Неоднородное распределение нагрузки: Binance использует несколько индексов Quickwit для своих логов, с различной пропускной способностью индексации. Некоторые имеют высокую пропускную способность в несколько ГБ/с, другие – всего несколько МБ/с. Алгоритм размещения Quickwit не распределяет нагрузку равномерно. Это известная проблема, и мы будем работать над этим позже в этом году.

Чтобы обойти эти ограничения, Binance развернула отдельные кластеры индексации для каждой темы с высокой пропускной способностью, сохраняя один кластер для меньших тем. Изоляция каждого кластера с высокой пропускной способностью не накладывала операционного бремени благодаря безсостоятельным индексаторам. Кроме того, все модули Vector были удалены, так как Binance использовала преобразование Vector непосредственно в Quickwit.

Настройка Quickwit в Binance

После нескольких месяцев миграции и оптимизации Binance наконец достигла пропускной способности индексации в 1,6 ПБ с 10 кластерами индексации Quickwit, 700 модулями, запрашивающими около 4000 vCPU и 6 ТБ памяти, что в среднем составляет 6,6 МБ/с на vCPU. На заданной теме Kafka с высокой пропускной способностью этот показатель увеличивается до 11 МБ/с на vCPU.

Следующий вызов: масштабирование поиска!

Один поисковый кластер для 100 ПБ логов

С Quickwit, способным эффективно индексировать 1,6 ПБ ежедневно, вызов сместился к поиску по петабайтам логов. С 10 кластерами Binance обычно потребовалось бы развернуть модули поиска для каждого кластера, что подрывало одно из преимуществ Quickwit: объединение ресурсов поиска для доступа к общему объектному хранилищу всех индексов.

Чтобы избежать этой ловушки, инженеры Binance придумали умный обходной путь: они создали унифицированное метахранилище, реплицируя все метаданные из метахранилища каждого кластера индексации в одну базу данных PostgreSQL. Это унифицированное метахранилище позволяет развернуть один единственный централизованный поисковый кластер, способный искать по всем индексам!

Многокластерная установка Quickwit

На данный момент Binance управляет разумно размером кластером из 30 модулей поиска, каждый из которых запрашивает 40 vCPU и 100 ГБ памяти. Чтобы дать вам представление, вам нужно всего 5 поисковиков (8 vCPU, 6 ГБ запросов памяти) для нахождения иголки в стоге сена в 400 ТБ логов. Binance выполняет такие запросы на петабайтах, а также запросы агрегации, отсюда и более высокие запросы ресурсов.

Заключение

В целом, миграция Binance на Quickwit была огромным успехом и принесла несколько существенных преимуществ:

  • Сокращение вычислительных ресурсов на 80% по сравнению с Elasticsearch.
  • Затраты на хранение сократились в 20 раз при том же периоде хранения.
  • Экономически жизнеспособное решение для управления большими объемами логов, как с точки зрения затрат на инфраструктуру, так и эксплуатации.
  • Минимальная настройка конфигурации, эффективно работающая после определения правильного количества модулей и ресурсов.
  • Увеличение хранения логов до одного или нескольких месяцев в зависимости от типа лога, улучшение возможностей внутренней диагностики.

В заключение, миграция Binance с Elasticsearch на Quickwit была захватывающим шестимесячным опытом между инженерами Binance и Quickwit, и мы очень гордимся этим сотрудничеством. Мы уже запланировали улучшения в сжатии данных, поддержке многокластерных систем и лучшем распределении нагрузки с источниками данных Kafka.

Большое спасибо инженерам Binance за их работу и идеи в ходе этой миграции <3

Суперкомпьютер на кристалле – 6000 ядер RISC-V

Как насчет 6000 процессоров на одной карте pcie?

Суперкомпьютер на кристалле вступает в строй: одна PCIe-карта содержит более 6000 ядер RISC-V с возможностью масштабирования до более чем 360 000 ядер, но стартап до сих пор не раскрывает информацию о ценах.

InspireSemi объявила об успешном завершении дизайна и передаче в производство компании TSMC ускорителя вычислений Thunderbird I. Этот высокодифференцированный “суперкомпьютерный кластер на кристалле” оснащен 1536 пользовательскими 64-битными ядрами RISC-V CPU, специально разработанными для высокоуровневых научных вычислений и обработки сложных данных.

Thunderbird I предназначен для широкого спектра вычислительно-емких приложений, от искусственного интеллекта и машинного обучения до графовой аналитики. Используя открытый стандарт RISC-V CPU ISA, он позволяет упростить разработку и интеграцию в существующие технологические фреймворки, предоставляя доступ к надежной экосистеме программного обеспечения, библиотек и инструментов.

Планируется выпуск PCIe-карты. Архитектура чипа включает высокоскоростную mesh-сеть, которая обеспечивает значительную пропускную способность и минимальную задержку при коммуникации между ядрами, что важно для приложений, полагающихся на синхронизированные операции в нескольких потоках. Эта эффективная сетевая интеграция управляет взаимодействиями внутри массива ядер чипа и систем памяти, обеспечивая оптимальную производительность без распространенных узких мест. Предстоящий выпуск продукта будет включать серверную PCIe-карту, на которой размещены четыре чипа Thunderbird, предоставляя более 6000 взаимосвязанных 64-битных ядер CPU. Эта конфигурация оснащена для обработки двойной точности, необходимой для многих высокопроизводительных вычислительных приложений в таких областях, как климатология, медицинские исследования и сложные симуляции. Рон Ван Делл, генеральный директор InspireSemi, сказал: «Мы гордимся достижением нашей инженерной и операционной команды в завершении дизайна Thunderbird I и отправке его нашим партнерам по производству мирового класса, TSMC, ASE и imec, для производства. Мы ожидаем начать поставки клиентам в четвертом квартале».

Однако пока нет информации о цене. InspireSemi также подчеркивает энергоэффективность Thunderbird I, что перенято из его первоначальной разработки для энергочувствительных блокчейн-приложений. Компания заявляет, что этот подход предлагает более экологичную альтернативу традиционным GPU для дата-центров.

 No comments   5 mo   SoC

Традиции и Современность 2024

Сегодня тут ☝️

Фестиваль искусств “Традиции и Современность” который пройдет в Гостином дворе с 21 по 23 июля и объединит 10 направлений в одном культурном выставочном пространстве:

  • живопись,
  • графика,
  • скульптура,
  • фотография,
  • инсталляция,
  • прикладное искусство,
  • маска,
  • кукла,
  • цифровое искусство
  • музейное дело

Особенностью фестиваля этого года будет участие делегаций из стран БРИКС. Как ожидается, в Москву приедут художники и галеристы из более чем 30 стран мира, в том числе Китая, ОАЭ, Ирана, Индии, Эквадора, Чили, Турции, ЮАР, Кипра.

Студия Sxema на фестивале представит работы талантливых цифровых художников из нашего комьюнити, которые ломают границы привычного и создают уникальные произведения искусства с помощью новейших технологий.

Помимо этого, на нашем стенде вы также сможете приобрести так же физические работы таких художников как: Akopto, Damn True, Heavensssblade и Динары Гараевой.

Следите за анонсами в социальных сетях фестиваля и увидимся на выставке!

 No comments   6 mo   art

Стиральная машина как символ прогресса – Hans Rosling

Статья: https://ideanomics.ru/lectures/14612

---

Стиральная машина как символ прогресса

Мне было всего 4 года, когда я увидел, как моя мама впервые в жизни загружает стиральную машину. Для нее это был великий день. Они с отцом копили деньги годами, чтобы позволить себе такую машину. Мы даже пригласили бабушку посмотреть на машину в первый день стирки. И бабушка была в еще большем восторге. Всю свою жизнь она грела воду на костре и стирала вручную за семью детьми. А теперь ей предстояло увидеть, как электричество справится с этой работой.

Моя мама аккуратно открыла дверцу и загрузила грязные вещи в машину. Затем, когда она закрыла дверь, бабушка сказала: «Нет, нет, нет, нет. Дай мне, дай мне нажать на кнопку». И бабушка нажала на кнопку, и сказала: «Ну и ну! Я хочу это видеть. Дай мне стул. Дай мне стул. Я хочу на это посмотреть». И она сидела перед машиной и наблюдала за ней, пока та не остановилась. Она была загипнотизирована. Для моей бабушки стиральная машинка была чудом.

Сегодня в Швеции и других богатых странах люди пользуются множеством разных машин. Посмотрите: дома забиты техникой. Я даже не знаю, как это все называется. Более того, отправляясь в путешествие, люди используют летающие машины, которые доставляют их в самые дальние точки Земли. И тем не менее, в мире так много людей, которые до сих пор греют воду и готовят пищу на огне. Иногда им даже не хватает еды, и они живут за чертой бедности. 2 миллиарда людей живут меньше, чем на $2 в день. А богатейшие люди вот здесь — миллиард человек — они живут выше того, что я называю “авиалинией”, потому что они тратят больше $80 в день на потребление.

Но это только один, два, три миллиарда человек, а в мире их, очевидно, семь миллиардов, то есть должны быть еще один, два, три, четыре миллиарда, живущие между чертой бедности и авиалинией. У них есть электричество, но у многих ли из них есть стиральные машины? Я тщательно исследовал рыночные данные и обнаружил, что, на самом деле, стиральная машина проникла ниже авиалинии, и сегодня еще одна есть у миллиарда людей, живущих выше стиральной линии. И они потребляют больше $40 в день. У двух миллиардов есть доступ к стиральным машинам.

А оставшиеся 5 миллиардов, как стирают они? Или, если точнее, как стирают большинство женщин в мире? Потому что стирать женщинам по-прежнему тяжело. Они стирают руками. Это тяжелый, отнимающий много времени труд, которым они обязаны заниматься часами каждую неделю. А иногда, чтобы постирать дома, им приходится таскать воду издалека. Или они должны относить грязную одежду далеко к реке. И они хотят стиральную машину. Они не хотят тратить столько времени своей жизни на этот тяжелый труд с такой относительно низкой продуктивностью. И желание их ничем не отличается от желания, которое было у моей бабушки. Посмотрите, два поколения назад в Швеции воду брали из реки, нагревали на костре и так стирали. Наши современницы точно так же хотят иметь стиральную машину.

Но мои заботящиеся об экологии студенты говорят: «Нет, не у каждого человека в мире может быть автомобиль и стиральная машина». Как мы можем сказать этой женщине, что у нее не будет стиральной машины? И затем я спрашиваю студентов, последние два года я все время задаю им вопрос: «Кто из вас не ездит на машине?» И несколько студентов гордо поднимают руки и говорят: «Я не пользуюсь автомобилем». А затем я задаю действительно сложный вопрос: «А многие ли из вас вручную стирают свои джинсы и простыни?» И ни одна рука не поднялась. Даже фанаты экологического движения используют стиральные машины.

Как же получилось, что все пользуются стиральной машиной и верят, что так будет всегда? Что в этом особенного? Я должен был сделать анализ используемой в мире энергии. Вот он. Посмотрите сюда, вы увидите здесь 7 миллиардов человек: «люди авиалинии», «стиральные люди», «люди лампочек» и «люди огня». Одно такое деление — энергетическая единица ископаемого топлива — нефти, угля или газа. В них заключена большая часть электричества и энергии в мире. И всего мир использует 12 единиц, миллиард богатейших использует 6 из них. Половина энергии используется седьмой частью населения Земли. И это те, у кого есть стиральные машины, но дом не напичкан другой техникой, они используют две единицы. Эта группа использует три единицы энергии, по одной на миллион человек. У них тоже есть электричество. И там в конце они не используют даже одной единицы. Получается всего 12.

Но главный предмет беспокойства озабоченных экологическими проблемами студентов — и они правы — это будущее. Куда мы идем? Если просто продлить существующие тенденции, безо всякого реального анализа, до 2050 года, мы увидим два фактора, увеличивающие расход энергии. Во-первых, рост населения. Во-вторых, экономический рост. Рост населения будет происходить среди беднейших людей, потому что у них высокая детская смертность и рождаемость. Из-за этого прибавится еще 2 миллиарда, но это не изменит значительно уровень потребляемой энергии.

А случится вот что — экономический рост. Лучшие из развивающихся экономик — я называю их Новым Востоком — перепрыгнут через воздушную черту. «Оооп!» скажут они. И они начнут потреблять столько же, сколько Старый Запад потребляет сейчас. И эти люди хотят стиральную машину. Я говорил вам. Они придут туда. И они удвоят потребление энергии. Мы надеемся, что электричество станет доступно беднякам. И у них в семьях будет по двое детей, при этом рост населения не прекратится. Но общее потребление энергии увеличится до 22 единиц. И из этих 22 единиц большую часть по-прежнему используют богатейшие люди. Что же нужно сделать? Ведь риск, высокая вероятность изменения климата, реален. Он на самом деле есть. Конечно, они должны быть более энергоэффективными. Они должны каким-то образом изменить поведение. Они также должны начать производить «зеленую энергию», гораздо больше «зеленой энергии». Но до тех пор, пока они тратят столько энергии на человека, им не стоит давать советы остальным, что делать и чего не делать. Здесь мы повсюду можем получить «зеленую энергию».

Вот что, мы надеемся, произойдет. Предстоит реальное испытание в будущем. Но я могу заверить вас, что та женщина в фавеле в Рио хочет стиральную машину. Она очень довольна своим министром энергетики, которая предоставила всем доступ к электричеству — настолько довольна, что она даже проголосовала за нее. И она стала Дилмой Руссеф, избранным президентом одного из самых больших демократических государств в мире — пройдя путь от министра энергетики до президента. Если вы живете при демократии, люди проголосуют за стиральные машины. Они любят их.

Что в них такого волшебного? Моя мама объяснила магию этой машины в самый первый день. Она сказала: «Теперь, Ханс, мы загрузили стирку в машину; машина сделает всю работу. А мы пойдем в библиотеку». Вот в чем волшебство: вы загружаете машину, и что вы получаете из машины? Вы получаете из машины книги, детские книги. И у мамы появилось время читать мне вслух. Ей это нравилось. Я получил начальные знания. Моя карьера профессора началась тогда, когда у моей мамы появилось время читать мне вслух. Она брала книги и для себя. Она сумела выучить английский и выучить его как иностранный язык. И она прочитала множество романов, здесь так много разных романов. И мы очень, очень любим эту машину.

И что мы говорили, мы с моей мамой: «Спасибо тебе, индустриализация. Спасибо, сталелитейный завод. Спасибо, электростанция. И спасибо, заводы по химической переработке, которые подарили нам время читать книги».

Об авторе

Ханс Рослинг (1948-2017) был шведским врачом, академиком и статистиком. Он был профессором международного здравоохранения в Институте Каролинска в Швеции и соучредителем фонда Gapminder. Рослинг получил мировую известность благодаря своим презентациям, которые использовали данные и статистику для объяснения глобальных изменений в здоровье, демографии и экономике. Его книга “Factfulness: Ten Reasons We’re Wrong About the World – and Why Things Are Better Than You Think” (в соавторстве с Анной Рослинг Ронлунд и Ола Рослинг) стала бестселлером и получила высокую оценку за оптимистичный взгляд на мировой прогресс.

--- Статью подготовил ГПТ :)

источник: https://ideanomics.ru/lectures/14612

Big Finance Sleeps

Компания Bitwise, управляющая криптовалютными фондами, предлагает всем желающим создать NFT на основе рекламного ролика Ethereum-ETF. В ролике, который будет транслироваться по американскому телевидению с 20 июня, подчёркиваются преимущества сервисов Ethereum по сравнению с традиционными финансовыми услугами. Суть ролика заключается в следующем: «В отличие от крупных финансовых компаний, Ethereum не закрывается в 16:00».

В честь выхода рекламы сотрудники Bitwise создали NFT под названием Big Finance Sleeps («Крупные финансовые компании спят») на основе видеоролика об Ethereum. Эти NFT можно выпускать в сети второго уровня блокчейна ETH Zora Network через портал Zora. Пользователи уже создали 1455 токенов, заплатив за это 1,28 ETH (примерно $4570), то есть стоимость создания одного токена составляет около $3,14. Половина вырученных средств будет переведена коллективу Protocol Guild, поддерживающему разработчиков Ethereum, а другая половина — актёрам, участвовавшим в рекламе.

Bitwise удалось привлечь $2,5 млн перед выпуском Ethereum-ETF, одобренного Комиссией по ценным бумагам и биржам США 23 мая. Однако листинг этого дериватива на фондовой бирже пока не одобрен, поэтому его долями ещё не торгуют.

Три основные различия криптовалют и традиционных финансов:

  1. Время работы: Криптовалюты, такие как Ethereum, работают круглосуточно, в то время как традиционные финансовые институты имеют ограниченные часы работы.
  2. Децентрализация: Криптовалюты часто не имеют центрального управления и основаны на блокчейн-технологии, тогда как традиционные финансы контролируются централизованными учреждениями.
  1. Создание активов: Создание криптовалютных активов (например, NFT) может быть децентрализованным и происходить в любых условиях, тогда как выпуск традиционных финансовых инструментов регулируется и контролируется официальными органами.

смотреть можно тут

 No comments   6 mo   NFT

Hi, I’m DeepSeek Coder. Feel free to ask me anything about coding.

Какая то Мега крутая китайская Great модель https://chat.deepseek.com тут можно попросить код написать бесплатно. https://github.com/deepseek-ai/DeepSeek-Coder-V2

———

Привет! Создание такого сайта на Python с использованием Flask и SSL включает несколько шагов. Вот пример кода, который реализует основные требования:

1. Установите Flask и Flask-SSLify, если они еще не установлены:
```bash
pip install Flask Flask-SSLify
```

2. Создайте файл `app.py` с следующим содержимым:

```python
from flask import Flask, request, redirect, url_for, render_template_string, session
from flask_sslify import SSLify
import os

app = Flask(__name__)
sslify = SSLify(app)

# Настройка секретного ключа для сессии
app.secret_key = os.urandom(24)

# Пароль для авторизации
PASSWORD = os.getenv('FLASK_PASSWORD')

# Путь к SSL сертификатам
SSL_CERT = os.getenv('SSL_CERT')
SSL_KEY = os.getenv('SSL_KEY')

# Список сохраненных сообщений
messages = []

@app.route('/')
def index():
    if 'logged_in' not in session:
        return redirect(url_for('login'))
    return render_template_string('''
        <h1>Hello, World!</h1>
        <form method="post" action="/save">
            <input type="text" name="message" placeholder="Enter your message">
            <button type="submit">Save</button>
        </form>
        <form method="get" action="/search">
            <input type="text" name="query" placeholder="Search messages">
            <button type="submit">Search</button>
        </form>
        <ul>
            {% for message in messages %}
                <li>{{ message }}</li>
            {% endfor %}
        </ul>
    ''', messages=messages)

@app.route('/login', methods=['GET', 'POST'])
def login():
    if request.method == 'POST':
        password = request.form['password']
        if password == PASSWORD:
            session['logged_in'] = True
            return redirect(url_for('index'))
        else:
            return 'Invalid password'
    return '''
        <form method="post">
            <input type="password" name="password" placeholder="Enter password">
            <button type="submit">Login</button>
        </form>
    '''

@app.route('/save', methods=['POST'])
def save():
    if 'logged_in' not in session:
        return redirect(url_for('login'))
    message = request.form['message']
    messages.append(message)
    with open('messages.txt', 'a') as f:
        f.write(message + '\n')
    return redirect(url_for('index'))

@app.route('/search')
def search():
    if 'logged_in' not in session:
        return redirect(url_for('login'))
    query = request.args.get('query')
    results = [msg for msg in messages if query in msg]
    return render_template_string('''
        <h1>Search Results</h1>
        <ul>
            {% for result in results %}
                <li>{{ result }}</li>
            {% endfor %}
        </ul>
        <a href="/">Back to Home</a>
    ''', results=results)

if __name__ == '__main__':
    app.run(ssl_context=(SSL_CERT, SSL_KEY), host='0.0.0.0', port=443)
```

3. Запустите сервер, указав пароль и пути к SSL сертификатам:
```bash
export FLASK_PASSWORD=your_password
export SSL_CERT=/path/to/cert.pem
export SSL_KEY=/path/to/key.pem
python app.py
```

Этот код создает простой сайт с авторизацией по паролю, SSL-шифрованием, страницей "Hello, World!", полем для ввода текста с сохранением на сервере в файл и поиском уже сохраненных сообщений. Убедитесь, что у вас есть SSL сертификаты и ключи, и укажите правильные пути к ним.

а вот пример от GPT4o на аналогичный Промт:

Создание веб-сайта с авторизацией по паролю, SSL-сертификатами, простым вводом текста и поиском сохраненных сообщений можно выполнить с использованием популярного фреймворка Flask. Flask — это легковесный и гибкий фреймворк для создания веб-приложений на Python.

Для реализации этого функционала нам потребуются следующие шаги:
1. Установка необходимых библиотек.
2. Создание главного файла приложения.
3. Настройка SSL.
4. Реализация авторизации.
5. Обработка текстового поля для ввода и сохранения сообщений.
6. Реализация поиска по сохраненным сообщениям.

### Шаг 1: Установка зависимостей

Убедитесь, что у вас установлен Python. Установите Flask и другие необходимые библиотеки:

```sh
pip install flask flask-wtf
```

### Шаг 2: Создание главного файла приложения

Создадим файл `app.py`, который будет содержать основной код нашего приложения:

```python
from flask import Flask, request, render_template, redirect, url_for, session
from flask_wtf import FlaskForm
from wtforms import StringField, SubmitField
from wtforms.validators import DataRequired
import ssl
import os

app = Flask(__name__)
app.secret_key = os.urandom(24)

admin_password = os.getenv('ADMIN_PASSWORD')

messages_file = 'messages.txt'


class MessageForm(FlaskForm):
    message = StringField('Message', validators=[DataRequired()])
    submit = SubmitField('Submit')


@app.route('/')
def index():
    return 'Hello World'


@app.route('/login', methods=['GET', 'POST'])
def login():
    if request.method == 'POST':
        password = request.form['password']
        if password == admin_password:
            session['logged_in'] = True
            return redirect(url_for('home'))
        else:
            return 'Invalid password', 403
    return render_template('login.html')


@app.route('/home', methods=['GET', 'POST'])
def home():
    if not session.get('logged_in'):
        return redirect(url_for('login'))

    form = MessageForm()
    messages = load_messages()

    if form.validate_on_submit():
        with open(messages_file, 'a') as f:
            f.write(form.message.data + '\n')
        return redirect(url_for('home'))

    return render_template('home.html', form=form, messages=messages)


@app.route('/search', methods=['GET'])
def search():
    if not session.get('logged_in'):
        return redirect(url_for('login'))

    query = request.args.get('query')
    messages = load_messages()
    results = [msg for msg in messages if query.lower() in msg.lower()]

    return render_template('search.html', query=query, results=results)


def load_messages():
    if not os.path.exists(messages_file):
        return []
    with open(messages_file, 'r') as f:
        return f.readlines()


if __name__ == '__main__':
    admin_password = 'your_admin_password_here'  # Change this to the desired password

    context = ssl.SSLContext(ssl.PROTOCOL_TLS)
    context.load_cert_chain(certfile='cert.pem', keyfile='key.pem')

    app.run(ssl_context=context, host='0.0.0.0', port=5000, debug=True)
```

### Шаг 3: Настройка SSL

Для SSL сертификации создадим самоподписанный сертификат (в реальной среде используйте сертификаты из официальных источников):

```sh
openssl req -newkey rsa:2048 -nodes -keyout key.pem -x509 -days 365 -out cert.pem
```

### Шаг 4: Шаблоны HTML

Создадим простые HTML-шаблоны для страниц входа, домашней страницы и поиска. Создадим папку `templates` и добавим в нее следующие файлы:

#### login.html

```html
<!doctype html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>Login</title>
</head>
<body>
    <form method="post">
        <label for="password">Password:</label>
        <input type="password" id="password" name="password">
        <button type="submit">Login</button>
    </form>
</body>
</html>
```

#### home.html

```html
<!doctype html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>Home</title>
</head>
<body>
    <form method="post">
        {{ form.csrf_token }}
        {{ form.message.label }} {{ form.message }}<br>
        {{ form.submit }}
    </form>

    <h2>Saved Messages</h2>
    <ul>
    {% for message in messages %}
        <li>{{ message }}</li>
    {% endfor %}
    </ul>
    
    <form action="{{ url_for('search') }}" method="get">
        <input type="text" name="query" placeholder="Search messages">
        <button type="submit">Search</button>
    </form>
</body>
</html>
```

#### search.html

```html
<!doctype html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>Search Results</title>
</head>
<body>
    <h2>Search Results for "{{ query }}"</h2>
    <ul>
    {% for result in results %}
        <li>{{ result }}</li>
    {% endfor %}
    </ul>
    <a href="{{ url_for('home') }}">Back to Home</a>
</body>
</html>
```

### Шаг 5: Запуск сервера

Перед запуском сервера установите переменную окружения для пароля администратора:

```sh
export ADMIN_PASSWORD=your_admin_password_here
```

Запустите сервер:

```sh
python app.py
```

Теперь ваш сайт будет доступен на https://localhost:5000. Перейдите на `/login`, введите ваш пароль и получите доступ к функционалу ввода и поиска сообщений.

Это базовое приложение можно расширять и улучшать по мере необходимости.
 No comments   6 mo   AI

Data Products Starburst Special Edition

Новая книга по теме “Продукты данных” на основе исходного текста с комментариями GPT

© 2023 John Wiley & Sons, Inc. Любое распространение, копирование или несанкционированное использование строго запрещено.

Продукты данных

Специальное издание Starburst
Авторы: Вишал Сингх, Рио Коматсузаки и Эндрю Мотт, MBA

---

Исходные материалы защищены авторским правом © 2023 John Wiley & Sons, Inc., Hoboken, Нью-Джерси. Никакая часть данной публикации не может быть воспроизведена, сохранена в системе или передана в любой форме или любыми средствами без предварительного письменного разрешения издателя.

---

Оглавление

  1. Что такое продукты данных?
  2. Создание, управление и оптимизация продуктов данных
  3. Персонал и процессы
  4. Десять советов по внедрению продуктов данных

---

Глава 1: Определение продуктов данных

Введение

Максимизация ценности данных остается постоянной проблемой для бизнеса. Одним из последних вкладов в эту область является концепция data mesh (сетевая структура данных), которая представляет собой децентрализованный и распределенный подход к управлению корпоративными данными. В этой главе мы ознакомимся с идеей продукта данных и анализируем ее роль в модернизации стратегий аналитики данных.

Что такое продукт данных?

Быстрый поиск в интернете приведет к двум связанным, но различным терминам:

  1. Data as a product (данные как продукт) — это применение принципов управления продуктом к данным для повышения их использования и ценности.
  2. Data product (продукт данных) — это комбинация отобранных, повторно используемых наборов данных, созданных для предоставления проверенных данных конечным пользователям. Продукт данных включает метаданные, упрощающие поиск и использование данных.

Комментарий GPT: Разделение понятий “данные как продукт” и “продукт данных” помогает понять различие между методологическим подходом и конечным результатом, что важно для четкого понимания концепций.

Продукты данных и data mesh

В рамках концепции data mesh продукт данных — это самодостаточная сущность, состоящая из кода для сбора, трансформации и определения метаданных, а также инфраструктуры для запуска этого кода. Продукт данных должен обладать следующими качествами:

  • Обнаружимость
  • Доступность
  • Доверие
  • Самоописательная интероперабельность
  • Безопасность

Комментарий GPT: Подход data mesh подчеркивает важность децентрализации и передачи ответственности непосредственно командам разработки приложений, что может существенно повысить гибкость организации.

Улучшение бизнес-ценности

Приоритет и постоянное улучшение продуктов данных помогают сократить путь от данных до бизнес-ценности. Процесс итерации позволяет адаптироваться к изменениям в корпоративной среде и обеспечить соответствие продуктам данных потребностям заинтересованных сторон.

---

Глава 2: Создание, управление и оптимизация продуктов данных

Введение

Эта глава посвящена ключевым аспектам успешной программы продуктов данных: дизайну, удобству использования, масштабируемости и технологии.

Дизайн продуктов данных для ценности

Первые успехи вашей программы продуктов данных будут наиболее заметны благодаря бизнес-ценности, предоставленной начальными продуктами. Удельное внимание стоит уделить:

  • Обнаруживаемость данных: Метаданные, функции поиска и категоризация данных помогают пользователям находить нужные данные.
  • Самообслуживание и удобство использования: Дружелюбный интерфейс и наличие документации облегчают пользователям самостоятельный анализ данных.
Масштабирование продуктов данных

Продукты данных служат строительными блоками для создания более сложных продуктов. Важнейшие аспекты масштабирования включают стандартизацию и интероперабельность.

Управление в большом масштабе

Платформы управления продуктами данных помогают администраторам по централизации и автоматизации различных процессов управления данными. Это включает управление метаданными, проверку качества данных, доступом и безопасностью, интеграцию данных и отслеживание аналитики.

Снижение стоимости владения

Автоматизация процессов управления данными и улучшение качества данных помогают снижать операционные расходы и повышать эффективность.

Комментарий GPT: Снижение стоимости владения продуктами данных — ключевой аспект, который может значительно повлиять на долгосрочную финансовую стабильность и конкурентоспособность организации.

---

Глава 3: Персонал и процессы

Введение

Продукты данных служат единицами обмена между производителями и потребителями данных. В этой главе рассматриваются основные роли и процессы, необходимые для успешного создания и управления продуктами данных.

Построение ваших команд данных

Ключевые роли включают:

  • Инженер платформы данных: Ответственен за инфраструктуру и обеспечивает рамки для успешного создания продуктов данных.
  • Производитель продукта данных: Включает менеджера и инженера продукта данных, которые совместно работают над реализацией продуктов данных.
  • Потребитель данных: Аналитики данных и ученые данных, которые используют продукты данных для создания бизнес-ценности.
Платформа продуктов данных

Централизация управления и доступ к данным обеспечивают высокую степень обнаружимости и доступности продуктов данных.

Центральные и децентрализованные политики управления

Лучший подход — это централизованное управление с децентрализованным доверием к управлениям отдельных доменов данных через единую централизованную платформу.

Комментарий GPT: Это позволяет сохранить баланс между контролем и гибкостью, что особенно важно в больших организациях с множеством данных и разнообразными требованиями.

---

Глава 4: Десять советов по внедрению продуктов данных

  1. Сфокусируйтесь на бизнес-ценности: Технологии должны помогать разработчикам продуктов данных концентрироваться на данных и их бизнес-контексте.
  2. Связывайте продукты данных с ключевыми показателями эффективности (KPI): Это обеспечивает их актуальность и ценность.
  3. Учитывайте пользовательские метрики и общую стоимость владения (TCO): Это помогает оптимизировать стратегии и инвестиции в данные.
  4. Обеспечьте управление на основе ролей и ответственности бизнеса: Это способствует доверию и правильному использованию данных.
  5. Дизайн с учетом потребностей потребителей: Максимальная ценность достигается при внимании к потребностям и предпочтениям пользователей.
  6. Повторное использование без создания копий: Это экономично и предотвращает раздутие данных.
  7. Стимулируйте производство и использование данных: Избегайте теневой ИТ.
  8. Инвестируйте в роль владельца/менеджера продуктов данных: Они обеспечивают стратегическое управление продуктами данных.
  9. Итерация — ключ: Постоянное совершенствование гарантирует актуальность продуктов данных.
  10. Инвестируйте в культуру вашей организации: Одобрение данных на уровне культуры способствует устойчивому успеху.

Комментарий GPT: Эти советы помогут обеспечить плавное внедрение продуктов данных, увеличивая их ценность и эффективность в рамках организации.

---

Лицензионное соглашение с конечным пользователем

Перейдите на www.wiley.com/go/eula для доступа к лицензионному соглашению для электронной книги Wiley.

---

Таким образом, данная книга содержит исчерпывающую информацию о создании, управлении и оптимизации продуктов данных. Она также включает советы и рекомендации, основанные на проверенных практиках, что делает её полезным инструментом для любой организации, стремящейся улучшить свои стратегии управления данными.

Оригинал тут: Data-Products-For-Dummies.pdf

Databricks откроет исходные коды Unity Catalog

12 июня 2024 года
Databricks откроет исходные коды Unity Catalog
Алекс Вуди

Оригинал: https://www.datanami.com/2024/06/12/databricks-to-open-source-unity-catalog/

На сегодняшнем саммите Data + AI Summit компания Databricks объявила, что открывает исходные коды Unity Catalog, каталога метаданных, который управляет доступом пользователей и вычислительных систем к данным. Это решение последовало за новостями прошлой недели о проекте Apache Iceberg и знаменует важный поворот для Databricks, стремящейся поддерживать темпы развития на фоне растущего спроса клиентов на открытые lakehouse-платформы.

Databricks представила Unity Catalog в 2021 году как средство управления и обеспечения безопасности доступа к данным, хранящимся в Delta — табличном формате, созданном Databricks в 2017 году и являющемся краеугольным камнем стратегии lakehouse. До сих пор это оставался проприетарный продукт компании.

Однако в последние годы конкурирующий табличный формат Apache Iceberg набирает популярность в экосистеме big data. Databricks ответила на рост популярности Iceberg на прошлой неделе, объявив о планируемом приобретении компании Tabular, основанной создателем Iceberg. Стратегия Databricks заключается в том, чтобы постепенно сближать спецификации Iceberg и Delta, устраняя разницу между ними.

Таким образом, оставался последний барьер между клиентами и их мечтой о полностью открытом data lakehouse — это скромный каталог метаданных. Конкурент Databricks, компания Snowflake, на прошлой неделе решила проблему потенциальной зависимости от проприетарных каталогов метаданных, запустив Polaris, основанный на REST-API Iceberg. Snowflake сообщила Datanami, что планирует передать проект Polaris в open-source, вероятно, в Фонд Apache, в течение 90 дней.

Таким образом, Unity Catalog, оставаясь проприетарным, оказался в стороне в то время, как начинается новая эра открытых lakehouse решений. Чтобы адаптироваться к стратегическим изменениям на рынке, Databricks решила открыть исходные коды Unity Catalog.

Этот шаг создает «USB» для доступа к данным, заявил генеральный директор Databricks Али Годси во время вступительной речи на саммите Data + AI в Сан-Франциско.

«Все изолированные хранилища данных, которые у вас были ранее, могут получить доступ к одной копии данных в стандартизированном формате USB под вашим контролем», — сказал Годси. «Все проходит через единый слой управления, который стандартизирован, — это Unity Catalog — для всех ваших данных».

Ранее Unity Catalog поддерживал Delta и Iceberg, а также Apache Hudi, еще один открытый табличный формат, через Databricks’ Delta Lake UniForm формат. Более того, Unity Catalog также поддерживает REST-API Iceberg, отметил Годси.

«Мы стандартизировали слой данных и слой безопасности так, чтобы вы владели своими данными, а все проходило через эти открытые интерфейсы», — сказал он. «И я думаю, что это будет потрясающе для сообщества, для всех здесь. Потому что у нас появится множество новых сценариев использования. Мы сможем добиться большего уровня инноваций и расширим этот рынок для всех участников».

Генеральный директор Databricks Али Годси объявил об открытии исходного кода Unity Catalog на саммите Data + AI, 12 июня 2024 года.

Клиенты Databricks приветствовали этот шаг, включая AT&T и Nasdaq.

«С объявлением об открытии исходного кода Unity Catalog мы оптимистично воспринимаем шаг Databricks по обеспечению возможности управления lakehouse и метаданными через открытые стандарты», — сказал Мэтт Дуган, вице-президент AT&T по платформам данных. «Возможность использовать совместимые инструменты с нашими данными и активами ИИ при соблюдении единой политики управления является ключевым элементом стратегии AT&T в области данных».

«Решение Databricks открыть исходный код Unity Catalog предоставляет решение, которое помогает устранить изолированные хранилища данных. Мы с нетерпением ждем возможности дальнейшего масштабирования нашей платформы, улучшения управления и модернизации наших приложений для данных, продолжая предоставлять услуги нашим клиентам», — сказал Ленни Розенфельд, вице-президент Nasdaq по платформам доступа к капиталу.

Неясно, какой фонд открытого кода выберет Databricks для Unity Catalog OSS, и какой будет временной график. Ранее Databricks выбрала The Linux Foundation для открытия исходных кодов различных продуктов, разработанных внутри компании, включая Delta и MLFlow.

Unity Catalog будет размещен на Github в четверг во время ключевого выступления технического директора Databricks Матея Захарии на саммите Data + AI, сообщили в компании.

Top 6 RISC-V Chips with Multi-core Design and AI Accelerator for AI and ML

Перевод: https://www.dfrobot.com/blog-13462.html

Топ 6 чипов RISC-V с многоядерным дизайном и ускорителем ИИ для ИИ и МО

DFRobot
05 декабря 2023
8410

Принятие RISC-V, свободной и открытой архитектуры набора команд для компьютеров, впервые представленной в 2010 году, стремительно ускоряется, в первую очередь благодаря растущему спросу на искусственный интеллект (ИИ) и машинное обучение (МО). Исследовательская фирма Semico прогнозирует ошеломляющий ежегодный рост на 73,6 процента в количестве чипов с использованием технологии RISC-V, с прогнозом в 25 миллиардов ИИ чипов к 2027 году, что принесет доход в размере 291 млрд долларов США. Эта статья выделит популярные продукты на основе архитектуры RISC-V для ИИ и МО, доступные на нынешнем рынке.

Преимущества архитектуры RISC-V в сравнении с x86 и ARM для ИИ и МО
*Гибкость набора инструкций RISC-V.* Более высокая гибкость набора инструкций RISC-V хорошо соответствует потребности в более быстрых итерациях и большей вычислительной мощности в алгоритмах ИИ. Набор инструкций RISC-V может быть настроен и адаптирован под конкретные требования приложений, что позволяет лучше подстраиваться под разные алгоритмы ИИ, включая глубокое обучение и нейронные сети.
*Преимущество по эффективности процессоров RISC-V.* Лицензиаты выбирают RISC-V за его высокую эффективность по сравнению с традиционными микропроцессорами. В сравнении с ARM и x86, RISC-V демонстрирует примерно в 3 раза большую вычислительную производительность на ватт.
*Гибкость единого IP в комбинации или переконфигурации.* IP RISC-V может быть “декомпозирован” сильнее, чем ARM, что позволяет решать различные сценарии проектирования чипов. Это также приносит более высокую масштабируемость архитектуре RISC-V, позволяя дизайнерам свободно разбирать модули, как игрушки LEGO, и комбинировать их для создания идеальных чипов.
*Короткое время перехода между ARM и RISC-V.* Переход между ARM и RISC-V аналогичен переходу программиста, знающего структуры данных, между языками C и Python. Меняются лишь инструкции, в то время как общая философия дизайна остается неизменной. Дизайнер, хорошо разбирающийся в архитектуре ARM, может понадобиться всего около двух недель для перехода к разработке на RISC-V.

Продукты на базе чипов RISC-V для ИИ и МО

SiFive Intelligence™ X390
Процессор Intelligence X390 разработан для удовлетворения растущих потребностей приложений искусственного интеллекта и машинного обучения. Он основывается на базе X280 с ключевыми улучшениями, которые значительно повышают его вычислительные возможности. Обладая конфигурацией с одним ядром, процессор обеспечивает четырехкратное улучшение векторных вычислений благодаря двойному векторному ALU и удвоенной длине вектора, что дает четырехкратное увеличение пропускной способности данных. Кроме того, процессор интегрирует технологию VCIX от SiFive, позволяя компаниям добавлять пользовательские векторные инструкции или аппаратное ускорение для беспрецедентной гибкости оптимизации производительности. Улучшенные возможности векторных вычислений делают процессор X390 особенно подходящим для задач обучения и работы нейронных сетей.

Ключевые особенности
*Расширения SiFive Intelligence для нагрузки МО*
*Процессор с регистром длиной 512 бит*
*Показатели производительности*
*5.75 CoreMarks/МГц*
*3.25 DMIPS/МГц*
*4.6 SpecINT2k6/ГГц*
*Построен на доказанном на кремнии ядре серии U7*
*64-битный ISA RISC-V*
*Конвейер с двойной выдачей и 8 стадиями*
*Высокопроизводительная векторная подсистема памяти*
*Адресация до 48 бит*
*Конфигурация многоядерная, многокластерного процессора, до 8 ядер*

SiFive Performance P870
SiFive Performance P870 – это ядро процессора, основанное на архитектуре RISC-V и являющееся частью серии SiFive Performance. Разработано для высокопроизводительных вычислений и приложений в центрах обработки данных, ядро процессора SiFive Performance P870 обладает мощными вычислительными возможностями и гибкой настройкой. Используя открытую архитектуру команд RISC-V, это ядро процессора может удовлетворить требования различных сложных вычислительных задач, включая искусственный интеллект, аналитику больших данных и высокопроизводительные вычисления. SiFive Performance P870 стремится предоставить клиентам высокопроизводительные, энергоэффективные процессоры, чтобы удовлетворить растущие потребности в вычислительных ресурсах.

Ключевые особенности
*Полная поддержка спецификаций профиля RVA22 RISC-V и Vector 1.0, а также векторной криптографии, что позволяет запускать 64-битные приложения на ОС, таких как Linux и Android.*
*Прорывные производительности RISC-V*
*Согласованные многосердцевые, многокластерные конфигурации процессоров, до 16 ядер*
*Наивысшая производительность среди коммерчески лицензируемых процессоров RISC-V*
*12 SpecINT2k6/ГГц (процессор P870)*
*2x 128b VLEN RVV*
*Векторная криптография и расширения гипервизора*
*IOMMU и AIA*
*Невключающая L3 кэш-память*
*Проверенная безопасность RISC-V WorldGuard*
*Архитектурные особенности серии P800*
*64-битное ядро RISC-V с обширной поддержкой виртуальной памяти*
*Конвейер с четырьмя стадиями и внеочередной обработкой, настроенный на масштабируемую производительность*
*Приватные кэши L2 и страимость для улучшенной производительности памяти*
*SECDED ECC с сообщением об ошибках*

Эти два процессора различаются по целям проектирования и прикладной направленности. SiFive Performance P870 главным образом используется для высокопроизводительных вычислений и приложений в центрах обработки данных, в то время как SiFive Intelligence™ X390 предназначен для пограничного искусственного интеллекта и машинного обучения.

T-Head XuanTie C910
T-Head XuanTie C910 демонстрирует ведущие в отрасли показатели производительности в управлении потоком, вычислениях и частоте благодаря архитектурным и микроархитектурным инновациям. Процессор C910 основан на наборе инструкций RV64GC и реализует технологию XIE (XuanTie Instruction Extension). C910 использует передовой 12-стадийный конвейер с внеочередной обработкой нескольких инструкций, обладающий высокой частотой, IPC и энергоэффективностью. C910 поддерживает аппаратную когерентность кэша. Каждый кластер содержит 1-4 ядра. C910 поддерживает интерфейс шины AXI4 и включает порт когерентности устройств. C910 использует систему виртуальных адресов SV39 с технологией XMAE (XuanTie Memory Attributes Extension). В дополнение к этому, C910 включает стандартные контроллеры прерываний CLINT и поддерживает совместимый с RV интерфейс отладки и мониторы производительности.

Ключевые особенности
*T-Head XuanTie C910*

XiangShan Open-source 64-bit RISC-V Processor
В мае 2023 года Китайская академия наук выпустила второе поколение открытого высокопроизводительного ядра процессора RISC-V “Xiangshan” (архитектура Nanhu), которое было завершено в сентябре 2022 года и передано в производство в июне 2023 года. Это ядро процессора использует процесс 14 нм от SMIC, с основной частотой 2 ГГц, счетом SPEC CPU 10/ГГц, двухканальной памятью DDR, двухканальным интерфейсом PCIe, интерфейсом USB, интерфейсом HDMI и другими функциями. Его полная мощность превосходит ARM Cortex-A76, делая его самым мощным ядром RISC-V в мире.

Ключевые особенности
*XiangShan Open-source 64-bit RISC-V Processor*

Чип Esperanto ET-SoC-1
Чип Esperanto ET-SoC-1 интегрирует более 1000 ядер процессоров RISC-V и 24 миллиарда транзисторов, включая 1088 энергоэффективных 64-битных ядер RISC-V с упорядоченной обработкой ET-Minion и 4 высокопроизводительных 64-битных ядра RISC-V с внеочередной обработкой ET-Maxion. Каждое ядро оснащено векторным/тензорным блоком, с ожидаемыми рабочими частотами от 500 МГц до 2 ГГц. Также, чип включает 1 процессор обслуживания RISC-V, более 160 миллионов байт встроенной SRAM для кэшей и памяти scratchpad, и интерфейсы, поддерживающие большие внешние памяти, включая LPDDR4x DRAM и eMMC flash, PCIe x8 Gen4 и другие обычные интерфейсы ввода-вывода. При пиковой мощности ET-SoC-1 способен достигать от 100 до 200 триллионов операций в секунду (TOPS), при этом обычно потребляя менее 20 ватт мощности. Отличительной чертой решения Esperanto является использование нескольких низкопотребляющих SoC-чипов вместо одного большого SoC. Это может быть привлекательным энергоэффективным решением для рекомендаций машинного обучения в крупных центрах обработки данных.

Ключевые особенности
*Интеграция более 1000 ядер процессоров RISC-V*
*Включение 1088 64-битных ядер RISC-V с упорядоченной обработкой ET-Minion*
*Включение 4 высокопроизводительных 64-битных ядер RISC-V с внеочередной обработкой ET-Maxion*
*Состоит примерно из 24 миллиардов транзисторов*
*Специально разработан для ИИ и машинного обучения*
*Обеспечивает исключительные возможности параллельной обработки*

Meta Training Inference Accelerator (MTIA) Chip
MTIA разработан Meta для более эффективной обработки их нагрузок ИИ. Ядра процессоров основаны на архитектуре открытого набора команд RISC-V. Чип является специализированной интегральной схемой (ASIC), построенной для улучшения эффективности рекомендательных систем Meta, например, понимания контента, канала новостей Facebook, генеративного ИИ и ранжирования рекламы, все из которых зависят от рекомендательных моделей глубокого обучения (DLRM), требующих больших ресурсов памяти и вычислительной мощности.

Ключевые особенности

*Meta Training Inference Accelerator (MTIA) Chip*

Первое поколение ASIC MTIA было разработано в 2020 году специально для внутренних нагрузок Meta. Чип был изготовлен с использованием 7-нм процесса TSMC и работает на частоте 800 МГц, обеспечивая 102,4 TOPS при точности INT8 и 51,2 TFLOPS при точности 16-битного плавающего числа. Он также имеет тепловой дизайн мощностью (TDP) 25 Вт. Чип MTIA является частью полностекового решения, которое включает в себя кремний, PyTorch и рекомендательные модели; все это совместно разработано для предоставления полностью оптимизированной системы ранжирования для клиентов Meta. Выпуск их первого ИИ-чипа MTIA – значительное событие. Это еще больше подогревает гонку на рынке ИИ-оборудования и способствует эволюции оборудования, специально разработанного для ИИ-приложений.

Заключение
Чипы, упомянутые в статье, обладают многоядерным дизайном, каждое ядро которого предлагает высокую производительность и энергоэффективность. Они поддерживают многопоточные операции, что позволяет выполнять несколько задач одновременно. Кроме того, они все поддерживают наборы инструкций Single Instruction Multiple Data (SIMD), которые могут ускорять параллельные задачи обработки данных, такие как обработка изображений и векторные вычисления. По мере развития отрасли, мы полагаем, что продукты на основе архитектуры RISC-V будут играть все более важную роль в приложениях ИИ и МО, обеспечивая надежную основу для будущих технологических инноваций и приложений.

Ошибки:

  • Минорные грамматические ошибки и некорректные формулировки были исправлены, чтобы улучшить ясность и читабельность текста.
 No comments   6 mo   RISC-V   SoC

Fresh fruit: Sipeed Lichee Pi 4A

Перевод: https://medium.com/@davidly_33504/fresh-fruit-sipeed-lichee-pi-4a-1148b85b2edb

Новый фрукт одноплатной системы

Lichee Pi 4 слева и Raspberry PI 4 Model B справа. Фото автора.
Недавно я использовал Lichee Pi 4A от Sipeed для нескольких дней разработки. Он работал прямо из коробки и был стабилен. За исключением небольшой медлительности и отсутствия поддержки VS Code для RISC-V, плата отлично подходит в качестве системы разработки на RISC-V.

Lichee несколько крупнее, чем одноплатные компьютеры Raspberry PI, от которых она позаимствовала название, но обладает функциями, которых отсутствуют у этих систем, включая NPU для машинного обучения, два Ethernet-порта, больше ОЗУ, флеш-память и т. д. Мой экземпляр имеет четыре ядра RISC-V с частотой 1,85 ГГц, 128 ГБ флеш-памяти и 16 ГБ ОЗУ. Он пришел с предустановленной последней версией Debian. Подробная информация о применении платы доступна на вики Sipeed.

Я заинтересовался RISC-V в начале этого года, когда увидел глобально растущую поддержку архитектуры, особенно в Китае, что усилилось повышением лицензионных сборов за новые версии ARM. RISC-V бесплатен и хорошо спроектирован. Хотя для развития экосистемы потребуется время, я не вижу технических причин, по которым он не сможет со временем вытеснить ARM, как ARM вытеснил Intel.

В феврале я купил первый RISC-V Kendryte K210 от Sipeed, который является значительно меньшей системой, использующей Arduino для программирования. Он заметно медленнее с частотой 400 МГц и имеет элементарные, нестандартные API для встроенных систем. Я использовал его для выполнения некоторых эталонных тестов, написанных на ассемблере RISC-V и C. Также я проверял генерацию кода RISC-V с помощью моего компилятора BASIC — BA.

Arduino довольно трудно использовать, поэтому в итоге я написал эмулятор RISC-V, поддерживающий системные вызовы Linux, используемые в среде выполнения g++. Этот эмулятор (rvos) требовал много работы, но значительно упростил дальнейшую разработку компилятора BA и стал отличным способом для изучения RISC-V и Linux.

Все это было замечательно, но использование Lichee в качестве универсальной системы для кодирования и тестирования явно превосходит среду K210 и RVOS. Теперь я могу писать, компилировать, запускать и отлаживать код на одной машине. Установка g++ была простой командой apt, вместо клонирования репозитория GNU и его сборки для целевой архитектуры RISC-V.

Я создал эмулятор RVOS для RISC-V и запустил его проверочный набор на Lichee. Это немного забавно иметь эмулятор, работающий на той же платформе, которую он эмулирует, но это был хороший способ убедиться, что все работает. То же самое я сделал с моими эмуляторами для 6502 + Apple 1 и Z80 + CP/M 2.2. Они отлично работают на Lichee. Меня все еще поражает, что я могу запускать версию Turbo Pascal 1.0 на Z80 на RISC-V и это более чем в 100 раз быстрее, чем на моем старом Kaypro II.

Хотел бы сказать, что нашел ошибки в Debian или оборудовании, но они работали как ожидалось. Я обнаружил одну ошибку — но она была моей. Я установил более новую версию g++, чем полугодовалый кросс-компилятор, который я использовал на Ubuntu AMD64. Новый компилятор генерирует инструкции RISC-V SC.D, что выявило ошибку в RVOS, не обнаруженную ранее из-за того, что старые компиляторы не генерировали эту инструкцию.

Наибольший недостаток для разработки на Lichee — это отсутствие поддержки VS Code для RISC-V. Мне приходится использовать редактор Mousepad для написания кода. Хм... VS Code — это open-source, и это проблема, которую я могу решить.

Производительность приемлема для разработки ПО. Он в 5 раз быстрее, чем плата K210, но по-прежнему далеко от современных процессоров. В одном кри核ном эталонном тесте, написанном на C, его скорость примерно такая же, как у Intel Q9650 3.0 Ггц 2008 года. Тот же тест работает примерно на 23% быстрее, чем на Raspberry PI 4 2019 года. Он в 6,3 раза медленнее, чем AMD 5950x с частотой 3.4 Ггц 2020 года.

Эталонный тест выполняется с одним ядром и затем используя до 3-х ядер (если доступны), называемых ниже 3c и 2c. Для более современных машин я использовал g++. Для двух старых Windows-машин я использовал компилятор C++ от Microsoft. Я также запускал версии эталонного теста на C++ в трех эмуляторах, чтобы понять производительность более сложных приложений. Все времена в миллисекундах для одной итерации доказательства невозможности выиграть в крестики-нолики, если противник компетентен. (Никогда не забывай, что WOPR потратил 72 секунды на решение этой задачи в фильме “Военные игры”). Меньшие значения времени лучше.

Время выполнения эталона в миллисекундах для одного ядра и до 3 ядер на различных системах.
Системы на базе RISC-V будут улучшаться; нет ничего в архитектуре набора команд, что бы помешало ему догнать ARM и Intel. Но учитывая, что большинство инвестиций в RISC-V поступает из Китая, а остальной мир исключил Китай из производства следующего поколения кремния, будет интересно увидеть, что произойдет дальше.
Я могу рекомендовать Lichee каждому, кто хочет глубже погрузиться в RISC-V. Оборудование и Debian стабильны, и нет лучшего способа изучить платформу, чем разрабатывать для нее непосредственно**.
** Я работал над Windows много лет и самостоятельно использовал предрелизное оборудование/ПО для MIPS, DEC Alpha, PowerPC, AMD64, Itanium и ARM32.

 No comments   6 mo   SoC

ЭВОЛЮЦИЯ ЦИФРОВЫХ ФИНАНСОВ. ЛИКБЕЗ ДЛЯ НАЧИНАЮЩИХ

Оригинал тут: https://plusworld.ru/articles/59642/
Исправлено и дополнено с gpt.

---

Эволюция цифровых финансов: Ликбез для начинающих

В последнее время термин «цифровая валюта» все чаще звучит в контексте государственных и частных цифровых денег. Но в чем различия между цифровыми валютами центральных банков (ЦВЦБ), криптовалютами и безналичными валютами? Как использовать и зарабатывать на цифровых валютах? Андрей Михайлишин, глава Комиссии по платежным системам и трансграничным расчетам ТПП РФ, рассказывает об этом порталу PLUSworld.

Основы технологии блокчейн

Блокчейн — это распределенная база данных, хранящая информацию в виде цепочки блоков, связанных при помощи криптографического шифрования. Каждый блок содержит данные о транзакциях. Информация в блокчейне защищена от изменений благодаря криптографии.

Для добавления новых данных требуется достижение консенсуса среди участников сети, что гарантирует безопасность и достоверность информации. Существует несколько видов консенсуса, используемых в блокчейне.

Криптовалюты

Криптовалюты — это цифровые активы, использующие блокчейн для обеспечения безопасности и прозрачности транзакций. Они не обладают физической формой и не выпускаются государственными органами.

Первой криптовалютой стал Биткоин, выпущенный в 2009 году под псевдонимом Сатоши Накамото. За ним появились другие криптовалюты, такие как Эфириум, Лайткойн, Рипл и т.д., каждая со своими преимуществами и недостатками.

Классификация криптоактивов

Криптоактивы можно классифицировать по различным признакам, например, по назначению:

  1. Платежные криптовалюты (стейблкоины) привязаны к фиатной валюте или биржевому товару и используются для оплаты товаров и услуг.
  2. Инвестиционные криптовалюты приобретаются для получения прибыли.

Криптовалюты можно купить на биржах, обменниках или напрямую у других пользователей, хранить в кастодиальных или некастодиальных кошельках. Детализировать тему кошельков мы будем в будущих материалах.

Преимущества и недостатки криптовалют

Преимущества:

  • Безопасность: Транзакции защищены криптографией.
  • Прозрачность: Все транзакции общедоступны (исключая некоторые блокчейны с анонимными транзакциями, как Monero).
  • Децентрализация: Не зависят от централизованных органов.

Недостатки:

  • Высокая волатильность: Цены могут сильно колебаться.
  • Правовая неопределенность: Регулирование различается в разных странах.
  • Уголовные риски: Возможность использования для незаконных операций.

Цифровые валюты центральных банков (ЦВЦБ)

ЦВЦБ — это цифровая форма национальной валюты, выпущенная центральным банком с использованием технологий распределенного реестра. Отличается от традиционных безналичных и электронных денег тем, что эмитируется центральным банком и является его обязательством.

ЦВЦБ мотивированы массовым распространением криптовалют и технологическим развитием. Они обеспечивают высокую безопасность и прозрачность транзакций благодаря технологии блокчейн.

Формы и архитектуры ЦВЦБ

ЦВЦБ бывают двух форм:

  • Розничные: Используются физическими и юридическими лицами для ежедневных расчетов.
  • Оптовые: Применяются профессиональными участниками финансового рынка для взаимных расчетов.

Архитектуры ЦВЦБ включают:

  • Централизованная: Центральный банк выпускает и управляет ЦВЦБ.
  • Двухуровневая: Центральный банк выпускает ЦВЦБ, а розничный оборот обеспечивается коммерческими банками.
  • Децентрализованная: ЦВЦБ выпускаются частными организациями, но гарантируются центральным банком.

Мотивы и перспективы внедрения ЦВЦБ

Центральные банки рассматривают внедрение ЦВЦБ для:

  • Улучшения эффективности платежной системы.
  • Повышения финансовой доступности.
  • Укрепления финансовой стабильности.
  • Обеспечения мгновенных и дешевых платежей.
  • Использования смарт-контрактов.
  • Прямого стимулирования граждан и бизнеса.

ЦВЦБ уже внедрены или находятся в разработке в более чем 100 странах. Наиболее продвинутые проекты включают DCEP в Китае, Sand Dollar на Багамах, DCash у Восточно-Карибского центрального банка, eNaira в Нигерии и другие.

Заключение

Внедрение ЦВЦБ продолжится в ближайшие годы, оказывая значительное влияние на финансовую систему, делая ее более инновационной, эффективной, доступной и стабильной.

Платформа защиты данных: принципы и практика

Перевод: https://sanjmo.medium.com/drowning-in-data-a-data-security-platform-dsp-is-your-life-raft-92be7cdc9e66

В январе 2024 года Gartner опубликовал свой первый рыночный гид по платформам защиты данных, признав растущую важность объединения контролей безопасности данных, бизнес-логики и детализированной авторизации. Эти ключевые черты позволяют бизнесу раскрыть потенциал всех своих информационных активов и использовать их для принятия решений.

Защита данных не является новым открытием, а давно признанной необходимостью. В прошлом эти меры внедрялись как второстепенные и изолированные, что затрудняло своевременный и безопасный доступ к корпоративным данным. Однако сейчас организации делают защиту данных приоритетом и внедряют её структурированным образом. Неудивительно, что Gartner сообщает о 70-процентном росте звонков, связанных с защитой данных, между 2021 и 2022 годами.

Хотя ChatGPT открыл потенциал ИИ, трансформируя наши организации, впереди еще большая возможность в виде персонализированной ИИ-стека. Этот стек объединяет крупные языковые модели и корпоративные данные, позволяя получать результаты, основанные на реальной бизнес-информации.

С этой мощью компании могут действительно использовать скрытый потенциал огромных объемов структурированных и неструктурированных данных. И, базируя результаты на тщательно отобранных корпоративных данных, они могут уменьшить количество неправильных выводов и повысить доверие к результатам генеративной работы ИИ.

Однако для достижения этого состояния просветления необходимо сначала убедиться, что соблюдены корпоративные правила безопасности и все соответствующие нормативные требования. Это требует сложной платформы защиты данных (DSP).

Компоненты платформы защиты данных (DSP)
Как тормоза у автомобиля, защита данных предназначена не для замедления, а для безопасного ускорения с доверием и уверенностью. Они созданы, чтобы предотвращать как намеренное, так и случайное использование инфраструктуры данных. Цель состоит в том, чтобы обеспечить доступ к нужным данным для нужных людей в нужное время, чтобы принимать бизнес-решения и получать конкурентное преимущество.

Надежная платформа защиты данных состоит из трёх основных элементов, приведённых ниже.

Элементы платформы защиты данных (DSP)
Обнаружение и наблюдение
Первая итерация больших данных, начатая Hadoop, превратила озера данных в болота данных из-за недостаточного понимания данных. В стремлении сделать данные доступными для анализа был пропущен критический этап их понимания, включая чувствительные данные.

Современная DSP должна иметь возможность подключаться к исходным системам и определять характер данных. Чувствительность данных скрыта в контексте самих данных. Когда чувствительные данные обнаружены, их необходимо пометить в соответствии с корпоративными правилами безопасности и применимыми нормативными требованиями. Эти данные могут включать личную идентификационную информацию (PII), личную медицинскую информацию (PHI), финансовые данные, интеллектуальную собственность или производственные секреты.

Ваша DSP должна уметь подключаться ко всем соответствующим источникам данных и выявлять чувствительные данные, используя несколько подходов:

  • Профилирование исходных данных: сканирование и профилирование данных часто использует выборку, но должно иметь возможность сканировать полный набор данных. Однако это может создать нагрузку на операционные системы. Этот вариант требует разрешений для доступа к исходным данным.
  • Профилирование ответов: чтобы преодолеть некоторые из вышеупомянутых барьеров, можно профилировать и классифицировать ответы. Например, можно выявлять электронные письма, номера социального страхования и другую личную информацию.
  • Пометка данных может быть ручной, однако чаще всего используется сложные алгоритмы машинного обучения. Этот процесс должен быть непрерывным, так как данные меняются в реальном времени. Таким образом, в вашей DSP необходимы возможности наблюдения.

Определение политики
Следующий шаг – возможность определения детализированных политик и правил по защите данных, таких как авторизация и шифрование. Ответственные за данные должны иметь возможность интуитивно и с самообслуживанием создавать политики управления, а не использовать старые подходы, распространенные в системах управления идентификацией и доступом. Наиболее распространенный подход – использование интерфейса с выпадающими опциями. Например, могут быть опции для шифрования или маскирования данных или тегов.

Новые системы позволяют автоматически определять и находить политики. Автоматизация создания политик также помогает, когда пользователь уходит из компании и все соответствующие политики должны быть удалены. Для достижения этой способности важно, чтобы DSP интегрировалась с остальной инфраструктурой управления данными, такой как каталоги данных. Например, интеграция с каталогом данных позволяет пользователям находить данные, видеть, что доступно, запрашивать доступ, фиксировать намерения и согласие, а затем предоставлять доступ. Эти продукты должны сохранять историю доступа и журналы аудита.

Принуждение к соблюдению политики
Заключительный этап – это выполнение политик безопасности данных с минимальными накладными расходами и задержками. Для назначения прав доступа в зависимости от роли пользователя в проекте следует использовать контроль доступа на основе ролей (RBAC). Для предоставления доступа на основе комбинации атрибутов пользователя, атрибутов данных и атрибутов окружения следует использовать контроль доступа на основе атрибутов (ABAC), обеспечивая более детализированный контроль.

Некоторые важные факторы при исполнении политики включают:

  • Согласованность: политики безопасности должны применяться к данным независимо от того, где они хранятся – в облачных хранилищах данных, операционных системах, хранилищах объектов или озерах данных.
  • Низкую задержку и масштабируемость: накладные расходы на безопасность данных должны быть минимальными для запросов. Они также должны масштабироваться с ростом нагрузки.
  • Динамичность: предпочтительнее ABAC, так как он динамический и адаптируется с изменением окружения пользователя.
  • Адаптивность: продукт для защиты данных должен быть прозрачным для конечных пользователей. В идеале пользователь должен обращаться к конечной точке или использовать API, который автоматически применяет политики безопасности и не требует изменений в схеме или запросах.
  • Развертывание: современные продукты безопасности развёртываются либо как SaaS-инструменты, либо в частных облаках, управляемых с помощью Kubernetes.

Бесшовное принуждение к соблюдению политики помогает построить доверие к данным и увеличить их полезность. Это позволяет организациям расширять возможности обмена данными с потребителями, такими как развертывание маркетплейсов данных.

 No comments   6 mo   Data   Security

Palantir и Maven Smart System или как потратить 480млн

Palantir получила контракт на 480 миллионов долларов от армии США на разработку прототипа системы Maven Smart System (MSS), о чем было объявлено Пентагоном в среду. Этот контракт представляет собой значительное вложение в возможности искусственного интеллекта (ИИ), направленные на повышение оперативной эффективности вооруженных сил США.

В последнее время военные США все чаще используют технологии ИИ в различных операциях, особенно в зоне ответственности Центрального командования на Среднем Востоке. В пресс-релизе Национальной гвардии Кентукки, опубликованном в феврале, отмечается, что MSS от Palantir в сочетании с системой широкозонного поиска и наведения Национального агентства геопространственной разведки (BAS-T) использует алгоритмы, сгенерированные ИИ, и возможности обучения памяти для сканирования и идентификации вражеских систем в зоне ответственности (AOR).

Согласно пресс-релизу, “Maven Smart System (MSS) от Palantir в сочетании с системой широкозонного поиска и наведения Национального агентства геопространственной разведки (BAS-T) использует алгоритмы, сгенерированные ИИ, и возможности обучения памяти для сканирования и идентификации вражеских систем в зоне ответственности (AOR). MAVEN объединяет данные из различных систем разведки, наблюдения и рекогносцировки (ISR), чтобы выявить интересующие области.”

Интеграция ИИ в военные операции направлена на увеличение скорости и точности идентификации целей, как отмечается в пресс-релизе: “Положительная идентификация цели (PID) находится в центре процесса наведения. Скорость, с которой может быть обнаружена враждебная цель, критична для последующих этапов цикла наведения (Решение, Обнаружение, Доставка, Оценка). ИИ помогает фильтровать параметры, определенные пользователем, просеивает большие объемы данных, извлекает то, что является релевантным, и предоставляет аналитикам данные в почти реальном времени, которые используются оперативным сообществом для проверки в соответствии с задачами командира.”

Это улучшенное средство позволяет быстро подтвердить и интегрировать информацию с существующими системами командования армии, такими как Система управления тактическими данными полевой артиллерии (AFATDS), для создания огневых миссий.

Пентагон планирует использовать инструменты ИИ, такие как Maven, чтобы поддержать свою концепцию ведения боевых действий Combined Joint All-Domain Command and Control (CJADC2). Эта инициатива направлена на лучшее объединение платформ, сенсоров и потоков данных вооруженных сил США и их ключевых международных партнеров под единой сетью.

Оборонные чиновники считают, что использование ИИ поможет командирам и другому персоналу принимать более быстрые и обоснованные решения, тем самым повышая оперативную эффективность и эффективность.

Контракт на 480 миллионов долларов с дочерней компанией Palantir USG является контрактом с фиксированной ценой, как заявлено в объявлении Пентагона: “Одна заявка была подана через интернет, и одна была получена. Местоположения работ и финансирование будут определяться с каждым заказом, с предполагаемой датой завершения 28 мая 2029 года.”

Военный интерес к технологиям, связанным с ИИ, не стоит воспринимать как научную фантастику. Хотя в прошлом году несколько ведущих компаний по робототехнике обещали не вооружать роботов, нет ничего удивительного в том, что другие компании охотно используют потенциал технологий ИИ для повышения возможностей ведения войн.

Это еще одна причина, по которой как частные, так и государственные структуры спешат разработать стандарты безопасности ИИ.

Статья изначально опубликована на OpenDataScience.com. https://opendatascience.com/palantir-secures-480-million-dod-deal-for-ai-powered-maven-smart-system-prototype/

 No comments   6 mo   AI
Earlier Ctrl + ↓