The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

Релиз платформы для распределённой обработки данных Apache Hadoop 3.2

28.01.2019 11:09

Организация Apache Software Foundation опубликовала релиз Apache Hadoop 3.2, свободной платформы для организации распределённой обработки больших объёмов данных с использованием парадигмы map/reduce, при которой задача делится на множество более мелких обособленных фрагментов, каждый из которых может быть запущен на отдельном узле кластера. Хранилище на базе Hadoop может охватывать тысячи узлов и содержать эксабайты данных.

В состав Hadoop входит реализация распределенной файловой системы Hadoop Distributed Filesystem (HDFS), автоматически обеспечивающей резервирование данных и оптимизированной для работы MapReduce-приложений. Для упрощения доступа к данным в Hadoop хранилище разработана БД HBase и SQL-подобный язык Pig, который является своего рода SQL для MapReduce, запросы которого могут быть распараллелены и обработаны несколькими Hadoop-платформами. Проект оценивается как полностью стабильный и готовый для промышленной эксплуатции. Hadoop активно используется в крупных промышленных проектах, предоставляя возможности, аналогичные платформе Google Bigtable/GFS/MapReduce, при этом компания Google официально делегировала Hadoop и другим проектам Apache право использования технологий, на которые распространяются патенты, связанные с методом MapReduce.

Hadoop занимает первое место среди репозиториев Apache по числу вносимых изменений и пятое место по размеру кодовой базы (около 4 млн строк кода). Из крупных внедрений Hadoop отмечаются хранилища Netflix (сохраняется более 500 миллиардов событий в день), Twitter (кластер из 10 тысяч узлов в режиме реального времени хранит более зетабайта данных и обрабатывает более 5 миллиардов сеансов в день), Facebook (кластер из 4 тысяч узлов хранит более 300 петабайт и ежедневно увеличивается на 4 Пб в день).

Основные изменения в Apache Hadoop 3.2:

  • Добавлен коннектор для файловой системы ABFS, поддерживающий хранилища Azure Datalake Gen2;
  • Расширены возможности коннектора S3A, в котором обеспечена корректная обработка урезанных конфигураций AWS S3 и DynamoDB IO;
  • В YARN (Yet Another Resource Negotiator) добавлена поддержка атрибутов узлов, позволяющая прикреплять разные метки к узлам и размещать контейнеры с учётом данных меток;
  • Реализован SPS (Storage Policy Satisfier), позволяющий создавать расширения для HDFS (Hadoop Distributed File System), перемещающие блоки между различными типами хранилищ на основе политик хранения, заданных для файлов и каталогов;
  • Представлен инструмент Hadoop Submarine для упрощения разработки, тренировки и развёртывания моделей глубинного машинного обучения на базе фреймворка TensorFlow в одном кластере Hadoop YARN;
  • Добавлен HDFS-клиент на C++ с поддержкой асинхронного ввода/вывода для HDFS;
  • Обеспечена возможность обновления начинки контейнеров через CLI-интерфейс или API YARN Native Service без остановки работы связанных с ними длительно работающих сервисов.

Дополнительно можно отметить выявление уязвимости в коде авторизации HDFS, позволяющей узнать значения расширенных атрибутов через выполнение операции listXAttrs. Проблема вызвана тем, что при проверке полномочий учитывался только доступ к операциям просмотра каталогов на уровне файловых путей, но не выполнялась проверка прав на чтение содержимого.

Кроме того, приводятся сведения об обнаружении вредоносного ПО, поражающего незащищённые хранилища на базе Hadoop. Для внедрения вредоносного ПО в сети отыскиваются необновлённые серверы, содержащие неисправленные известные уязвимости в Hadoop YARN, а также в Redis и ActiveMQ, позволяющие выполнить код в системе. В случае успешной эксплуатации уязвимостей на сервере в большинстве случаев запускается код для майнинга криптовалют, организации слежки в локальной сети или кражи корпоративных закрытых данных. В отдельных случаях зафиксировано применение вредоносного ПО Xbash, которое поддерживает сканирование сети для выявления новых уязвимых жертв, выполняет чистку содержимого БД и требует выкуп за восстановление данных (указывается, что данные зашифрованы, но на деле они просто удаляются).

  1. Главная ссылка к новости (https://blogs.apache.org/found...)
  2. OpenNews: Релиз платформы для распределённой обработки данных Apache Hadoop 3.0
  3. OpenNews: Незащищённые Hadoop-серверы отдают более 5 Пб данных без аутентификации
  4. OpenNews: Следом за MongoDB начались атаки на CouchDB, Hadoop и ElasticSearch
  5. OpenNews: Уязвимость в Apache Hadoop
  6. OpenNews: Релиз Apache Hadoop 1.0.0, платформы для распределённой обработки данных
Лицензия: CC BY 3.0
Короткая ссылка: https://opennet.ru/50038-hadoop
Ключевые слова: hadoop
При перепечатке указание ссылки на opennet.ru обязательно


Обсуждение (25) Ajax | 1 уровень | Линейный | +/- | Раскрыть всё | RSS
  • 1.2, лютый жабист__ (?), 12:42, 28/01/2019 [ответить] [﹢﹢﹢] [ · · · ]  
  • –1 +/
    Мда, а местные эксперты недавно уверяли, что вся бигдата с жабки уже давно ушла.
     
     
  • 2.4, Аноним (4), 12:48, 28/01/2019 [^] [^^] [^^^] [ответить]  
  • +6 +/
    Бигдата ушла, а легаси остался.
     
     
  • 3.9, Аноним (9), 14:25, 28/01/2019 [^] [^^] [^^^] [ответить]  
  • +/
    Согласен, это именно легаси. Вы только посмотрите, на какой старой платформе Cloudera базирует свою учебную виртуальную машину для курсов по Hadoop: это CentOS 6. 6, Карл! Там даже нет Java 8, только 1.7 от Oracle. И почему-то другие организации проводят курсы по Hadoop на таком же старье, как будто оно ни на чем другом не работает.

    P.S. курсы не проходил, но помогал организовывать.

     
     
  • 4.10, Аноним (4), 14:28, 28/01/2019 [^] [^^] [^^^] [ответить]  
  • +/
    Зато стабильность.
     
  • 4.13, Лапчатый девляпс бубунтёнок (?), 15:18, 28/01/2019 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Не, ну когда я в cиcькe арботал, эта проблема была, мы тогда клаудеру безуспешно пытались спрашивать. А сейчас вроде и седьмую чентозь добавили. В предверии выхода 8-й: https://www.cloudera.com/documentation/enterprise/5-7-x/PDF/cloudera-quickstar
    Они не спешат....
     
  • 4.14, Bonch (??), 15:48, 28/01/2019 [^] [^^] [^^^] [ответить]  
  • +/
    Насколько я знаю, QuickStart VM для новых версий CDH больше не релизят (последняя VM доступна для релиза 2017го года). В новых версиях (CDH6) перешли на java 8, но QuickStart-ов для них больше не будет.
     
  • 4.18, Анонэйм (?), 23:08, 28/01/2019 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Ну, будучи в универе, у меня был курс с Hadoop, мне было влом держать этот CentOs в виртуальной машине, и я установил Hadoop напрямую в MacOS, проблем с установкой и разработкой замечено не было.
     
  • 4.20, лютый жабист__ (?), 07:58, 29/01/2019 [^] [^^] [^^^] [ответить]  
  • +/
    >свою учебную виртуальную машину для курсов по Hadoop: это CentOS 6. 6, Карл! Там даже нет Java 8, только 1.7 от Oracle.

    Не болтай ерундой.

    java-1.8.0-openjdk-1.8.0.171-8.b10.el6_9.x86_64.rpm

    Cloudera who?

     
     
  • 5.27, Аноним (9), 13:07, 29/01/2019 [^] [^^] [^^^] [ответить]  
  • +/
    Я не про CentOS 6, а про QuickStart VM.
     
  • 3.15, Киль Комаров (?), 15:52, 28/01/2019 [^] [^^] [^^^] [ответить]  
  • +1 +/
    А куда ушла Бигдата?
     
     
  • 4.16, YetAnotherOnanym (ok), 17:42, 28/01/2019 [^] [^^] [^^^] [ответить]  
  • +2 +/
    В закат же!
     

  • 1.3, лютый жабист__ (?), 12:46, 28/01/2019 [ответить] [﹢﹢﹢] [ · · · ]  
  • –2 +/
    <наивный буратина моде он>
    Скоро перепишут на плюсах и настанет ой всё!
    </наивный буратина моде он>

    Из крупных внедрений Hadoop отмечаются хранилища Netflix (сохраняется более 500 миллиардов событий в день), Twitter (кластер из 10 тысяч узлов в режиме реального времени хранит более зетабайта данных и обрабатывает более 5 миллиардов сеансов в день), Facebook (кластер из 4 тысяч узлов хранит более 300 петабайт и ежедневно увеличивается на 4 Пб в день).

     
     
  • 2.5, Аноним (4), 12:50, 28/01/2019 [^] [^^] [^^^] [ответить]  
  • +6 +/
    А куда им бежать с подводной лодки?
     
     
  • 3.6, FedeX (ok), 12:54, 28/01/2019 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Ну дык данные нынче -товар. Чем больше ПБ тем дороже, главное покупателей кому оно надо найти. Так шо это не подводная лодка, а воздушный шар.
     
     
  • 4.7, имя (?), 13:45, 28/01/2019 [^] [^^] [^^^] [ответить]  
  • –4 +/
    пох, перелогинься
     
     
  • 5.17, пох (?), 21:59, 28/01/2019 [^] [^^] [^^^] [ответить]  
  • +/
    а я тут причем? Я просто молчу в а...е, от того сколько ж они о вас накопали. Что там не котиков нифига 4 петабайта в день, да и не в hadoop'е те котики - по-моему, очевидно.

    А у нетфликсы и котиков-то никаких нет...

     
  • 2.8, Аноним (8), 14:03, 28/01/2019 [^] [^^] [^^^] [ответить]  
  • +/
    Посчитать осталось, сколько лишней электроэнергии уходит впустую на джаву. Пересчитать сколько вреда от этого экологии и заставить Oracle платить компенсацию за вред окружающей среде. Или вычитать из зарплаты как налог у тех кто пишет на Java.
     
     
  • 3.11, Аноним (4), 14:28, 28/01/2019 [^] [^^] [^^^] [ответить]  
  • –1 +/
    В корпоративном мире чем больше ты потратил тем ты круче.
     
     
  • 4.25, лютый жабист__ (?), 11:26, 29/01/2019 [^] [^^] [^^^] [ответить]  
  • +/
    >В корпоративном мире чем больше ты потратил тем ты круче.

    В корпоративном мире бюджет формируют за год, а то и два. Знаешь ты сколько тебе через 2 года надо ресурсов, не знаешь, никого не ебстит. Поэтому пишешь от балды x4. Половину зарежут на совете директоров, зато оставшихся x2 хватит на жабу и даже на помайнить.

     
  • 2.19, Аноним (19), 00:16, 29/01/2019 [^] [^^] [^^^] [ответить]  
  • –1 +/
    > Facebook (кластер из 4 тысяч узлов хранит более 300 петабайт и ежедневно увеличивается на 4 Пб в день).

    А тут не опечатка - "ежедневно увеличивается на 4 Пб в день"?
    Это что, сегодня 4 добавилось, завтра 8, послезавтра 12?

    И на какую дату данные?
    Ведь по 4 Пб в день (а сейчас уже 300) это через год 1760 петабайт будет.

     
     
  • 3.21, лютый жабист__ (?), 08:01, 29/01/2019 [^] [^^] [^^^] [ответить]  
  • +/
    Глючишь? "ежедневно увеличивается на 4 Пб в день" означает линейное увеличение на 4 в день. А не какую-то прогрессию.
     
     
  • 4.22, erthink (ok), 11:03, 29/01/2019 [^] [^^] [^^^] [ответить]  
  • –1 +/
    > Глючишь? "ежедневно увеличивается на 4 Пб в день" означает линейное увеличение на 4 в день. А не какую-то прогрессию.

    1) "ежедневно увеличивается на 4 Пб в день" = арифметическая прогрессия.
    2) 300 + 4*365 = 1760

    ява в голове - это диагноз навсегда ;)

     
     
  • 5.23, лютый жабист__ (?), 11:22, 29/01/2019 [^] [^^] [^^^] [ответить]  
  • +/
    >ява в голове - это диагноз навсегда ;)

    сишникам лишь бы пюкнуть против жабы и в кусты, пилить могучее ненужно.

    300ПБ всего vs 4ПБ прироста это действительно на ошибку в статье похоже, скорее всего в месяц.

     
     
  • 6.26, Аноним (26), 11:31, 29/01/2019 [^] [^^] [^^^] [ответить]  
  • +/
    > 300ПБ всего vs 4ПБ прироста это действительно на ошибку в статье похоже, скорее всего в месяц.

    Скорее всего ошибка, но может именно в хадупе в кластере на 4тыс узлов растет какая-то вспомогательная новая, свеженькая база, не основное хранилище.

     
  • 3.24, Аноним (26), 11:26, 29/01/2019 [^] [^^] [^^^] [ответить]  
  • +/
    >> Facebook (кластер из 4 тысяч узлов хранит более 300 петабайт и ежедневно увеличивается на 4 Пб в день).
    > А тут не опечатка - "ежедневно увеличивается на 4 Пб в день"?
    > Это что, сегодня 4 добавилось, завтра 8, послезавтра 12?

    Очевидно же из фразы - увеличивается не ежедневная порция добавляемых данных, а сама база данных.

     

     Добавить комментарий
    Имя:
    E-Mail:
    Текст:



    Партнёры:
    PostgresPro
    Inferno Solutions
    Hosting by Hoster.ru
    Хостинг:

    Закладки на сайте
    Проследить за страницей
    Created 1996-2024 by Maxim Chirkov
    Добавить, Поддержать, Вебмастеру