Hadoop

Apache Hadoop
Apache Hadoop
Тип	Система для распределённых вычислений
Авторы	Дуг Каттинг и Майк Кафарела[вд]
Разработчик	Apache Software Foundation
Написана на	Java
Операционная система	Кроссплатформенное программное обеспечение
Первый выпуск	1 апреля 2006
Аппаратная платформа	Java Virtual Machine
Последняя версия	2.2.0 (15 октября 2013)
Репозиторий	git-wip-us.apache.org/re…; gitbox.apache.org/repos/…; github.com/apache/hadoop
Лицензия	Apache License 2.0
Сайт	hadoop.apache.org
	Медиафайлы на Викискладе

Отпатрулированная версия этой страницы, проверенная 14 февраля 2014, была основана на этой версии.

Hadoop — проект фонда Apache Software Foundation, свободно распространяемый набор утилит, библиотек и программный каркас для разработки и выполнения распределённых программ, работающих на кластерах из сотен и тысяч узлов. Используется для реализации поисковых и контекстных механизмов многих высоконагруженных веб-сайтов, в том числе, для Yahoo! и Facebook^[2]. Разработан на Java в рамках вычислительной парадигмы MapReduce, согласно которой приложение разделяется на большое количество одинаковых элементарных заданий, выполнимых на узлах кластера и естественным образом сводимых в конечный результат.

По состоянию на 2014 год проект состоит из четырёх модулей — Hadoop Common➤ (связующее программное обеспечение — набор инфраструктурных программных библиотек и утилит, используемых для других модулей и родственных проектов), HDFS➤ (распределённая файловая система), YARN➤ (система для планирования заданий и управления кластером) и Hadoop MapReduce➤ (платформа программирования и выполнения распределённых MapReduce-вычислений), ранее в Hadoop входил целый ряд других проектов, ставших самостоятельными в рамках системы проектов Apache Software Foundation.

Считается одной из основополагающих технологий «больших данных». Вокруг Hadoop образовалась целая экосистема➤ из связанных проектов и технологий, многие которых развивались изначально в рамках проекта, а впоследствии стали самостоятельными. Со второй половины 2000-х годов идёт процесс активной коммерциализации технологии➤, несколько компаний строят бизнес целиком на создании коммерческих дистрибутивов Hadoop и услуг по технической поддержки экосистемы, а практически все крупные поставщики информационных технологий для организаций в том или ином виде включают Hadoop в продуктовые стратегии и линейки решений.

История

Разработка была инициирована в начале 2005 года Дугом Каттингом^?! (англ. Doug Cutting) с целью построения программной инфраструктуры распределённых вычислений для проекта не указано название статьи — свободной программной поисковой машины на Java, её идейной основой стала публикация сотрудников Google Джеффри Дина и Санжая Гемавата^[3] о вычислительной концепции MapReduce^[4]. Новый проект был назван в честь игрушечного слонёнка ребёнка основателя проекта ^[5].

В течение 2005—2006 годов Hadoop развивался усилиями двух разработчиков — Каттинга и Майка Кафареллы (Mike Cafarella) в режиме частичной занятости^[4], сначала в рамках проекта Nutch, затем — проекта Lucene. В январе 2006 года корпорация Yahoo пригласила Каттинга возглавить специально выделенную команду разработки инфраструктуры распределённых вычислений, к этому же моменту относится выделение Hadoop в отдельный проект. В феврале 2008 года Yahoo запустила кластерную поисковую машину на 10 тыс. процессорных ядер, управляемую средствами Hadoop.

В январе 2008 года Hadoop становится проектом верхнего уровня системы проектов Apache Software Foundation. В апреле 2008 года Hadoop побил мировой рекорд производительности в стандартизованном бенчмарке сортировки данных — 1 Тбайт был обработан за 209 сек. на кластере из 910 узлов^[6]. С этого момента начинается широкое применение Hadoop за пределами Yahoo — технологию для своих сайтов внедряют Last.fm, Facebook, The New York Times^[7], проводится адаптация для запуска Hadoop в облаках Amazon EC2.

В апреле 2010 года корпорация Google предоставила Apache Software Foundation права на использование технологии MapReduce, через три месяца после её защиты в патентном бюро США, тем самым избавив организацию от возможных патентных претензий^[8].

Начиная с 2010 года Hadoop неоднократно характеризуется как ключевая технология «больших данных», прогнозируется его широкое распространение для массово-параллельной обработки данных, и, наряду с Cloudera, появилась серия технологических стартапов, целиком ориентированных на коммерциализацию Hadoop^[9]^[10]. В течение 2010 года несколько подпроектов Hadoop — Avro, HBase, Hive, Pig, Zookeeper — последовательно стали проектами верхнего уровня фонда Apache, что послужило началом формирования экосистемы вокруг Hadoop➤. В марте 2011 года Hadoop удостоен ежегодной инновационной награды медиагруппы Guardian, на церемонии вручения технология была названа «швейцарским армейским ножом XXI века»^[11].

Реализация в вышедшем осенью 2013 года Hadoop 2.0 модуля YARN оценена как значительный скачок, выводящий Hadoop за рамки парадигмы MapReduce и ставящая технологию на уровень универсального решения для организации распределённой обработки данных^[12].

Hadoop Common

В Hadoop Common входят библиотеки управления файловыми системами, поддерживаемыми Hadoop и сценарии создания необходимой инфраструктуры и управления распределённой обработкой, для удобства выполнения которых создан специализированный упрощённый интерпретатор командной строки (FS shell, filesystem shell), запускаемый из оболочки операционной системы командой вида: hdfs dfs -command URI, где command — команда интерпретатора, а URI — список ресурсов с префиксами, указывающими тип поддерживаемой файловой системы, например hdfs://example.com/file1 или file:///tmp/local/file2. Бо́льшая часть команд интерпретатора реализована по аналогии с соответствующими командами Unix (таковы, например, cat, chmod, chown, chgrp, cp, du, ls, mkdir, mv, rm, tail, притом, поддержаны некоторые ключи аналогичных Unix-команд, например ключ рекурсивности -R для chmod, chown, chgrp), есть команды специфические для Hadoop (например, count подсчитывает количество каталогов, файлов и байтов по заданному пути, expunge очищает корзину, а setrep модифицирует коэффициент репликации для заданного ресурса).

HDFS

HDFS (Hadoop Distributed File System) — файловая система, предназначенная для хранения файлов больших размеров, поблочно распределённых между узлами вычислительного кластера. Все блоки в HDFS (кроме последнего блока файла) имеют одинаковый размер, и каждый блок может быть размещён на нескольких узлах, размер блока и коэффициент репликации (количество узлов, на которых должен быть размещён каждый блок) определяются в настройках на уровне файла. Благодаря репликации обеспечивается устойчивость распределённой системы к отказам отдельных узлов. Файлы в HDFS могут быть записаны лишь однажды (модификация не поддерживается), а запись в файл в одно время может вести только один процесс. Организация файлов в пространстве имён — традиционная иерархическая: есть корневой каталог, поддерживается вложение каталогов, в одном каталоге могут располагаться и файлы, и другие каталоги.

Развёртывание экземпляра HDFS предусматривает наличие центрального узла имён (англ. name node), хранящего метаданные файловой системы и метаинформацию о распределении блоков, и серии узлов данных (англ. data node), непосредственно хранящих блоки файлов. Узел имён отвечает за обработку операций уровня файлов и каталогов — открытие и закрытие файлов, манипуляция с каталогами, узлы данных непосредственно отрабатывают операции по записи и чтению данных. Узел имён и узлы данных снабжаются веб-серверами, отображающими текущий статус узлов и позволяющими просматривать содержимое файловой системы. Административные функции доступны из интерфейса командной строки.

HDFS является неотъемлемой частью проекта, однако, Hadoop поддерживает работу и с другими распределёнными файловыми системами без использования HDFS, поддержка Amazon S3 и CloudStore^?! реализована в основном дистрибутиве. С другой стороны, HDFS может использоваться не только для запуска MapReduce-заданий, но и как распределённая файловая система общего назначения, в частности, поверх неё реализована распределённая NoSQL-СУБД HBase, в её среде работает масштабируемая система машинного обучения Apache Mahout^?!.

YARN

YARN (англ. Yet Another Resource Negotiator — «ещё один ресурсный посредник») — модуль, появившийся с версией 2.0 (2013), отвечающий за управление ресурсами кластеров и планирование заданий. Если в предыдущих выпусках эта функция была интегрирована в модуль MapReduce, где была реализована единым компонентом (JobTracker), то в YARN функционирует логически самостоятельный демон — планировщик ресурсов (ResourceManager), абстрагирующий все вычислительные ресурсы кластера и управляющий их предоставлением приложениям распределённой обработки. Работать под управлением YARN могут как MapReduce-программы, так и любые другие распределённые приложения, поддерживающие соответствующие программные интерфейсы; YARN обеспечивает возможность параллельного выполнения нескольких различных задач в рамках кластера и их изоляцию (по принципам мультиарендности). Разработчику распределённого приложения необходимо реализовать специальный класс управления приложением (ApplicationMaster), который отвечает за координацию заданий в рамках тех ресурсов, которые предоставит планировщик ресурсов; планировщик ресурсов же отвечает за создание экземпляров класса управления приложением и взаимодействия с ним через соответствующий сетевой протокол.

YARN может быть рассмотрен как кластерная операционная система в том смысле, что ведает интерфейсом между аппаратными ресурсами кластера и широким классом приложений, использующих его мощности для выполнения вычислительной обработки^[13].

Hadoop MapReduce

Hadoop MapReduce — программный каркас для программирования распределённых вычислений в рамках парадигмы MapReduce. Разработчику приложения для Hadoop MapReduce необходимо реализовать базовый обработчик, который на каждом вычислительном узле кластера обеспечит преобразование исходных пар «ключ — значение» в промежуточный набор пар «ключ — значение» (класс, реализующий интерфейс Mapper, назван по функции высшего порядка Map), и обработчик, сводящий промежуточный набор пар в окончательный, сокращённый набор (свёртку, класс, реализующий интерфейс Reducer). Каркас передаёт на вход свёртки отсортированные выводы от базовых обработчиков, сведе́ние состоит из трёх фаз — shuffle (тасовка, выделение нужной секции вывода), sort (сортировка, группировка по ключам выводов от распределителей — досортировка, требующаяся в случае, когда разные атомарные обработчики возвращают наборы с одинаковыми ключами, при этом, правила сортировки на этой фазе могут быть заданы программно и использовать какие-либо особенности внутренней структуры ключей) и собственно reduce (усечение) — получения результирующего набора. Для некоторых видов обработки свёртка не требуется, и каркас возвращает в этом случае набор отсортированных пар, полученных базовыми обработчиками.

Hadoop MapReduce позволяет создавать задания как с базовыми обработчиками, так и со свёртками, написанными без использования Java: утилиты Hadoop streaming позволяют использовать в качестве базовых обработчиков и свёрток любой исполняемый файл, работающий со стандартным вводом-выводом операционной системы (например, утилиты командной оболочки UNIX), есть также SWIG-совместимый прикладной интерфейс программирования Hadoop pipes на C++. Также, в состав дистрибутивов Hadoop входят реализации различных конкретных базовых обработчиков и свёрток, наиболее типично используемых в распределённой обработке.

В первых версиях Hadoop MapReduce включал планировщик заданий (JobTracker), начиная с версии 2.0 эта функция перенесена в YARN➤, и начиная с этой версии модуль Hadoop MapReduce реализован поверх YARN. Программные интерфейсы по большей части сохранены, однако полной обратной совместимости нет (то есть для запуска программ, написанных для предыдущих версий API, для работы в YARN в общем случае требуется их модификация или рефакторинг, и лишь при некоторых ограничениях возможны варианты обратной двоичной совместимости^[14]).

Масштабируемость

Одной из основных целей Hadoop изначально было обеспечение горизонтальной масштабируемости кластера посредством добавления недорогих узлов (оборудования массового класса, англ. commodity hardware), без прибегания к мощным серверам и дорогим сетям хранения данных. Функционирующие кластеры размером в тысячи узлов подтверждают осуществимость и экономическую эффективность таких систем, так, по состоянию на 2011 год известно о крупных кластерах Hadoop в Yahoo (более 4 тыс. узлов с суммарной ёмкостью хранения 15 Пбайт каждый), Facebook (около 2 тыс. узлов на 21 Пбайт) и Ebay (700 узлов на 16 Пбайт)^[15]. Тем не менее, считается, что горизонтальная масштабируемость в Hadoop-системах ограничена, для Hadoop до версии 2.0 максимально возможно оценивалась в 4 тыс. узлов при использовании 10 MapReduce-заданий на узел^[16]. Во многом этому ограничению способствовала концентрация в модуле MapReduce функций контролю за жизненным циклом заданий, считается, что с выносом её в модуль YARN в Hadoop 2.0 и децентрализацией — распределением части функций по мониторингу на узлы обработки — горизонтальная масштабируемость повысилась.

Ещё одним ограничением Hadoop-систем является размер оперативной памяти на узле имён (NameNode), хранящем всё пространство имён кластера для распределения обработки, притом общее количество файлов, которое способен обрабатывать узел имён — 100 млн^[17]. Для преодоления этого ограничения ведутся работы по распределению узла имён, единого в текущей архитектуре на весь кластер, на несколько независимых узлов. Другим вариантом преодоления этого ограничения является использование распределённых СУБД поверх HDFS, таких как HBase, роль файлов и каталогов в которых с точки зрения приложения играют записи в одной большой таблице базы данных.

По состоянию на 2011 год типичный кластер строился из однопроцессорных многоядерных x86-64-узлов под управлением Linux с 3—12 дисковыми устройствами хранения, связанных сетью с пропускной способностью 1 Гбит/с. Существуют тенденции как к снижению вычислительной мощности узлов и использованию процессоров с низким энергопотреблением (ARM, Intel Atom)^[18], так и применения высокопроизводительных вычислительных узлов одновременно с сетевыми решениями с высокой пропускной способностью (InfiniBand в Oracle Big Data Appliance^[англ.], высокопроизводительная сеть хранения данных на Fibre Channel и Ethernet пропускной способностью 10 Гбит/с в шаблонных конфигурациях FlexPod для «больших данных»).

Масштабируемость Hadoop-систем в значительной степени зависит от характеристик обрабатываемых данных, прежде всего, их внутренней структуры и особенностей по извлечению из них необходимой информации, и сложности задачи по обработке, которые, в свою очередь, диктуют организацию циклов обработки, вычислительную интенсивность атомарных операций, и, в конечном счёте, уровень параллелизма и загруженность кластера. В руководстве Hadoop (первых версий, ранее 2.0) указывалось, что приемлемым уровнем параллелизма является использование 10—100 экземпляров базовых обработчиков на узел кластера, а для задач, не требующих значительных затрат процессорного времени — до 300; для свёрток считалось оптимальным использование их по количеству узлов, умноженному на коэффициент из диапазона от 0,95 до 1,75 и константу mapred.tasktracker.reduce.tasks.maximum. С бо́льшим значением коэффициента наиболее быстрые узлы, закончив первый раунд сведения, раньше получат вторую порцию промежуточных пар для обработки, таким образом, увеличение коэффициента избыточно загружает кластер, но при этом обеспечивает более эффективную балансировку нагрузки. В YARN вместо этого используются конфигурационные константы, определяющие значения доступной оперативной памяти и виртуальных процессорных ядер, доступных для планировщика ресурсов^[19], на основании которых и определяется и определяется уровень параллелизма.

Экосистема

Коммерциализация

На фоне популяризации Hadoop в 2008 году и сообщениях о построении Hadoop-кластеров в Yahoo и Facebook, в октябре 2008 года был создана компания Cloudera во главе с Майклом Ольсоном, бывшим генеральным директором Sleepycat (фирмы-создателя Berkeley DB), целиком нацеленная на коммерциализацию Hadoop-технологий. В сентябре 2009 года в Cloudera из Yahoo перешёл основной разработчик Hadoop Дуг Каттинг, и благодаря такому переходу комментаторы охарактеризовали Cloudera как «нового знаменосца Hadoop», несмотря на то, что основная часть проекта была создана всё-таки сотрудниками Facebook и Yahoo^[20]. В 2009 году основана компания MapR^[англ.], поставившая целью создать высокопроизводительный вариант дистрибутива Hadoop, и поставлять его как собственническое программное обеспечение. В апреле 2009 года Amazon запустил облачный сервис Elastic MapReduce, предоставляющий подписчикам возможность создавать кластеры Hadoop и выполнять на них задания с повременной оплатой. Позднее, в качестве альтернативы, подписчики Amazon Elastic MapReduce получили выбор между классическим дистрибутивом от Apache и дистрибутивами от MapR.

В 2011 году Yahoo выделила подразделение, занимавшееся разработкой и использованием Hadoop, в самостоятельную компанию — Hortonworks^[англ.], вскоре новой компании удалось заключить соглашение с Microsoft о совместной разработке дистрибутива Hadoop для Windows Azure и Windows Server^[21]. В том же году со становлением представлений о Hadoop как одной из базовых технологий «больших данных» фактически все крупные производители технологического программного обеспечения для организаций в том или ином виде включили Hadoop-технологии в стратегии и продуктовые линейки. Так, Oracle выпустила аппаратно-программный комплекс Big Data appliance^[англ.] (заранее собранный в телекоммуникационном шкафе и предконфигурированный Hadoop-кластер с дистрибутивом от Cloudera)^[22], IBM на основе дистрибутива Apache создала продукт BigInsights^[23], EMC лицензировала у MapR их высокопроизводительный Hadoop для интеграции в продукты незадолго до этого поглощённой Greenplum^[24] (позднее это бизнес-подразделение было выделено в самостоятельную компанию Pivotal^[англ.], и она перешла на полностью самостоятельный дистрибутив Hadoop на базе кода Apache^[25]), Teradata заключила соглашение с Hortonworks по интеграции Hadoop в аппаратно-программный комплекс массово-параллельной обработки Aster MapReduce appliance^[26]. В 2013 году собственный дистрибутив Hadoop создала Intel^[27].

Объём рынка программного обеспечения и услуг вокруг экосистемы Hadoop на 2012 год оценён в размере $540 млн с прогнозом роста к 2017 году до $1,6 млрд, лидеры рынка — калифорнийские стартапы Cloudera, MapR и Hortonworks^[28]. Кроме них отмечаются также компании Hadapt^[англ.], Datameer^[англ.], Karmasphere и Platfora, как строящие целиком свой бизнес на создании продуктов для обеспечения Hadoop-систем аналитическими возможностями^[29].

Критика

Примечания

↑ https://archive.apache.org/dist/hadoop/common/
↑ Вэнс, 2009, It controls the top search engines and determines the ads displayed next to the results. It decides what people see on Yahoo’s homepage and finds long-lost friends on Facebook.
↑ Dean, Jeffrey and Ghemawat, Sanjay. MapReduce: Simplified Data Processing on Large Clusters (англ.) // OSDI ’04: 6th Symposium on Operating Systems Design and Implementation. — USENIX, 2004. — P. 137-149. — doi:10.1145/1327452.1327492.
↑ ¹ ² Cutting, Doug. Hadoop: a brief history (англ.). Yahoo! (24 марта 2008). Дата обращения: 25 декабря 2011. Архивировано 11 марта 2012 года.
↑ Вэнс, 2009, Doug Cutting with the stuffed elephant that inspired the name Hadoop.
↑ Уайт, 2011, In April 2008, Hadoop broke a world record to become the fastest systems to sort a terabyte of data. Running on a 910-node cluster, Hadoop sorted one terabyte in 209 seconds, pp. 10-11.
↑ Уайт, 2011, by this time, Hadoop was being used by many other companies, besides Yahoo!, such as Last.fm, Facebook, and the New York Times, p. 10.
↑ Metz, Cade Google blesses Hadoop with MapReduce patent license (англ.). The Register (27 апреля 2010). Дата обращения: 30 декабря 2011. Архивировано 11 марта 2012 года.
↑ Мец, 2011, But it was very obvious, very quickly that being able to manage ‘Big Data’ is the biggest problem that CIOs have to solve … It was clear that Hadoop was the way they wanted to solve the problem”.
↑ Моррисон, Алан и др. Большие Данные: как извлечь из них информацию (рус.). Технологический прогноз. Ежеквартальный журнал, российское издание, 2010 выпуск 3. PricewaterhouseCoopers (17 декабря 2010). Дата обращения: 12 ноября 2011. Архивировано 11 марта 2012 года.
↑ Winckler, Marie. Apache Hadoop takes top prize at Media Guardian Innovation Awards (англ.). The Guardian (25 марта 2011). Дата обращения: 25 декабря 2011. Архивировано 11 марта 2012 года.
↑ Serdar Yegulalp. Hadoop 2: Big data's big leap forward. Hadoop 2.0 goes beyond MapReduce to create a general framework for distributed data-processing applications (англ.). Infoworld. IDG (16 октября 2013). Дата обращения: 1 января 2014.
↑ Toby Wolpe. Hortonworks founder: YARN is Hadoop's datacentre OS. As lead on MapReduce and part of Hadoop from its inception, Arun Murthy offers his take on YARN’s importance to the open-source project and enterprise data architecture (англ.). ZDNet (31 октября 2013). — ««It was the system to take the application from the user and run it. So it’s sort of the operating system»». Дата обращения: 1 января 2014.
↑ Apache Hadoop MapReduce — Migrating from Apache Hadoop 1.x to Apache Hadoop 2.x (неопр.). Apache Software Foundation (7 октября 2013). Дата обращения: 1 января 2014.
↑ Швачко, 2011, Yahoo reportedly ran numerous clusters having 4000+ nodes with four 1 TB drives per node, 15 PB of total storage capacity, 70 million files, and 80 million blocks using 50 GB NameNode heap. Facebook’s 2000-node warehouse cluster is provisioned for 21 PB of total storage capacity. Extrapolating the announced growth rate, its namespace should have close to 200 million objects (files + blocks) by now, but an immense 108 GB heap should allow room for close to 400 million objects. eBay runs a 700-node cluster. Each node has 24 TB of local disk storage, 72 GB of RAM, and a 12-core CPU. Total cluster size is 16 PB.
↑ Швачко, 2011, The Apache Hadoop MapReduce framework has reportedly reached its scalability limit at 40,000 clients simultaneously running on the cluster. This corresponds to a 4,000-node cluster with 10 MapReduce clients—slots, in Hadoop terminology — per node.
↑ Швачко, 2011, In order to process metadata requests from thousands of clients efficiently, NameNode keeps the entire namespace in memory. The amount of RAM allocated for the NameNode limits the size of the cluster <…> The current namespace limit is 100 million files.
↑ Dereck Harris. Big data on micro servers? You bet. Online dating service eHarmony is using SeaMicro’s specialized Intel Atom-powered servers as the foundation of its Hadoop infrastructure, demonstrating that big data applications such as Hadoop might be a killer app for low-powered micro servers (англ.). Gigaom (13 июня 2011). Дата обращения: 4 января 2014.
↑ yarn.nodemanager.resource.memory-mb и yarn.nodemanager.resource.cpu-vcores соответственно в файле конфиграции YARN
↑ Handy, Alex. Hadoop creator goes to Cloudera (англ.). SD Times (9 октября 2009). Дата обращения: 25 декабря 2011. Архивировано 11 марта 2012 года.
↑ Mary Jo Foley. Hortonworks delivers beta of Hadoop big-data platform for Windows. A fully open-source version of Hortonworks Data Platform for Windows, built with contributions from Microsoft, is available to beta testers. (англ.). ZDNet (17 февраля 2013). — «In 2011, Microsoft announced it was partnering with Hortonworks to create both a Windows Azure and Windows Server implementations of the Hadoop big data framework». Дата обращения: 2 января 2014.
↑ Timothy Prickett Morgan. Oracle rolls its own NoSQL and Hadoop. A supremely confident Ellison mounts the Big Data elephant (англ.). The Register (3 октября 2011). — «There’s no shortage of ego at Oracle, as evidenced by the effusion of confidence behind the company’s OpenWorld announcement of the not-so-humbly named Big Data Appliance.» Дата обращения: 2 января 2014.
↑ Doug Henschen. IBM Beats Oracle, Microsoft With Big Data Leap. Hadoop-based InfoSphere BigInsights platform goes live on SmartCloud infrastructure, beating Oracle and Microsoft to market (англ.). Information Week (2011-14-10). Дата обращения: 2 января 2014.
↑ Dereck Harris. Startup MapR Underpins EMC’s Hadoop Effort. Calif.-based storage startup MapR, which provides a high-performance alternative for the Hadoop Distributed File System, will serve as the storage component for EMC’s forthcoming Greenplum HD Enterprise Edition Hadoop distribution (англ.). Gigaom (25 мая 2011). Дата обращения: 2 января 2014.
↑ Timoty Pricket Morgan. Pivotal ships eponymous Hadoop distro to the masses. An inquisitive HAWQ rides the big data elephant (англ.). The Register (17 июля 2013). — «In the wake of its acquiring the Greenplum parallel database and related data warehouse appliance business a few years back, EMC hooked up with MapR Technologies to rebrand its own rendition of Hadoop to make its Greenplum HD variant. But with the Pivotal HD 1.0 distribution, the EMC and VMware spinoff has gone back to the open source Apache Hadoop». Дата обращения: 2 января 2014.
↑ Jaikumar Vijayan. Teradata partners with Hortonworks on Hadoop. Two companies join to develop products and implementation services (англ.). Computerworld (21 февраля 2012). Дата обращения: 2 января 2014.
↑ Stacey Higginbotham. Cloudera who? Intel announces its own Hadoop distribution. Intel’s getting into the open source software business with it’s own version of Hadoop. It joins a host of startups as well as EMC Greenplum in building a distribution for big data (англ.). Gigaom (26 февраля 2013). Дата обращения: 3 января 2014.
↑ John Furrier. Hadoop Pure-Play Business Models Explained (англ.). Forbes (19 декабря 2013). Дата обращения: 2 января 2014.
↑ Doug Henschen. 13 Big Data Vendors To Watch In 2013. From Amazon to Splunk, here’s a look at the big data innovators that are now pushing Hadoop, NoSQL and big data analytics to the next level (неопр.). Information Week (10 декабря 2012). — «Hadapt Brings Relational Analytics To Hadoop <…> Hadapt is in good company, with Cloudera (Impala), Datameer, Karmasphere, Platfora and others all working on various ways to meet the same analytics-on-Hadoop challenge». Дата обращения: 2 января 2014.

Ссылки

hadoop.apache.org — официальный сайт Hadoop

Литература

Vance, Ashlee (2009-03-17). "Hadoop, a Free Software Program, Finds Uses Beyond Search" (HTML) (англ.). New York: The New York Times. pp. B3. Дата обращения: 25 декабря 2011.
Prickett Morgan, Timothy Cloudera floats commercial Hadoop distro (англ.). The Register (16 марта 2009). Дата обращения: 25 декабря 2011. Архивировано 11 марта 2012 года.
Metz, Cade. How Yahoo Spawned Hadoop, the Future of Big Data (англ.). Wired (18 октября 2011). Дата обращения: 25 декабря 2011. Архивировано 11 марта 2012 года.
Уайт, Том. Hadoop. Подробное руководство = Hadoop: The Definitive Guide. — 2-е. — СПб.: Питер, 2013. — 672 p. — 1000 экз. — ISBN 978-5-496-00662-0.
Chansler, Robert; Kuang, Hairong; Radia, Sanjay; Shvachko, Konstantin; Srinivas, Suresh. The Hadoop Distributed File System // Архитектура приложений с открытым исходным кодом = The Architecture of Open Source Applications / Amy Brown. — lulu.com, March 15, 2012. — 432 p. — ISBN 1257638017. (перевод)
Shvachko, Konstantin. Apache Hadoop. The Scalability Update (англ.) // ;login:^[англ.]. — 2011. — Vol. 36, no. 3. — P. 7—13. — ISSN 1044-6397.

[_6a6b391f45412a7d-1] ttps://archive.apache.org/dist/hadoop/common/

[_a27d67d55a679a1c-2] Вэнс, 2009, It controls the top search engines and determines the ads displayed next to the results. It decides what people see on Yahoo’s homepage and finds long-lost friends on Facebook.

[3] Dean, Jeffrey and Ghemawat, Sanjay. MapReduce: Simplified Data Processing on Large Clusters (англ.) // OSDI ’04: 6th Symposium on Operating Systems Design and Implementation. — USENIX, 2004. — P. 137-149. — doi:10.1145/1327452.1327492.

[cutting-4] ¹ ² Cutting, Doug. Hadoop: a brief history (англ.). Yahoo! (24 марта 2008). Дата обращения: 25 декабря 2011. Архивировано 11 марта 2012 года.

[_b4883ef1cb4dc30d-5] Вэнс, 2009, Doug Cutting with the stuffed elephant that inspired the name Hadoop.

[_1047c315f5430eb0-6] Уайт, 2011, In April 2008, Hadoop broke a world record to become the fastest systems to sort a terabyte of data. Running on a 910-node cluster, Hadoop sorted one terabyte in 209 seconds, pp. 10-11.

[_f42edeebbb1b22ad-7] Уайт, 2011, by this time, Hadoop was being used by many other companies, besides Yahoo!, such as Last.fm, Facebook, and the New York Times, p. 10.

[8] Metz, Cade Google blesses Hadoop with MapReduce patent license (англ.). The Register (27 апреля 2010). Дата обращения: 30 декабря 2011. Архивировано 11 марта 2012 года.

[_d003caa2754e8e44-9] Мец, 2011, But it was very obvious, very quickly that being able to manage ‘Big Data’ is the biggest problem that CIOs have to solve … It was clear that Hadoop was the way they wanted to solve the problem”.

[10] Моррисон, Алан и др. Большие Данные: как извлечь из них информацию (рус.). Технологический прогноз. Ежеквартальный журнал, российское издание, 2010 выпуск 3. PricewaterhouseCoopers (17 декабря 2010). Дата обращения: 12 ноября 2011. Архивировано 11 марта 2012 года.

[11] Winckler, Marie. Apache Hadoop takes top prize at Media Guardian Innovation Awards (англ.). The Guardian (25 марта 2011). Дата обращения: 25 декабря 2011. Архивировано 11 марта 2012 года.

[12] Serdar Yegulalp. Hadoop 2: Big data's big leap forward. Hadoop 2.0 goes beyond MapReduce to create a general framework for distributed data-processing applications (англ.). Infoworld. IDG (16 октября 2013). Дата обращения: 1 января 2014.

[murthy-on-yarn-13] Toby Wolpe. Hortonworks founder: YARN is Hadoop's datacentre OS. As lead on MapReduce and part of Hadoop from its inception, Arun Murthy offers his take on YARN’s importance to the open-source project and enterprise data architecture (англ.). ZDNet (31 октября 2013). — ««It was the system to take the application from the user and run it. So it’s sort of the operating system»». Дата обращения: 1 января 2014.

[14] Apache Hadoop MapReduce — Migrating from Apache Hadoop 1.x to Apache Hadoop 2.x (неопр.). Apache Software Foundation (7 октября 2013). Дата обращения: 1 января 2014.

[_7c78b0b2feba1613-15] Швачко, 2011, Yahoo reportedly ran numerous clusters having 4000+ nodes with four 1 TB drives per node, 15 PB of total storage capacity, 70 million files, and 80 million blocks using 50 GB NameNode heap. Facebook’s 2000-node warehouse cluster is provisioned for 21 PB of total storage capacity. Extrapolating the announced growth rate, its namespace should have close to 200 million objects (files + blocks) by now, but an immense 108 GB heap should allow room for close to 400 million objects. eBay runs a 700-node cluster. Each node has 24 TB of local disk storage, 72 GB of RAM, and a 12-core CPU. Total cluster size is 16 PB.

[_2d7bff5969162c5c-16] Швачко, 2011, The Apache Hadoop MapReduce framework has reportedly reached its scalability limit at 40,000 clients simultaneously running on the cluster. This corresponds to a 4,000-node cluster with 10 MapReduce clients—slots, in Hadoop terminology — per node.

[_f97cae14c3fcb3bd-17] Швачко, 2011, In order to process metadata requests from thousands of clients efficiently, NameNode keeps the entire namespace in memory. The amount of RAM allocated for the NameNode limits the size of the cluster <…> The current namespace limit is 100 million files.

[18] Dereck Harris. Big data on micro servers? You bet. Online dating service eHarmony is using SeaMicro’s specialized Intel Atom-powered servers as the foundation of its Hadoop infrastructure, demonstrating that big data applications such as Hadoop might be a killer app for low-powered micro servers (англ.). Gigaom (13 июня 2011). Дата обращения: 4 января 2014.

[19] yarn.nodemanager.resource.memory-mb и yarn.nodemanager.resource.cpu-vcores соответственно в файле конфиграции YARN

[20] Handy, Alex. Hadoop creator goes to Cloudera (англ.). SD Times (9 октября 2009). Дата обращения: 25 декабря 2011. Архивировано 11 марта 2012 года.

[21] Mary Jo Foley. Hortonworks delivers beta of Hadoop big-data platform for Windows. A fully open-source version of Hortonworks Data Platform for Windows, built with contributions from Microsoft, is available to beta testers. (англ.). ZDNet (17 февраля 2013). — «In 2011, Microsoft announced it was partnering with Hortonworks to create both a Windows Azure and Windows Server implementations of the Hadoop big data framework». Дата обращения: 2 января 2014.

[22] Timothy Prickett Morgan. Oracle rolls its own NoSQL and Hadoop. A supremely confident Ellison mounts the Big Data elephant (англ.). The Register (3 октября 2011). — «There’s no shortage of ego at Oracle, as evidenced by the effusion of confidence behind the company’s OpenWorld announcement of the not-so-humbly named Big Data Appliance.» Дата обращения: 2 января 2014.

[23] Doug Henschen. IBM Beats Oracle, Microsoft With Big Data Leap. Hadoop-based InfoSphere BigInsights platform goes live on SmartCloud infrastructure, beating Oracle and Microsoft to market (англ.). Information Week (2011-14-10). Дата обращения: 2 января 2014.

[24] Dereck Harris. Startup MapR Underpins EMC’s Hadoop Effort. Calif.-based storage startup MapR, which provides a high-performance alternative for the Hadoop Distributed File System, will serve as the storage component for EMC’s forthcoming Greenplum HD Enterprise Edition Hadoop distribution (англ.). Gigaom (25 мая 2011). Дата обращения: 2 января 2014.

[25] Timoty Pricket Morgan. Pivotal ships eponymous Hadoop distro to the masses. An inquisitive HAWQ rides the big data elephant (англ.). The Register (17 июля 2013). — «In the wake of its acquiring the Greenplum parallel database and related data warehouse appliance business a few years back, EMC hooked up with MapR Technologies to rebrand its own rendition of Hadoop to make its Greenplum HD variant. But with the Pivotal HD 1.0 distribution, the EMC and VMware spinoff has gone back to the open source Apache Hadoop». Дата обращения: 2 января 2014.

[26] Jaikumar Vijayan. Teradata partners with Hortonworks on Hadoop. Two companies join to develop products and implementation services (англ.). Computerworld (21 февраля 2012). Дата обращения: 2 января 2014.

[27] Stacey Higginbotham. Cloudera who? Intel announces its own Hadoop distribution. Intel’s getting into the open source software business with it’s own version of Hadoop. It joins a host of startups as well as EMC Greenplum in building a distribution for big data (англ.). Gigaom (26 февраля 2013). Дата обращения: 3 января 2014.

[28] John Furrier. Hadoop Pure-Play Business Models Explained (англ.). Forbes (19 декабря 2013). Дата обращения: 2 января 2014.

[29] Doug Henschen. 13 Big Data Vendors To Watch In 2013. From Amazon to Splunk, here’s a look at the big data innovators that are now pushing Hadoop, NoSQL and big data analytics to the next level (неопр.). Information Week (10 декабря 2012). — «Hadapt Brings Relational Analytics To Hadoop <…> Hadapt is in good company, with Cloudera (Impala), Datameer, Karmasphere, Platfora and others all working on various ways to meet the same analytics-on-Hadoop challenge». Дата обращения: 2 января 2014.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

Hadoop

Содержание

История

Hadoop Common

HDFS

YARN

Hadoop MapReduce

Масштабируемость

Экосистема

Коммерциализация

Критика

Примечания

Ссылки

Литература

Навигация

Hadoop

История

Hadoop Common

HDFS

YARN

Hadoop MapReduce

Масштабируемость

Экосистема

Коммерциализация

Критика

Примечания

Ссылки

Литература

Навигация

Поиск