Hadoop своими руками: на свой страх и риск

Какие угрозы для безопасности и производительности подстерегают при подходе DIY Hadoop?

По сообщению BBC News, в 2015 году Интернетом пользовались 3,2 млрд. человек, то есть почти половина (45%) из семи миллиардов жителей Земли. Все они порождают колоссальные объемы данных (в виде посещений web-сайтов, переходов по страницам, лайков, твитов, фотографий, онлайновых транзакций и публикаций в блогах). А когда к «Интернету людей» добавится грядущий «Интернет вещей» (IoT), нас ждет взрывной рост объемов данных. Согласно прогнозу, Gartner, в 2016 году количество подключенных к Интернету устройств и вещей, от электрических лампочек и детских подгузников до автомобилей, вдвое превысит количество пользователей-людей и составит 6,4 миллиарда — на 30% больше, чем в 2015 году. А к 2020 году их будет уже более 20 миллиардов.

Компании всех размеров практически во всех отраслях пытаются совладать со стремительно растущими объемами данных. Чтобы справиться с проблемой, многие организации развертывают решения на базе Apache Hadoop — популярной программной среды с открытым исходным кодом для хранения и обработки огромных наборов данных. Однако приобретение, развертывание, конфигурирование и оптимизация кластера Hadoop собственными силами (do-it-yourself, DIY) для использования вместе с существующей инфраструктурой может оказаться значительно более сложной задачей, чем полагают многие организации - даже если у вас есть специалисты, способные взяться за такую работу.

Руководители компаний и ИТ-служб прекрасно понимают, что управление большими данными — это не только вопрос извлечения и хранения данных. Требуется также решать множество разнообразных проблем с конфиденциальностью и безопасностью. Недочеты в информационной безопасности могут не только нанести ущерб репутации (что в последние годы испытали на себе такие компании, как Sony и Target). Организации, не сумевшие защитить жизненный цикл своих больших данных, могут столкнуться и с санкциями со стороны регулирующих органов. В начале прошлого года Федеральная торговая комиссия США (FTC) опубликовала отчет об Интернете вещей, содержащий руководящие принципы защиты личной информации потребителей и обеспечения безопасности. В документе Careful Connections: Building Security in the Internet of Things («Тщательно продуманные соединения: обеспечение безопасности в Интернете вещей»), Федеральная торговая комиссия настоятельно рекомендует компаниям применять подход на базе рисков и следовать лучшим методикам, разработанным экспертами по вопросам безопасности, таким как использование сильного шифрования и надлежащей аутентификации.

Не призывая в своем отчете разрабатывать новые законопроекты (учитывая скорость внедрения инноваций в пространстве Интернета вещей), FTC отмечает, что и бизнес, и правоприменительные органы заинтересованы в том, чтобы IoT-решения соответствовали ожиданиям потребителей в отношении безопасности. Компаниям, обрабатывающим IoT-данные, отчет рекомендует применять ряд проверенных временем лучших методик, в том числе:

Встраивать безопасность в продукты и сервисы с самого начала проектирования, а не включать ее впоследствии.
Придерживаться принципа эшелонированной защиты, предусматривающего меры безопасности на нескольких уровнях.

Руководителей компаний и ИТ-служб, которые решат следовать рекомендациям FTC в отношении безопасности больших данных, с большой вероятностью ожидают трудности, в особенности при попытке интегрировать Hadoop с существующей ИТ-инфраструктурой. Главная проблема Hadoop заключается в том, что этот продукт не разрабатывался изначально с учетом требований к безопасности. Он создавался исключительно для решения задач хранения и быстрой обработки больших объемов распределенных данных, что приводит к следующим угрозам:

Hadoop своими руками (DIY). Кластеру Hadoop, развернутому собственными силами, свойственны риски, в особенности потому, что часто он разрабатывается без должных средств обеспечения безопасности, небольшой группой специалистов, в лабораторных условиях отдельно от производственной среды. В процессе развития кластера от небольшого проекта до корпоративной среды Hadoop каждый период роста — развертывание пакетов исправлений, настройка, контроль версий модулей Hadoop, библиотеки ОС, утилиты, управление пользователями и т.д. — становится все более сложным и трудоемким.
Неавторизованный доступ. В основе Hadoop лежит принцип «демократизации данных» (все данные доступны для всех пользователей кластера), что приводит к сложностям соблюдения ряда нормативных требований, таких как закон о преемственности и подотчетности медицинского страхования (Health Insurance Portability and Accountability Act, HIPAA) и стандарт безопасности данных индустрии платежных карт (Payment Card Industry Data Security Standard, PCI DSS). Это связано с отсутствием средств управления доступом к данным, в том числе средств управления паролями, авторизации для доступа к файлам и базам данных и проведения аудита.
Происхождение данных. При использовании среды Hadoop с открытым исходным кодом сложно определить происхождение конкретного набора данных и источники данных для него. В результате критически важные бизнес-решения могут основываться на анализе подозрительных или сомнительных данных.

Вдвое быстрее, чем самодельная среда DIY Hadoop

В своем докладе на конференции Oracle OpenWorld 2015 гендиректор Intel Брайан Кржанич рассказал о совместной работе Intel и Oracle по созданию высокопроизводительных центров обработки данных с использованием Oracle Big Data Appliance — готового интегрированного и оптимизированного комплекса на базе процессоров семейства Intel Xeon. В частности, он сообщил о недавнем тестировании производительности, проведенном специалистами Intel. По результатам этого тестирования решение Oracle Big Data Appliance с минимальной настройкой продемонстрировало вдвое большую производительность, чем сопоставимый кластер, развернутый собственными силами на сопоставимом оборудовании.

Этот комплекс не только имеет более высокую производительность, но и разработан с учетом корпоративных требований к безопасности. Oracle Big Data Appliance автоматизирует действия, необходимые для развертывания защищенного кластера, — включая такие сложные задачи, как настройка аутентификации, авторизация доступа к данным, шифрование и аудит. Это существенно сокращает затраты времени на настройку и сопровождение защищенной инфраструктуры.

Самостоятельное (do-it-yourself, DYI) развертывание кластеров Apache Hadoop привлекает многих руководителей компаний и ИТ-служб кажущейся экономией затрат за счет использования массового оборудования и бесплатного программного обеспечения. Однако, как отмечено выше, несмотря на первоначальную экономию кластер Hadoop, созданный собственными силами, не всегда является оптимальным вариантом для организаций, которым нужно корпоративное решение для работы с большими данными, - с точки зрения как безопасности, так и производительности.

Автор: Трой Китч

Блог Oracle в России и СНГ