Большие и маленькие компании ищут и находят новые способы сбора и использования больших данных.
Мировой рынок технологий и услуг Big Data неуклонно растет, и эта тенденция в 2016 году будет только усиливаться. Компания Oracle составила список десяти ключевых направлений развития технологий больших данных в будущем году.
- Методы работы пользователей и профессионалов-аналитиков будут сближаться. В то время как работа со сложными статистическими данными по-прежнему остается уделом профессионалов, использование больших данных для принятия решений в бизнесе будет становиться все более доступным. Но простые инструменты работы с Big Data позволят бизнес-аналитикам работать с различными наборами данных в корпоративных кластерах Hadoop, перекомпоновывать их и даже анализировать при помощи технологий машинного обучения. Это позволит упростить самостоятельную работу с большими данными и расширит поле для гипотез и экспериментов.
- Отроются экспериментальные лаборатории данных. С появлением новых гипотез, которые придется проверять, профессионалы в области обработки и анализа данных будут становиться все более востребованными. В частности, банки, страховщики, рейтинговые компании, работающие в области кредитования, обратятся к алгоритмам, позволяющим оценивать риски и эффективнее защищаться от мошенничества. Однако, сложность заключается в переходе от экспертных оценок к четким правилам. Компании будут стараться опередить конкурентов, переходя на новые алгоритмы, поэтому следует ожидать резкого увеличения исследовательской активности в таких областях, как риски невыполнения обязательств, политика андеррайтинга и выявление мошенничества.
- Кластеры собственной сборки уступят место готовым решениям. Компании, которые первыми стали использовать технологии Big Data, были вынуждены строить свои собственные кластеры. Однако создание, управление и поддержка систем, построенных на Hadoop и других быстроразвивающихся технологиях, требует больших финансовых и трудовых затрат. В 2016 году мы увидим более зрелые технологии, рассчитанные на более широкий круг пользователей благодаря облачным сервисам и готовым предконфигурированным и стандартизованным программно-аппаратным комплексам.
- Виртуализация данных станет реальностью. Компании аккумулируют разнообразные данные. Однако разработчики и аналитики не хотят знать, где именно находятся данные, и ограничивать себя только методами работы с ними, которые поддерживает хранилище данных. Использование одной технологии, такой как NoSQL, Hadoop, реляционной, пространственной или графической, постепенно уступает место виртуализации данных. Пользователи и программы будут подключаться к виртуализированным данным с помощью SQL, REST и языков описания сценариев — при этом можно получить производительность не ниже, чем у исходных методов, полную обратную совместимость и безопасность.
- Программирование потоков данных «откроет плотины». Первые волны использования Big Data были сосредоточены на обработке данных при помощи кода, написанного вручную. Новые методы работы с потоками данных смогут максимально эффективно использовать преимущества параллельных вычислений и дадут возможность подключать статистические функции и функции машинного обучения.
- Big Data ускорит развитие искусственного интеллекта. 2016 год станет годом, когда технологии искусственного интеллекта (ИИ), такие как машинное обучение (МО), обработка естественного языка (ОЕЯ) и др. станут стандартом для обработки данных. В то время как МО, ОЕЯ уже были доступны в виде библиотек API в Big Data, новое поколение методов будет включать инструменты, которые поддерживают приложения и аналитику в режиме реального времени.
- Понадобится знать точное происхождение данных. Инструменты отслеживания происхождения данных раньше были всего лишь полезной функцией, потому что большинство данных на информационных панелях поступало из проверенных хранилищ данных. Но в эпоху Big Data точное знание происхождения данных станет обязательным, так как пользователи имеют дело как с корпоративными данными, так и со сторонними. Некоторые данные могут быть очень высокого качества. Другие наборы данных могут быть не идеальными, но могут быть пригодными для прототипирования. Когда подобные исследования приведут к ценным результатам, понадобится понять происхождение данных, чтобы узнать, сколько работы потребуется, чтобы начать использовать их на уровне всего предприятия.
- Интернет вещей + облачные технологии = прорыв приложений Big Data. Расширение облачных сервисов позволит не только собирать данные с датчиков, но и использовать их в анализе и алгоритмах обработки Big Data. Высокая безопасность облачных сервисов IoT (Internet of Things) также поможет производителям создавать новые продукты, которые смогут безопасно оперировать с анализируемыми данными без вмешательства человека.
- Гибридные облака как результат региональных политик в области данных. Транснациональные корпорации, переходящие на облачные сервисы, окажутся в точке столкновения противоположных интересов. Глобальные компании будут сокращать расходы и соблюдать нормативные требования. Поэтому они станут все чаще размещать гибридные облачные сервисы в региональных центрах обработки данных, выступающих в роли локального представителя более крупного облачного сервиса.
- Новые системы безопасности на основе классификации данных обеспечат и доступность, и защищенность. Потребители чрезвычайно обеспокоены тем, что происходит с их личными данными — как именно эти данные собираются, распространяются и хранятся. Потребители боятся кражи личных даных. Как будут реагировать политики, ученые, журналисты? Мы будем наблюдать за этим в наступающем году. Компании будут больше использовать системы, позволяющие разбивать документы и данные на группы с предопределенной политикой доступа, маскирования и защиты.
Автор статьи: Пол Сондеррегер (Paul Sonderegger), Oracle Big Data Strategist