Бъдещето на анализа на данни: Kubernetes и без сървър влизат в Enterprise Analytics

Anonim

Анализът на данните винаги е бил важен за компаниите. Независимо дали става въпрос за класическите електронни таблици на Excel, платформи Hadoop или клъстери, базирани на Spark, винаги е важно да направите анализа възможно най-бързо и надеждно. Но точно там вече има много проблеми.

Die schnelle Analyse großer Datenmengen war in Unternehmen schon immer eine Herausforderung.
Бързият анализ на големи количества данни винаги е бил предизвикателство за компаниите.
Снимка: solarseven - shutterstock.com

Когато няколко участници работят заедно на една платформа, винаги има проблеми, които могат да имат много различни причини. Това може да е недостатъчно познаване на учените за данни, лошо конфигуриран клъстер от инженери за данни, неправилни и точно определени случаи на използване на бизнеса и др. Важните задачи, които трябва да бъдат изпълнени, за да може да се анализира данните, винаги са идентични, Въпреки това често грешката е в детайлите. Проблемът тук обаче е, че в днешно време повече от един екип е блокиран в работата, защото клъстерът спира да реагира, защото всички ресурси се използват. Това е много труден проблем, особено в големи и разпределени екипи. Някои по-нови подходи могат да помогнат.

spoods.de

Spark - мейнстрийм за анализ на данни

Spark се утвърди наред с R и Python като един от основните езици за програмиране за анализ на данни през последните няколко години. Много проекти и срещи с отворен код, но също така много компании разчитат на Spark или предлагат свои собствени услуги около екосистемата. Езикът има много предимства и близост с Python и Java, което не беше маловажно за адаптацията. С Spark можете също така да внедрите много мащабируеми модели на машинно обучение, които често не са местни или не мащабират в други рамки. В допълнение, съвременните рамки за машинно обучение или дълбоко обучение могат да се изпълняват на Spark, например TensorFlow.

Свобода и гъвкавост

Ако все още харесвате или трябва да съхранявате данните си в собствените си четири стени и не разчитате на публичния облак, често имате избор в собствения си център за данни как да стартирате много нови и по-стари приложения. Често срещан избор е да проектирате приложенията в микросервизи и след това да ги оперирате в контейнери.

Einsatz von Container-Technologie
Използване на контейнерната технология
Снимка: Crisp Research

Оркестрацията и управлението на контейнери все повече са в ръцете на Kubernetes. Проектът с отворен код е един от най-горещите проекти от години. Следователно, сега има голяма екосистема около Kubernetes, а също и много доставчици на услуги, които помагат в изграждането и експлоатацията - също на местно ниво в Германия. Следователно идеята е сравнително очевидна, че ако вече стартирате един или повече клъстери Kubernetes, то това също използва съответно за анализ на данни с помощта на Spark. Предимствата са очевидни:

  • унифицирана инфраструктурна администрация

  • Автоматично мащабиране

  • По-добро използване на ресурсите

  • По-добра изолация на отделните анализи на данни

  • Записване, наблюдение, управление на квоти, контрол на достъпа и т.н.

Следователно Kubernetes е полезно допълнение към YARN и Mesos като друго решение за управление на клъстери. Проектът с отворен код Apache Spark на Kubernetes е интегрирал Kubernetes като мениджър на клъстери, което дава възможност да стартирате Spark Jobs в клъстер Kubernetes. Друг проект (apache-spark-on-k8s / kubernetes-HDFS) в момента интегрира HDFS, за да направи достъп до данните глобално независим от заданието. Едно от важните препятствия, местността на данните, вече е предприето.

Kernelemente von Spark und die Ingetration von Kubernetes als neuer Cluster Manager
Основните елементи на Spark и участието на Kubernetes като нов мениджър на клъстери
Снимка: Crisp Research 2017