Namai Verslas Duomenų ežerai, paaiškinta

Duomenų ežerai, paaiškinta

Anonim

„Big Data“ revoliucija iš naujo apibrėžė įmonių darbą; duomenys pagrindžia viską. Turėdami ne tik tokius atvirojo kodo įrankius, kaip „Apache Hadoop“ ir „Spark“, buvo galima didžiulius duomenų kiekius lengviau rinkti, apdoroti ir saugoti realiu laiku, bet ir verslo žvalgybos (BI) bei duomenų vizualizacijos įrankiai padėjo mums įbrėžti analizės paviršių. ir šių duomenų pavertimą pagrindiniais verslo sprendimais.

Nepaisant to, kiek pakito „Big Data“ ir BI technologijos, mes vis dar susiduriame su tokiais dideliais kiekiais nuolat kaupiamų duomenų, kad ieškant reikiamų analizuoti taškų vis tiek atrodo, kad nardytume adatomis nesibaigiantiame šieno taške. Sprendimas? Pertvarkykite šienapjūtę.

Įveskite duomenų ežerus, naujo tipo debesimis pagrįstą įmonės architektūrą, kuri struktūrizuoja duomenis labiau keičiamu mastu, kad būtų lengviau eksperimentuoti; daro jį atviresnį tyrimui ir manipuliavimui, o ne užrakintu griežtose schemose ir silosuose. Nasry Angel, „Forrester Research“ įmonių architektūros tyrinėtojas, paaiškino, kodėl įmonės taiko duomenų ežerų architektūrą.

„Tai skamba klišiškai, bet kai galvoji apie efektyvią šiuolaikinę duomenų aplinką, ji yra daug eksperimentingesnė“, - sakė Angelas. "Jūs turite mokėti greitai mokytis ir greitai žlugti. Anksčiau duomenų tvarkymas, ypač sandėlyje, buvo susijęs su kokybe, iki dešimtainio taško; įsitikinkite, kad viskas buvo visiškai teisinga ir teisinga. Tai vadinama vieno Tada sukurkite tobulą pikselių ataskaitą ir išpūskite ją 5000 vartotojų.

"Šiais laikais tai yra labiau mokslinis procesas. Jūs einate su hipoteze apie duomenis, kuriuos norite patikrinti, ir norite, kad galėtumėte žaisti su duomenimis, maišyti ir suderinti, išbandyti įvairius dalykus prieš išeidami ir ką nors pagamindami."

Kas yra duomenų ežere?

Duomenų ežeras yra duomenų saugykla. Nors Angelas, skirtingai nei duomenų saugykla ar „duomenų kovas“, paaiškino, kad duomenų ežerai yra paskirstomi keliuose mazguose, o ne fiksuotoje, struktūrizuotoje duomenų saugyklos aplinkoje, remiantis schemomis (žr. Toliau pateiktą infografiką).

"Duomenų ežeras leidžia jums pritaikyti schemą, kai rašote duomenis, palyginti su duomenų saugykla, kurioje reikalaujama, kad jūs atliktumėte skaitymo schemą. Taigi, iš esmės duomenų saugykla reikalauja, kad jūs modeliuotumėte duomenis prieš suprasdami jų kontekstą, o tai „Iš tikrųjų nėra prasmės“, - sakė Angelas.

Šaltinis: „ JustOne Database, Inc.“ (norėdami pamatyti visą vaizdą, spustelėkite aukščiau esančią grafiką.)

"Paprastai sandėlyje IT specialistai sugalvoja, kokie, jų manymu, yra geriausi duomenų modeliai, o jie nėra galutiniai duomenų vartotojai. Galite greitai pamatyti, kaip tai kliudo produktyvumui ir verslo vertei", - pridūrė jis.. "Galų gale jūs ir verslo vartotojai turite būti tie, kurie priima sprendimus dėl duomenų struktūros. Duomenų ežere pirmiausia galite ištirti ir išsiaiškinti, kas ten yra, o tada sugalvoti schemą, kad geriausiai ją sutvarkytumėte."

Duomenų ežerai paprastai yra sukurti „Hadoop“, o „Hadoop“ paskirstymai, tokie kaip „Hortonworks“ ir „MapR“, siūlo duomenų ežerų architektūras. Taip pat įmonės gali kurti duomenų ežerus naudodamos „Infrastruktūra kaip paslauga“ (IaaS) debesis, įskaitant „Amazon Web Services“ (AWS) ir „Microsoft Azure“. „Amazon“ elastinis kompiuterinis debesis (EC2) palaiko duomenų ežerus, o „Microsoft“ turi specialią Azure Data Lake platformą, skirtą saugoti ir analizuoti duomenis realiuoju laiku. Angelas teigė, kad duomenų ežerai subręsta iki didžiosios duomenų erdvės, kur įmonės gali pradėti investuoti į juos pagrįstai pasitikėdamos.

"Po kelerių metų Hadoopas buvo labai įniršęs. Dabar mes einame link taško, kuriame Hadoop yra komercializuotas", - sakė Angelas. "Klausimas yra ne tai, ar„ Hadoop ", bet kada ir ką su ja darysite. Kokio tipo programas ketinate kurti ant„ Hadoop “viršaus, kai duomenis sugausite į bendrą vietą, pavyzdžiui, duomenų ežerą? Šiuo metu kalbama apie duomenų naudojimą kuriant programas, kad būtų patenkinti jūsų konkretūs verslo poreikiai “.

Pastatas ant duomenų rezervuaro

Labiausiai jaudinanti „Big Data“ dalis yra galimybė, kurią ji atrakins. Sukūrę duomenų ežerą, kuriame galėsite žaisti ir eksperimentuoti su skirtingais duomenų deriniais ir verslo rezultatais, galite pradėti dėti naujoviškas analizės metodikas.

Mašinų mokymosi (ML) algoritmai jau tampa debesų infrastruktūros dalimi, o tyrėjai nuolat tobulina gilaus mokymosi metodus ir neuroninius tinklus, kad mokytų mašinas ir duomenų sistemas atpažinti sudėtingus modelius. Nuspėjamoji analizė taip pat kaupiama vis daugiau duomenų įrankių ir įmonių platformų, naudojama visoms prasmėms - nuo numatomojo balų skaičiavimo ir automatizuoto segmentavimo ryšių su klientais valdymo (CRM) iki finansinės rinkos tendencijų nustatymo ir prevencinio mechaninių mašinų gedimų sugavimo.

Visa tai vyksta be duomenų saugyklos, kurią jūsų įmonė maitina ir keičia pagal savo poreikius. Angelas pasakojo apie kai kuriuos realaus pasaulio naudojimo atvejus, kai, jo duomenimis, duomenų ežerai keičia organizacijų funkciją.

"Aš dirbau su leidybine įmone, turinčia įvairių žurnalų - jie turi leidinius teisininkams, kitą buhalteriams, kitą konsultantams ir pan., Ir kiekviena publikacija turėjo savo duomenų saugyklą. Iš tikrųjų kiekviena publikacija turėjo savo siloso “, - paaiškino Angelas.

"Taigi, mes išgavome visus duomenis iš sandėlio ir įdėjome juos į duomenų ežerą. Duomenų ežeras leido juos pamatyti per silosą. Jie galėjo ištirti duomenis ir atlikti duomenų paiešką ir suprato, kad visose šiose skirtingose ​​publikacijose, kiekvieno žurnalo klientai domėjosi kibernetiniu saugumu. Kibernetinio saugumo skaitytojų auditorija buvo stipri visais šiais skirtingais vaidmenimis. Taigi, ką jie padarė? Jie savo kibernetinį saugumą pavertė savo metinės konferencijos tema."

Kitas pavyzdys, apie kurį kalbėjo Angelas, yra elektroninė komercija. Kitas klientas, internetinis meno mažmenininkas, permetė daugybę informacijos į duomenų ežerą ir panaudojo ją ne tik kaip saugyklą, bet ir kaip savotišką drobę verslo įžvalgoms kaupti. Mažmenininkas į ežerą atnešė sandorių duomenis (užsakymus, sąskaitas faktūras, mokėjimus ir tt), paspaudimų srauto duomenis (kiekvieno interneto svetainės lankytojo paspaudimų ir puslapių eiliškumą) ir duomenis iš mažmenininko duomenų saugyklos į ežerą ir panaudojo juos kartu kovodamas su pirkinių krepšeliu. atsisakymas ir atsivertimas.

„Norite pastatyti duomenų ežero viršuje ir naudoti jį formuodami sudėtingas verslo įžvalgas“, - sakė Angelas. „Meno mažmenininkas galėjo pažvelgti į kliento paspaudimų srauto duomenis ir suderinti paspaudimus su klientų profiliais, tada naudodamasis operacijų duomenimis išsiaiškino, ką klientas pirko praeityje, ir pasinaudojo tomis įžvalgomis vykdydamas labai konkrečias el. Pašto kampanijas. Taigi, jei klientas atsisakė jų krepšelis, mažmenininkas galėjo po dviejų valandų paspausti ir pasakyti: „Mes matėme, kaip jūs tikrinate šį„ Pikaso “; čia yra nuoroda, jei norite dar kartą pasižiūrėti.“ “

Duomenų ežerai yra visuotinai taikomi įvairiais verslo naudojimo atvejais. Tačiau vyriausiajam technikos pareigūnui (CTO) arba vyriausiajam informacijos saugumo pareigūnui (CISO), svarstančiam galimybę pereiti prie architektūros, Angelas pabrėžė, kad duomenų saugyklos dar nėra pasenusios, o ne visos. Daugeliui įmonių organizacijų, nesvarbu, ar naudojate debesies paslaugų teikėją, ar pasirinktinį „Hadoop“ paskirstymą, įmonėms vis tiek reikia abiejų.

Duomenų ežerai suteikia jums prieigą prie neprilygstamų įžvalgų, pašalindami tam tikros schemos duomenų atitikimo ribas, o jų nuosavybės išlaidos yra daug mažesnės, atsižvelgiant į pigų, lankstų debesų saugyklų, tokių kaip AWS, didinimą ir mažinimą, nors ir tik mokėti už faktiškai naudojamą apdorojimo galią. Duomenų saugyklos tvarkymas yra brangesnis, todėl IT specialistai gali pasirinkti daugiau ir daugiau duomenų. Bet tai nėra blogai, jei duomenys yra svarbiausi įmonės duomenys.

„Duomenų saugykla turi pranašumų dėl saugumo ir yra labai lengva duomenų valdymo kontrolės priemonė“, - sakė Angelas. "Taigi jūs vis tiek norite laikyti savo slapčiausią informaciją sandėlyje - būtiną misijai informaciją. Bet kai kyla naujų verslo galimybių ir atrandama paslėptų įžvalgų, jūs norite pasitelkti duomenų ežerą."

Duomenų ežerai, paaiškinta