Video: Tadas Makčinskas: Duombazė. DIDELĖ ir judri (Lapkritis 2024)
Vienas dalykas, kuris mane sužavėjo vakar vykusiame „Bloomberg“ įmonių technologijų viršūnių susitikime, buvo susitelkimas į duomenų tvarkymą naujais būdais, kitaip tariant, su tuo, kas dažnai vadinama „dideliais duomenimis“.
Kai kuriuose pokalbiuose buvo kalbama apie didžiųjų duomenų vertę ir tai, ar tai tikrai buvo „trilijono dolerių galimybė“, o kituose kalbėta apie specifinius iššūkius, su kuriais susiduria atskiros organizacijos ir visa pramonė, plačiau diegdami šias naujas technologijas.
Gerardas Francisas, „Bloomberg LP Solutions“, „Global Solutions“ vadovas pasaulyje, dieną pradėjo siūlydamas, kad svarbiausias dalykas, kurį įmonės gali padaryti, yra „išnaudoti duomenų vertę juos naudojant“ ir sutelkti dėmesį į duomenų prieinamumą, kokybę ir srautą. duomenys organizacijos viduje. Vėlesnėse grupėse buvo daug kalbėta apie naujas priemones, skirtas tvarkyti su duomenimis, taip pat apie specifines duomenų saugojimo, tvarkymo ir suradimo žmonių tvarkymo problemas.
Bendrojoje įmonių tendencijų grupėje Dwightas Merrimanas, „MongoDB“ pirmininkas ir vienas iš įkūrėjų, teigė, kad programos trasos duomenų sluoksnis patiria „didžiausią trikdymą ir pokyčius, kuriuos mes matėme per 25 metus“. Jis sakė, kad įmonės jau 25 ir daugiau metų naudoja reliacines duomenų bazes, todėl tai yra seniausia kamino technologija. Tačiau dabar yra dalykų, susijusių su failų saugyklomis, tokiomis kaip „Hadoop“ ir naujos duomenų bazių technologijos, dažnai suskirstytos į „NoSQL“. Jis pabrėžė, kad „Big Data“ yra ne „didelis“, o duomenų forma, tipai ir judėjimas prie realiojo laiko duomenų tvarkymo.
„Google“ vyriausiasis informacijos pareigūnas Benjaminas Friedas sutiko, kad dauguma įmonių neturi „didelių duomenų“ problemų. Jis sakė, kad daugelis duomenų rinkinių, tokių kaip HR duomenys ir finansiniai duomenys, nėra tokie dideli. Svarbu lankstumas, kurio reikia norint tinkamai tvarkyti duomenis.
Kas yra „Big Data“?
Ši koncepcija - tas lankstumas yra toks pat svarbus, kaip ir duomenų dydis - vėliau tą dieną buvo pakartota kitoje skydelyje. Ten dalyviai sutarė, kad įmonės ilgą laiką nagrinėja sunkias duomenų programas, tačiau mastas pastaruoju metu pasikeitė. Pavyzdžiui, „Neustar“ vyresnysis viceprezidentas ir vyriausiasis technologijų direktorius Markas F. Bregmanas pažymėjo, kad kai kurios bendrovės dabar „kaupia viską“ tikėdamiesi, kad tai pasirodys vertinga.
„Didelis geriau apibūdinamas kaip sudėtingumas“, - sako Gary Bloomas, „MarkLogic“ generalinis direktorius ir prezidentas. Jis pažymėjo, kad daugelis vadinamųjų „didžiųjų duomenų“ programų apima daug įvairių rūšių duomenų, bet ne tokio dydžio, kokį paprastai girdite „didžiųjų duomenų“ programose.
Jis paminėjo oro eismo pavyzdį, kuriame sujungti orų, oro uostų duomenys, geoerdviniai duomenys, skrydžio duomenys, oro linijų užsakymo duomenys ir socialiniai duomenys. Jis pažymėjo, kad susidoroti su heterogeniškais duomenimis buvo tikrai sunku su tradicinėmis reliacinėmis duomenų bazėmis, pakartodamas ankstesnius „MongoDB“ „Merriman“ komentarus, kad tai buvo „pirmasis kartos pokytis duomenų bazėje per 25 metus“, nuo tada, kai mes persikėlėme iš mainframe į reliacinių duomenų bazių erą.
Jis pažymėjo, kad daugelis žmonių kalba apie socialinės žiniasklaidos duomenis, tačiau juos tikrai reikia derinti su kitais duomenimis, kad tikrai turėtumėte ką nors, kuo galite pasinaudoti. Šių duomenų derinimas yra „tikroji vertė“.
Žinoma, kai kurios programos apima daug informacijos, o Bregmanas sako, kad heterogeniškumas yra tik vienas veiksnys. Jis paminėjo DNS duomenis, kurie per dieną gali lengvai generuoti 8 TB informacijos, ir būtinybę tokius dalykus saugoti „Hadoop“. „Bregman“ ir kiti pažymėjo, kad, kai kalbama apie „didžiųjų raidžių rašymą kapitalu“, tikroji vertė nėra neapdorotuose duomenyse, o analitikoje, kai ji tampa kažkuo, ką galite naudoti. Kiti komisijos nariai sutarė.
„Streambase“ generalinis direktorius Markas Palmeris teigė, kad daugelyje programų buvo svarbu sujungti didelius duomenų kiekius su srautine analitika; ir kalbėjo apie papildomą vertę, kurią būtų galima sukurti derinant tradicinę ir realaus laiko analizę.
Tačiau jis sutiko, kad duomenų sudėtingumas yra problema. Jis citavo, kaip „Tibco“ (kuriam dabar priklauso „Streambase“) valdantis Vivekas Ranadivé iš dalies nusipirko krepšinio komandą, kad išsiaiškintų, kaip technologijos gali pagerinti gerbėjų patirtį. Jis vėl kalbėjo apie „skirtingų tipų duomenų sutvarkymą“, pradedant nuo „Twitter“ srauto, bet taip pat panaudojant ir kitų rūšių duomenis.
„Bloom“ pažymėjo, kad viskas priklauso nuo programos, sakydamas, kad „latencija yra akistatos akyje“. Kai kurios programos turi išanalizuoti laido duomenis, kol jis net nepatenka į duomenų bazę, o kitos ne.
„Bregman“ iškėlė problemą, kad vietoj to, kad sunku perkelti skaičiavimo išteklius, dabar perkelti duomenis yra daug sunkiau. Jis pažymėjo, kad daugeliui programų „užraktas“ yra duomenų vieta. Kai kaupiate duomenis viešame debesyje, juos perkelti yra labai sunku. Dėl to, pasak jo, daugelis organizacijų nori saugoti didžiulį duomenų kiekį savo vietose, tada galės persikelti pas skirtingus kompiuterio funkcijų teikėjus. Pasiskolindamas terminą iš „MarkLogic's Bloom“, jis papasakojo apie tai, kaip organizacijoms gali prireikti „į duomenis orientuoto duomenų centro“ kaip vietos, kur laikote didžiulius duomenų kiekius.
Ar „Big Data“ yra „trilijono dolerių galimybė“?
Porter Bibb iš „MediaTech Capital“ partnerių, Cloudera „Doug Cutting“, „Snaplogic“ Gaurav Dhillon ir „Bloomberg Link“ Jasonas KellyKita grupė diskutavo apie didelių duomenų teikiamas galimybes ir iššūkius, apmąstydama „MediaTech Capital Partners“ vadovaujančiojo partnerio Porterio Bibbo komentarą. Bibbas teigė, kad iš tikrųjų korporacijoms, naudojančioms naujus metodus, yra daugiau nei trilijonas dolerių naudos. Iki šiol, pasak jo, mes net nepradėjome išnaudoti šios technologijos teikiamų galimybių.
Bibbas kalbėjo apie tai, kaip svarbu organizacijoms suderinti savo duomenų strategiją su verslo strategija, ir nerimavo, kad dauguma įmonių ir vyriausybių sistemų yra netinkamai suderintos.
Toje pirmoje sesijoje Scottas Weissas iš Andreeseno Horowitzo sakė, kad „Hadoop yra kaip kriogeninė saugykla“, todėl moderatorius Jasonas Kelly iš „Bloomberg Link“ paklausė „Cloudera“ vyriausiojo architekto Dougo Cuttingo, kuris buvo vienas iš „Hadoop“ kūrėjų, kaip jis žiūrėjo. kad.
Pjaustymas sakė, kad „Hadoop“ leidžia žmonėms dirbti su daugiau duomenų. Jis sakė, kad organizacijos nustumia duomenis iš juostos, užuot juos padariusios internete ir tinkamas naudoti. Klientai dirba nuo 90 dienų duomenų prie „penkerių ar 10 metų“ duomenų „aktyviame archyve“.
Šioje grupėje vėl iškilo keletas specifinių klausimų, susijusių su visais šiais duomenimis. „Snaplogic“ generalinis direktorius Gauravas Dhillonas kalbėjo apie „duomenų sunkumą“, sakydamas, kad nėra prasmės imti duomenų, esančių Hadoopo vietose, ir perkelti juos į debesį. Bet tuo pat metu, jei debesyje yra duomenų, pavyzdžiui, srauto paspaudimų analizė, nėra prasmės to perkelti į vietas. Todėl, jo teigimu, perkeliant duomenis jis matė labai mažai „tarpvalstybinių galimybių“.
Cutingas teigė netikįs, kad tikrai trūksta duomenų mokslininkų. Vietoj to, jis sakė, kad yra daug žmonių, suprantančių matematiką ir verslą, tačiau jie tiesiog neturi įrankių. Jis gali išmokti priemonių pagrindus ir tai, ką jie daro per porą savaičių, sakė jis, tačiau suprasti savo verslą reikia metų. Vis dėlto yra daug žmonių, kurie tai supranta.
Dhillonas taip pat atspindėjo susirūpinimą dėl teisės aktų, reglamentuojančių, kokią informaciją galima laikyti kur. Jis sakė, kad kai kuriose vertikaliosiose rinkose informacija turi būti saugoma vietoje, tačiau susirūpino dėl tokių dalykų, kaip reikalavimai neperkelti duomenų iš kilmės šalies. Pasak jo, daug kas yra per didelis reagavimas į tokius dalykus kaip Snowdeno atskleidimai ir duomenų pažeidimai. Skubama leisti įstatymus niekada nėra gerai.
Paklaustas, ar nerimauja dėl „Snowden“ ir „Target“ pažeidimų, verčia klientus bijoti duomenų, Cutting sakė, kad jis jaudinasi, kad tiek daug žmonių jaudinasi. Daugelis žmonių bijo technologijos, sakė jis, ir tai buvo pramonės nesėkmė, leidžianti klientams patogiai įsivaizduoti, kad jų duomenys nėra naudojami. „Jūs neprivalote būti drovus“, - sakė jis.
Pabaigoje buvo daug diskusijų apie vertinimus. Bibbas teigė, kad pastarojo meto „Intel“ investicija į Cloudera buvo „didelis sandoris“, nes ji patvirtina tai, ką įmonė daro. Jis sakė, kad kitos didžiosios kompanijos, tokios kaip „Oracle“, IBM, „Microsoft“ ir „Amazon“, svyravo prie nuspėjamos analizės kompanijų. "Aukso skubėjimas dar tik prasideda".
Dhillonas teigė, kad vertinimai atspindi tai, ką santechnikos įmonės atneša į didžiųjų duomenų rinką. Jis teigė, kad džiaugiasi matęs, kad tokie „rink ir rink“ vaikinai gauna gerus vertinimus, tačiau sakė, kad turi šiek tiek baimės, kad vertinimai populiarėja rinkoje.
Bibbas sakė manąs, kad dideli duomenys gali būti per daug eksponuojami žiniasklaidoje, tačiau jis nepakankamai eksponuojamas „c-suite“ (tai reiškia generaliniai direktoriai, CFO ir kiti aukščiausi vadovai). Jis teigė, kad jis turi „didžiulį ekonominį potencialą, kurį dar reikia atrasti.. “