Turinys:
Video: Justas Janauskas: MVP (minimal viable product), kas tai yra ir kaip jį rasti (Lapkritis 2024)
Duomenys ir verslo informacija (BI) yra dvi tos pačios monetos pusės. Dėl patobulinimų saugojimo, apdorojimo ir analizės srityje duomenys tapo demokratizuoti tiek, kad jums nereikia būti duomenų bazės specialistu ar duomenų mokslininku, kad galėtumėte dirbti su dideliais duomenų rinkiniais ir įgyti įžvalgų. Vis dar yra mokymosi kreivė, tačiau savitarnos BI ir duomenų vizualizacijos įrankiai iš naujo nustato, kaip verslas panaudoja visus savo surinktus duomenis į analizuojamą veiklą. Tačiau yra skirtumas tarp BI ar duomenų bazių kompanijos, atliekančios pažangias analitikas, ir dirbtinio intelekto (AI) duomenų bazės, sukurtos tam, kad būtų galima mokytis mašinų mokymosi (ML), ir gilaus mokymosi modelių.
ML algoritmai yra įpinami į daugelio šiuolaikinės programinės įrangos audinius. Vartotojų patirtis su AI susilygina per virtualius padėjėjus, o verslo programinėje įrangoje yra pavyzdžių, tokių kaip „Salesforce Einstein“, kurie yra intelektualusis sluoksnis po visu įmonės ryšių su klientais valdymo (CRM) portfeliu. Technologijų milžinai, įskaitant „Google“ ir „Microsoft“, dar labiau stumia mūsų intelektualią ateitį ne tik atlikdami mokslinius tyrimus, bet ir perrašydami, kaip jų technologijos veikia nuo pat pradžių su AI.
Vienas iš iššūkių, susijusių su treniruokliais ir gilaus mokymosi modeliais, yra didžiulė duomenų apimtis ir apdorojimo galia, kurios jums reikia norint treniruoti neuroninį tinklą, pavyzdžiui, sudėtingam modelio atpažinimui tokiose srityse kaip vaizdo klasifikacija ar natūralios kalbos apdorojimas (NLP). Taigi, AI duomenų bazės pradeda populiarėti kaip būdas optimizuoti AI mokymosi ir mokymo procesą įmonėms. Kalbėjomės su GPU paspartinta reliacinių duomenų bazių teikėja „Kinetica“, sukūrusia savo AI duomenų bazę, ir PCMag rezidentų BI bei duomenų bazių ekspertu Pam Baker, kad būtų galima išsiaiškinti, kas yra AI duomenų bazė ir kaip ji veikia, palyginti su tradicinėmis duomenų bazėmis. Dar svarbiau yra tai, kad paprašėme jų pagalbos, kad būtų galima išsiaiškinti, ar rinkodaros žodžiai yra svarbūs, ar ši nauja technologija turi realią verslo vertę.
Kas yra PG duomenų bazės?
Dėl greitai besikeičiančio AI erdvės pobūdžio gali būti sunku nustatyti terminiją. Jūs dažnai girdite tokius terminus kaip ML, giluminis mokymasis ir AI, vartojamus pakaitomis, nors iš tikrųjų jie vis dar kuria metodus, esant didesniam AI skėčiui. Bakeris teigė, kad yra du labai skirtingi apibrėžimai, kas yra PG duomenų bazė priklausomai nuo to, su kuo tu kalbi: vienas yra praktiškas, o kitas - daugiau „danguje“.
"Pramonėje yra tam tikras laisvas sutarimas, kad PG duomenų bazė būtų tokia, kuri visiškai atitiks natūralių kalbų užklausas. Vartotojo sąsaja būtų tokia, kad jums nereikėtų pasikliauti paieškos terminais ir pagrindinėmis frazėmis, norint rasti jums reikalingos informacijos, leidžiančios vartotojui sušaukti duomenų rinkinius su NLP “, - sakė Bakeris. "Galėtumėte pateikti labai ribotą argumentą, kad„ IBM Watson "gali pateikti sistemai natūralių užklausų, tačiau jūs turite būti prisijungę prie duomenų ir patys pasirinkti duomenis. Taigi šiuo metu šis apibrėžimas yra ilgas."
Praktinis apibrėžimas ir šio aiškintojo dalykas iš esmės yra naudojant tikslams sukurtą duomenų bazę, kad būtų galima pagreitinti ML modelio mokymą. Kai kurios technologijų įmonės jau kuria specialius AI lustus, kad palengvintų didelę naujų aparatūros gaminių apdorojimo apkrovą, nes pardavėjai įdiegia daugiau AI pagrįstų funkcijų, kurioms reikalinga nemaža skaičiavimo galia. Duomenų pusėje, naudodamiesi AI duomenų baze, galite lengviau susitvarkyti su apimtimi, greičiu ir sudėtingais duomenų valdymo ir valdymo iššūkiais, susijusiais su ML mokymu ir gilaus mokymosi modeliais, kad sutaupytumėte laiko ir optimizuotumėte išteklius.
Vaizdo kreditas: Toddas Jaquithas svetainėje Futurism.com. Spustelėkite, kad išplėstumėte visą infografiką
„Šiuo metu labai stengiamasi pagreitinti ML treniruotes, naudojant kelias skirtingas taktikas“, - paaiškino Bakeris. "Viena yra atskirti infrastruktūrą nuo AI tyrinėtojų, atliekančių kodavimą, kad automatinės funkcijos būtų tvarkyti infrastruktūrą ir mokyti ML modelio. Taigi, užuot praleidę maždaug tris mėnesius, galbūt žiūrėsite 30 dienų ar 30 minučių."
„Kinetica“ šią idėją paverčia integruota duomenų bazės platforma, optimizuota ML ir gilaus mokymosi modeliavimui. PG duomenų bazė sujungia duomenų saugojimą, patobulintą analizę ir vizualizaciją atminties duomenų bazėje. Mate Radalj, „Kinetica Advanced Technology Group“ viceprezidentas ir pagrindinis programinės įrangos inžinierius, paaiškino, kad AI duomenų bazė turėtų sugebėti vienu metu perimti, tyrinėti, analizuoti ir vizualizuoti greitai judančius, sudėtingus duomenis per milisekundę. Tikslas yra sumažinti sąnaudas, gauti naujų pajamų ir integruoti ML modelius, kad verslas galėtų priimti efektyvesnius, duomenimis pagrįstus sprendimus.
"PG duomenų bazė yra bendrosios duomenų bazės pogrupis", - sakė Radalj. "Šiuo metu AI duomenų bazės yra labai populiarios. Tačiau daugybė sprendimų naudoja paskirstytus komponentus.„ Spark ", „ MapReduce "ir HDFS visada sukasi pirmyn ir atgal, o ne atmintyje. Jie neturi tokių veiksnių, kaip mūsų duomenų bazė, kurie buvo sukurtas nuo pat pradžių su tvirtai integruotais procesoriais ir GPU vienoje platformoje. Aukšto lygio pranašumas mums yra greitesnis aprūpinimas ir mažesnis modelio pagrindu vykdomų mokymų aparatinės įrangos pėdsakas, greitas paleidimas ir analizė integruota toje pačioje platformoje."
Kaip veikia PG duomenų bazė
Praktikoje yra daugybė PG duomenų bazių pavyzdžių. „Microsoft Batch AI“ siūlo debesų pagrindu sukurtą infrastruktūrą, skirtą mokyti gilųjį mokymąsi ir ML modelius, veikiančius „Microsoft Azure“ GPU. Bendrovė taip pat turi savo produktą „Azure Data Lake“, kad įmonėms ir duomenų mokslininkams būtų lengviau apdoroti ir analizuoti duomenis paskirstytoje architektūroje.
Kitas pavyzdys yra „Google“ AutoML metodas, kuris iš esmės keičia ML modelių mokymo planą. „Google AutoML“ automatizuoja ML modelio projektavimą, kad būtų sukurtos naujos neuroninių tinklų architektūros, pagrįstos tam tikrais duomenų rinkiniais, tada tuos tūkstančius kartų išbandytų ir pakartotų, kad koduotų geresnes sistemas. Tiesą sakant, „Google“ AI dabar gali sukurti geresnius modelius nei žmonių tyrinėtojai.
„Pažvelkite į„ Google AutoML “: ML rašo ML kodą, kad jums net nereikėtų žmonių“, - sakė Bakeris. "Tai suteikia jums supratimą, koks yra didžiulis skirtumas tarp to, ką daro pardavėjai. Kai kurie bando perduoti pažangias analitikas kaip ML - ir taip nėra. O kiti daro ML tokiu aukštesniu lygiu, kad yra daugiau nei dauguma verslai šiuo metu gali suprasti “.
Tada yra „Kinetica“. San Fransiske įsikūrusi įmonė, kuri surinko 63 mln. USD rizikos kapitalo (VC) lėšų, teikia didelio našumo SQL duomenų bazę, optimizuotą greitam duomenų perdavimui ir analizei. „Kinetica“ yra tai, ką Radalj apibūdino kaip masiškai lygiagretaus apdorojimo (MPP) paskirstytą duomenų bazę ir skaičiavimo platformą, kurioje kiekvienas mazgas turi kartu esančius atminties duomenis, CPU ir GPU.
Radalj paaiškino, kad AI duomenų bazė skiriasi nuo tradicinės duomenų bazės: trys pagrindiniai elementai:
- Pagreitintas duomenų praradimas,
- Duomenų, esančių atmintyje, bendras lokalizavimas (lygiagretus apdorojimas duomenų bazės mazguose), ir
- Bendra duomenų mokslininkų, programinės įrangos inžinierių ir duomenų bazių administratorių platforma, kad būtų galima greičiau pasikartoti ir išbandyti modelius bei pritaikyti rezultatus tiesiogiai analitikai.
Visiems ne duomenų bazių ir AI modelio mokymo ekspertams, skaitantiems tai, Radalj sugriovė visus šiuos tris pagrindinius elementus ir paaiškino, kaip AI duomenų bazė siejama su apčiuopiama verslo verte. Duomenų prieinamumas ir jų praleidimas yra svarbiausi dalykai, pasak jo, nes galimybė apdoroti srautinio realiojo laiko duomenis leidžia įmonėms greitai imtis veiksmų, susijusių su AI.
„Turime mažmeninį klientą, kuris norėjo sekti pardavimo įkainius kiekvienoje parduotuvėje kas penkias minutes“, - sakė Radalj. "Mes norėjome naudoti AI, kad, remiantis paskutinėmis istorinių duomenų valandomis, galėtume numatyti, ar jie turėtų papildyti atsargas ir optimizuoti tą procesą. Tačiau norint atlikti mašininį atsargų papildymą reikia palaikyti 600–1200 užklausų per sekundę. "tai SQL duomenų bazė ir AI duomenų bazė, taigi mes galime sunaudoti duomenis tokiu greičiu. Susitikę su šia verslo misija, gavome programą, kuri padidino IG."
Bakeris sutiko, kad ML reikalingas didžiulis duomenų kiekis, todėl AI duomenų bazėje labai svarbu greitai juos suvartoti. Antrasis veiksnys, „atminties duomenų vietos vietos“ sąvoka, šiek tiek paaiškinamas. Atminties duomenų bazėje duomenys saugomi pagrindinėje atmintyje, o ne atskiroje disko saugykloje. Tai daroma norint greičiau apdoroti užklausas, ypač analizės ir BI duomenų bazėse. Radalj paaiškino, kad bendroje vietoje Kinetica neatskiria CPU ir GPU skaičiavimo mazgų, palyginti su atminties mazgais.
Dėl to AI duomenų bazė palaiko lygiagretųjį apdorojimą, kuris imituoja žmogaus smegenų gebėjimą apdoroti kelis stimulus, tuo pačiu išlikdamas paskirstytas keičiamo dydžio duomenų bazės infrastruktūroje. Tai užkerta kelią didesniam aparatinės įrangos pėdsakui, atsirandančiam dėl to, ką Radalj pavadino „duomenų siuntimu“ arba poreikio siųsti duomenis pirmyn ir atgal tarp skirtingų duomenų bazės komponentų.
„Kai kurie sprendimai naudoja orkestrą, pvz., „ IBM Symphony “, norėdami suplanuoti įvairių komponentų darbą, tuo tarpu„ Kinetica “pabrėžia funkcijų gabenimą pagal bendrai esančius išteklius ir pažangų optimizavimą, kad būtų sumažintas duomenų perdavimas“, - sakė Radalj. "Ši bendroji vietovė yra ypač efektyvi ir pralaidi, ypač tuo pačiu metu atliekant didelius duomenų rinkinius.
Kalbant apie tikrąją duomenų bazės techninę įrangą, „Kinetica“ bendradarbiauja su „Nvidia“, kuri plečia AI GPU pasirinkimą ir tiria galimybes su „Intel“. Radalj taip pat sakė, kad bendrovė stebi atsirandančią PG techninę įrangą ir debesų pagrindu sukurtą infrastruktūrą, pvz., „Google“ Tensor Processing Units (TPU).
Galiausiai kyla idėja apie vieningą modelio mokymo procesą. PG duomenų bazė yra veiksminga tik tuo atveju, jei šie greitesnio naudojimo ir apdorojimo pranašumai padeda pasiekti didesnius, į verslą orientuotus įmonės ML tikslus ir gilumines mokymosi pastangas. Radalj nurodo „Kinetica“ AI duomenų bazę kaip „modelio dujotiekio platformą“, vykdančią duomenų mokslu paremtą modelio prieglobą.
Visa tai leidžia greičiau išbandyti ir pakartoti, kad būtų sukurti tikslesni ML modeliai. Šiuo klausimu Bakeris teigė, kad vieningas bendradarbiavimas gali padėti visiems inžinieriams ir tyrėjams, dirbantiems mokyti ML ar giluminio mokymosi modelio, greičiau pasikartoti derinant tai, kas veikia, o ne nuolat išradinėti visus mokymo proceso etapus. Radalj teigė, kad tikslas yra sukurti darbo eigą, kurioje greitesnis partijos patekimas, srautinis perdavimas ir užklausų užklausa sugeneruotų modelio rezultatus, kuriuos iškart būtų galima pritaikyti BI.
„Duomenų mokslininkai, programinės įrangos inžinieriai ir duomenų bazių administratoriai turi vieną platformą, kurioje galima aiškiai apibrėžti patį duomenų mokslą, programinės įrangos programų rašymą, SQL duomenų modelius ir užklausas“, - sakė Radalj. "Žmonės švaresniau dirba įvairiose srityse, kai tai yra bendra platforma. Tikslas, kuris netaikomas atliekant ML ir gilinantis į mokymąsi, yra tas, kad norite naudoti to rezultatus - efektyvumo koeficientus ir kintamuosius - kartu su analitika., ir naudokite išvestį tokiems dalykams kaip balai ar numatyti ką nors naudingo “.
Hype ar realybė?
AI duomenų bazės reikšmė, bent jau taip, kaip ją apibūdina Kinetica, yra skaičiavimo ir duomenų bazės išteklių optimizavimas. Tai, savo ruožtu, leidžia kurti geresnius ML ir giluminio mokymosi modelius, mokyti juos greičiau ir efektyviau bei išlaikyti aiškų požiūrį į tai, kaip tas AI bus pritaikytas jūsų versle.
„Radalj“ pateikė transporto parko valdymo ar krovinių gabenimo įmonės pavyzdį. Šiuo atveju PG duomenų bazė galėtų apdoroti didžiulius realiojo laiko informacijos srautus iš transporto priemonių parko. Tuomet modeliuodama tuos geoerdvinius duomenis ir derindama juos su analitika, duomenų bazė galėtų dinamiškai pakeisti sunkvežimių maršrutus ir optimizuoti maršrutus.
"Lengviau greitai pateikti, modeliuoti ir išbandyti. AI yra žodis" modeliavimas ", tačiau viskas apie važiavimą dviračiu naudojant skirtingus požiūrius - kuo daugiau duomenų, tuo geriau - juos vėl ir vėl paleiskite, išbandykite, palyginkite ir sugalvodami geriausius modelius “, - sakė Radalj. "Neuroniniams tinklams suteikta gyvybė, nes yra daugiau duomenų nei bet kada anksčiau. Ir mes mokomės sugebėti skaičiuoti per jį".
Galiausiai „Kinetica“ duomenų bazė ir pavyzdinė dujotiekio platforma yra tik vienas požiūris į erdvę, kuri gali reikšti daug įvairių dalykų, priklausomai nuo to, kieno klausiate. Bakeris teigė, kad iššūkis pirkėjui rinkoje, kuri vis dar vystosi, ir eksperimentinis yra išsiaiškinti, ką tiksliai nurodo AI duomenų bazės tiekėjas.
"Kaip verslo koncepcija, gilus mokymasis, ML, ir visa tai yra tvirta koncepcija. Tai, ką mes dirbame, yra technologijos problemos, kurias galima išspręsti, net jei mes jų dar neišsprendėme", - sakė Bakeris. "Tai nereiškia, kad tai yra brandi erdvė, nes jos tikrai nėra. Aš sakyčiau:„ pirkėjas saugokis “, nes kažkas panašaus į ML gali būti arba negali būti. Tai gali būti tiesiog pažangi sodo įvairovės analizė“.
Apie tai, ar visos AI duomenų bazės šiuo metu yra nepaprastai geros, ar jos atspindi svarbią tendenciją ten, kur vyksta verslas, Bakeris teigė, kad tai šiek tiek iš abiejų. Ji teigė, kad „Big Data“, kaip rinkodaros terminas, šiuo metu nėra vertinamas. Bakeris teigė, kad dabar rinkoje yra tam tikros painiavos tarp pažangių, duomenimis pagrįstų analizių ir tikrų ML bei giluminio mokymosi algoritmų. Nepaisant to, ar jūs kalbate apie ML modeliavimo duomenų bazę, ar apie save suprantančias AI, apie kurias svajojo popkultūra, viskas prasideda ir baigiasi duomenimis.
"Duomenys bus naudojami versle, kol pasibaigs laikas; verslui tai yra tiesiog svarbiausia", - sakė Bakeris. "Kai tu kalbi mokslinės fantastikos prasme, AI yra savaime suprantamas intelektas. Štai tada pradedi kalbėti apie išskirtinumus ir robotus, užvaldančius pasaulį. Ar tai atsitiks, ar ne, aš nežinau. Aš išeisiu kad Stephenui Hawkingui “.