Namai Pirmyn mąstymas Karšti lustai: mašinų mokymasis užima svarbiausią vietą

Karšti lustai: mašinų mokymasis užima svarbiausią vietą

2024

Video: WHAT DID I JUST SEE in Google Street View..? (Lapkritis 2024)

Karščiausia šių dienų kompiuterijos tema yra mašinų mokymasis, ir tai tikrai matoma aparatūros pusėje. Pastarosiomis savaitėmis mes girdėjome daug apie naujus lustus, skirtus giliam mokymuisi, pradedant Nvidia „Tesla P100“ ir „Drive PX 2“ ir baigiant „Google“ „Tensor“ procesoriais iki „Intel“ „Xeon Phi“. Taigi nenuostabu, kad praėjusią savaitę vykusioje „Hot Chips“ konferencijoje išgirdome iš daugybės skirtingų kompanijų, turinčių labai skirtingą požiūrį į dizainą, pritaikytą mašinų mokymuisi ir regėjimo apdorojimui.

Ko gero, didžiausia naujiena buvo „Nvidia“ detalesnė informacija apie „Parker“ lustą, naudojamą jo „Drive PX 2“ modulyje, skirtą savarankiškai vairuoti automobilius, ir kurio tikslas buvo gilinti autonominių mašinų mokymąsi. Šioje mikroschemoje naudojamos dvi pagal užsakymą pagamintos, su ARM suderinamos Denverio procesoriaus šerdys, keturios ARM Cortex-A57 šerdys ir 256 iš „Nvidia“ vadinamų Pascal CUDA (grafikos) branduolių.

„Nvidia“ teigė, kad tai buvo pirmoji jo sukurta mikroschema, skirta naudoti automobiliuose, pasižyminti specialiomis atsparumo savybėmis, ir kalbėjo apie didesnį greitį bei atmintį, pažymėdama, kad Denverio branduolys žymiai pagerina našumą vatu. Tarp naujųjų funkcijų yra virtualizacija naudojant aparatinę įrangą su iki 8 LSS, kad būtų galima integruoti automobilio funkcijas, kurios tradiciškai daromos atskiruose kompiuteriuose. Apskritai, kompanijos teigimu, „Drive PX 2“ modelyje gali būti du iš šių „Parker“ lustų ir du atskiri GPU, kurių bendras našumas yra 8 teraflopai (dvigubas tikslumas) arba 24 giluminio mokymosi operacijos (8 bitų arba pusiau tikslūs). Bendrovė įtraukė lyginamuosius indeksus, palyginti juos su dabartiniu mobiliuoju duomenų apdorojimu, naudojant „SpecInt_2000“, palyginti seną etaloną. Tačiau našumas išties atrodo įspūdingas, o „Volvo“ neseniai pareiškė, kad naudos jį išbandyti autonomines transporto priemones pradedant nuo kitų metų.

Žinoma, yra daugybė kitų požiūrių.

Kinijos startuolis „DeePhi“ aptarė FPGA pagrįstą neuroninių tinklų platformą, kurioje yra dvi skirtingos architektūros, atsižvelgiant į naudojamo tinklo tipą. Aristotelis skirtas palyginti mažiems konvoliuciniams neuronų tinklams ir yra pagrįstas „Xilinx Zynq 7000“, o „Descartes“ skirtas didesniems pasikartojantiems neuroniniams tinklams, naudojantiems ilgalaikę trumpalaikę atmintį (RNN-LSTM), remiantis „Kintex Ultrascale FPGA“. „DeePhi“ teigia, kad jo sudarytojas ir architektūra sutrumpina kūrimo laiką, palyginti su daugeliu FPGA naudojimo atvejų, taip pat, kad naudojant FPGA galima pasiekti geresnių rezultatų nei „Nvidia“ „Tegra K1“ ir „K40“ sprendimuose.

Kitas būdas yra naudoti skaitmeninį signalo procesorių arba DSP, kuris paprastai labai greitai atlieka tam tikrą funkciją ar mažą funkcijų rinkinį, sunaudodamas labai mažai energijos. Dažnai jie yra įterpiami į kitus, sudėtingesnius lustus, kad būtų pagreitintos tam tikros funkcijos, pavyzdžiui, regėjimo apdorojimas. Daugybė kompanijų, įskaitant „Movidius“, „CEVA“ ir „Cadence“, dalijosi savo sprendimais „Hot Chips“.

„Movidius“ demonstravo savo DSP pagrįstą sprendimą, žinomą kaip „Myriad 2“ regėjimo apdorojimo įrenginį, ir turėjo jį demonstruoti „DJI Phantom 4“ drone. Tai taip pat parodė, kaip „Myriad 2“ pralenkia GPU ir „GoogLeNet“ gilųjį neuronų tinklą, naudojamą 2014 m. „ImageNet“ konkurse.

„CEVA“ reklamavo savo „CEVA-XM4 Vision DSP“, specialiai pritaikytą vizijos apdorojimui ir skirtą automobilių rinkai, kartu su savo CEVA „Deep Neural Network 2“ platforma, kuri, jos teigimu, gali paimti viską, kas parašyta „Caffe“ ar „TensorFlow“ sistemoms, ir optimizuoti jos vykdymą. savo DSP. Naujasis procesorius turėtų būti SoCs kitais metais.

Tuo tarpu „Cadence“, kuria „Tensilica“ regos procesorių šeimą (kurią galima įterpti į kitus produktus), aptarė savo naujausią versiją - „Vision P6“, kuri pridėjo naujų funkcijų, tokių kaip vektoriaus slankiojo kablelio palaikymas ir kitos konvoliucinių neuroninių tinklų savybės.. Pirmieji produktai turėtų būti išleisti netrukus.

„Microsoft“ papasakojo apie „HoloLens“ ausinių aparatinės įrangos detales sakydama, kad ji naudoja 14 nm „Intel Atom Cherry Trail“ procesorių, kuriame veikia „Windows 10“, ir pasirinktinį Holografinio apdorojimo įrenginio (HPU 1.0) jutiklio stebulę, kurią gamina TSMC 28 nm proceso metu. Tai apima 24 „Tensilica DSP“ branduolius.

Mane ypač patraukė vienas iš „Cadence“ skaidrių, kuris parodė GPU, FPGA ir įvairių rūšių DSP pralaidumo ir efektyvumo skirtumus, susijusius su daugybos pridėjimo operacijomis, viena iš pagrindinių neuroninių tinklų elementų. Akivaizdu, kad jis tarnauja savitarnai (nes visos pardavėjų prezentacijos yra), tačiau jis atkreipė dėmesį į tai, kaip skirtingi metodai skiriasi greičiu ir efektyvumu (našumas vatui), jau nekalbant apie išlaidas ir programavimo paprastumą. Čia yra daugybė skirtingų požiūrių sprendimų, ir bus įdomu pamatyti, kaip tai išsisklaidys per kelerius ateinančius metus.