Namai Pirmyn mąstymas „Google“ debesis yra tendencija, susijusi su specifiniams procesoriams

„Google“ debesis yra tendencija, susijusi su specifiniams procesoriams

Video: An introduction to MLOps on Google Cloud (Lapkritis 2024)

Video: An introduction to MLOps on Google Cloud (Lapkritis 2024)
Anonim

Per pastarąsias kelias savaites buvo pristatyta daug svarbių naujų skaičiavimo platformų, skirtų darbui giliuose neuroniniuose tinkluose, kad būtų galima mokytis mašinų, įskaitant naujus „Google“ „debesies TPU“ ir naująjį „Nvidia“ dizainą „Volta“.

Man tai yra pati įdomiausia kompiuterio architektūros tendencija - netgi daugiau nei AMD ir dabar „Intel“ pristato 16 ir 18 branduolių procesorius. Žinoma, yra ir kitų alternatyvių būdų, tačiau „Nvidia“ ir „Google“ pelnytai sulaukia daug dėmesio dėl savo unikalių požiūrių.

„Google I / O“ mačiau, kaip pristatomas „debesies TPU“ (skirtas „Tensor Processing Unit“, nurodant, kad jis yra optimizuotas „Google TensorFlow“ mašinų mokymosi sistemai). Ankstesnės kartos TPU, pristatytas praėjusių metų parodoje, yra ASIC, visų pirma skirtas konferencijoms daryti (mašininio mokymosi operacijoms vykdyti), tačiau naujoji versija yra skirta tokiems algoritmams mokyti ir mokyti.

Neseniai paskelbtame dokumente „Google“ pateikė daugiau informacijos apie pradinį TPU, kurį apibūdino kaip turinčią 256 256 kelių kaupimo (MAC) vienetų matricą (iš viso 65 536), o didžiausias našumas yra 92 teraopai (trilijonas operacijų vienam antra). Gauna savo instrukcijas iš pagrindinio procesoriaus per „PCIe Gen 3“ magistralę. „Google“ teigė, kad tai buvo 28 nm atmintis, mažesnis nei perpus mažesnis nei „Intel Haswell Xeon 22nm“ procesorius, ir kad jis aplenkė tą ir „Nvidia“ 28 nm K80 procesorių.

Naujojoje versijoje, praminėtoje TPU 2.0 arba „debesies TPU“ (kaip matoma aukščiau), iš tikrųjų plokštėje yra keturi procesoriai, o „Google“ teigė, kad kiekviena plokštė gali pasiekti 180 teraflopų (180 trilijonų slankiojo kablelio operacijų per sekundę). Lygiai taip pat svarbu, kad plokštės būtų sukurtos veikti kartu, naudojant pasirinktinį greitųjų tinklą, todėl jos veikia kaip vienas kompiuterio mokymosi superkompiuteris, kurį „Google“ vadina „TPU pod“.

Šiame TPU pod yra 64 antros kartos TPU ir suteikia iki 11, 5 petaflops, kad paspartintų vieno didelio mašinų mokymosi modelio mokymą. Konferencijoje Fei Fei Li, vadovaujantis „Google“ AI tyrimams, teigė, kad nors vienas iš bendrovės didelio masto vertimo mokymosi modelių trunka visą dieną, kad galėtų treniruotis 32 geriausiuose komerciškai prieinamuose GPU, dabar tai gali būti mokymas toks pat tikslumas per popietę, naudojant aštuntąją dalį TPU. Tai didelis šuolis.

Supraskite, kad tai nėra mažos sistemos - „Pod“ atrodo maždaug keturių normalių skaičiavimo stovų dydžio.

Ir atrodo, kad kiekvienas atskiras procesorius turi labai dideles šilumos kriaukles, vadinasi, lentos negali būti sukrautos per stipriai. „Google“ dar nepateikė daug informacijos apie tai, kas pasikeitė šioje procesorių versijoje ar sujungime, tačiau tikėtina, kad tai taip pat pagrįsta 8 bitų MAC.

Praėjus savaitei „Nvidia“ pristatė naujausią savo įrašą šioje kategorijoje - didžiulį lustą, žinomą kaip „Telsa V100 Volta“, kurį jis apibūdino kaip pirmąjį centrinį procesorių su šia nauja „Volta“ architektūra, skirtą aukščiausios klasės GPU.

„Nvidia“ teigė, kad naujasis lustas yra pajėgus 120 „TensorFlow“ teraflopų (arba 15 32 bitų TFLOPS arba 7, 5 64 bitų.) Tam naudojama nauja architektūra, apimanti 80 srautinių daugiaprocesorių (SM), iš kurių kiekvienas apima aštuonis naujus „Tensor Cores“. ir yra 4x4x4 masyvas, galintis atlikti 64 FMA (Fused Multiply-Add) operacijas per valandą. „Nvidia“ teigė, kad ji pasiūlys lustą savo DGX-1V darbo vietose su 8 V100 plokštėmis trečiąjį ketvirtį, laikydamasi ankstesnio firmos DGX-1, kuris naudojo ankstesnę P100 architektūrą.

Kompanija teigė, kad ši 149 000 dolerių dėžutė turėtų pateikti 960 teraflops treniruočių efektyvumo, naudodama 3200 vatų galią. Vėliau, pirmasis pasakė, ji atsiųs „Personal DGX Station“ su keturiais V100, o ketvirtąjį ketvirtį ji teigė, kad didieji serverių pardavėjai išsiųs V100 serverius.

Ši mikroschema yra pirmoji paskelbta, kad ji naudojasi 12 nm procesoriumi TSMC, ir tai bus didžiulė mikroschema, turinti 21, 1 milijardo tranzistorių ant 815 kvadratinių milimetrų die. „Nvidia“ paminėjo ir „Microsoft“, ir „Amazon“ kaip ankstyvuosius lusto pirkėjus.

Atminkite, kad tarp šių metodų yra didelių skirtumų. „Google“ TPU yra iš tikrųjų pritaikyti lustai, skirti „TensorFlow“ programoms, tuo tarpu „Nvidia V100“ yra kiek bendresnis lustas, galintis pritaikyti kitokias matematikos rūšis kitoms programoms.

Tuo tarpu kiti didžiųjų debesų paslaugų teikėjai ieško alternatyvų: „Microsoft“ mokymui naudoja tiek GPU, tiek programuojamų vartų matricas (FPGA), kad galėtų dalyvauti konferencijose, ir siūlo abi klientams. Dabar „Amazon Web Services“ kūrėjams suteikia galimybę naudotis ir GPU, ir FPGA egzemplioriais. „Intel“ pastūmėjo FPGA ir daugybę kitų metodų. Tuo tarpu nemažai naujų įmonių kuria alternatyvius metodus.

Tam tikra prasme tai yra drastiškiausias pokytis, kurį per metus pastebėjome darbo vietos ir serverių procesoriuose, bent jau nuo to laiko, kai kūrėjai pirmą kartą pradėjo naudoti „GPU compute“ prieš keletą metų. Bus įdomu pamatyti, kaip tai vystosi.

„Google“ debesis yra tendencija, susijusi su specifiniams procesoriams