Namai funkcijos Šie šalininkai nori įsitikinti, kad mūsų duomenys neišnyks

Šie šalininkai nori įsitikinti, kad mūsų duomenys neišnyks

Turinys:

Video: Neeilinis gimnazijos eksperimentas: už eurą valgyk, kiek nori ir ką nori (Lapkritis 2024)

Video: Neeilinis gimnazijos eksperimentas: už eurą valgyk, kiek nori ir ką nori (Lapkritis 2024)
Anonim

Šių metų gegužės pabaigoje, praėjus lygiai penkiems mėnesiams nuo 45-ojo Jungtinių Valstijų prezidento inauguracijos, grupė žmonių, besidominčių naujosios administracijos požiūriu į mokslą ir klimato pokyčius, pažymėjo savo ypatingą jubiliejų.

Netoli Šiaurės Teksaso universiteto miestelio, lygumose į šiaurę nuo Dalaso, keliolika asmenų susitiko „Data Rescue Denton“, kad nustatytų ir atsisiųstų federalinių klimato ir aplinkos duomenų rinkinių kopijas. Šie hakatono stiliaus susibūrimai sulaukė didelio dėmesio prieš pat inauguraciją; „Denton“ buvo 50-asis toks renginys nuo sausio mėn.

Iš pradžių susirūpinęs, kad naujoji administracija gali ištrinti ar užmaskuoti duomenis apie klimatą ir kitus duomenis apie aplinką, atrodė, kad didžiausia duomenų gelbėtojų baimė išsipildė, kai vienas iš pirmųjų „Trumpųjų baltųjų rūmų“ veiksmų buvo pašalinti klimato kaitos puslapius iš savo interneto svetainės. Tada JAV žemės ūkio departamentas, pašalinęs gyvūnų gerovės patikrinimo ataskaitas iš savo interneto svetainės, atsakė į Nacionalinio geografinės informacijos laisvės akto prašymą, pateikdamas 1 771 puslapius visiškai atspausdintos medžiagos.

Kiekvienas gali pasiekti daugiau nei 153 000 federalinių duomenų rinkinių per centrinės vyriausybės atvirųjų duomenų portalą adresu data.gov. Bet tai tik maža dalis duomenų, esančių valdžios biurokratijos ūke, niekada neprisimename dar mažesnės dalies, kuri yra serveryje.

„Kažkur apie 20 procentų vyriausybės informacijos yra prieinama internete“, - teigė Jimas Jacobsas, Federalinis vyriausybės informacijos bibliotekininkas iš Stanfordo universiteto bibliotekos. "Tai gana didelis turinys, kurio nėra. Nors agentūros turi savo wiki ir turinio valdymo sistemas, vienintelį kartą sužinai apie kai kurias iš jų, jei kas nors FOIA tai daro."

Tiesa, labai daug informacijos buvo surinkta ir dabar gyvena nevyriausybiniuose serveriuose. Tarp „Data Refuge“ renginių ir projektų, tokių kaip 2016 m. Pabaigos tikrinimas, buvo archyvuota daugiau nei 200 TB vyriausybinių svetainių ir duomenų. Tačiau gelbėjimo organizatoriai pradėjo suvokti, kad pavienių pastangų pasidaryti išsamias vyriausybinių agentūrų mokslo duomenų terabaitų kopijas realistiškai atlaikyti neįmanoma per ilgą laiką - tai būtų tarsi „Titaniko“ išnaikinimas su antpirščiu.

Taigi, nors „Data Rescue Denton“ tapo vienu iš paskutinių tokio pobūdžio renginių, bendros pastangos paskatino platesnę bendruomenę dirbti kartu, kad daugiau vyriausybės duomenų būtų randama, suprantama ir naudojama, - rašė Jacobsas tinklaraščio įraše.

Žvilgsnis į bibliotekas

Pensilvanijos universitete Bethany Wiggin yra Aplinkos humanitarinių mokslų srities „Penn“ programos direktorė, kuriai buvo pagrindinis vaidmuo „Data Refuge“ judėjime, „Data Rescue“ renginių iniciatorė. Dabar, jos teigimu, dėmesys buvo nukreiptas į nacionalinių ilgalaikių pastangų sistemos sverto, o ne į lokalius periodinius epizodus.

„Mes suvokėme įgūdžius, kurie atsirado įvairiose vietose, vykdant gelbėjimo duomenų įvykius, ir tai buvo galima sumažinti“, - sakė Wigginas, ypač mokslinių tyrimų bibliotekose. "Bet visos šios pastangos buvo dedamos prieš mums pradedant.„ Data Refuge “galia buvo sutrumpinti šias jungtis; pagreitinti ilgalaikius, lėtai judančius projektus ir paaiškinti, kokie jie svarbūs."

Wigginas pastaruoju metu padeda kurti „Libraries + Network“ - besiformuojančią mokslinių bibliotekų, bibliotekų organizacijų ir atvirųjų duomenų grupių partnerystę, paskatinusią išplėsti tradicinį bibliotekų vaidmenį išsaugojant prieigą prie informacijos. Dalyvauja Stanfordo universiteto tyrimų biblioteka, Kalifornijos skaitmeninė biblioteka ir „Mozilla Foundation“. Dalyvauja ir bendradarbiauja įvairiausi subjektai, pavyzdžiui, Nacionalinis archyvas ir kelių federalinių biurų vyriausieji duomenų pareigūnai.

Pavyzdžiui, vienas projektas yra LOCKSS („daug kopijų saugo medžiagą“), kurį Jacobsas koordinuoja keletą metų. Tai grindžiama tuo pačiu principu, kaip ir 200 metų senumo bibliotekų tinklas, žinomas kaip Federalinė depozitoriumų bibliotekų programa; šios bibliotekos yra oficialios JAV vyriausybės spaustuvės (GPO) leidinių saugyklos.

LOCKSS, priešingai, yra privati ​​šios sistemos skaitmeninė versija, kurią iki šiol sudaro 36 bibliotekos, kurios bendradarbiaujant renka leidinius iš GPO. Tai pavyzdys, kaip skaitmeninę informaciją galima apsaugoti nuo ištrynimo ar klastojimo, ją plačiai išsklaidžius.

„Negalite užtikrinti išsaugojimo, nebent jūs kontroliuojate turinį“, - teigė Jacobsas. "Depozitoriumų bibliotekos per pastaruosius 200 metų buvo svarbios ir naudingos tuo, kad niekas vyriausybėje negalėjo redaguoti dokumento, iš tikrųjų nesilankęs 1500 bibliotekų ir sakydamas:" Taip, pakeisk čia vieną puslapį "."

Programinė įranga LOCKSS tikrina turinio talpyklas bitų lygyje ir lygina ją su kitų bibliotekų turiniu, o tai, pasak Jacobso, padeda užtikrinti ilgalaikį išsaugojimą atkuriant sugadintus failus.

John Chodacki, kitas bendradarbiaujantis su „Libraries + Network“, yra Kalifornijos skaitmeninės bibliotekos, virtualios informacijos priemonės, aptarnaujančios visus 10 Kalifornijos universiteto sistemos miestelių, kuravimo direktorius. Bendradarbiaudamas su „Code for Science and Society“ kūrėju Maxu Ogdenu ir Philipu Ashlocku, vyriausiuoju „data.gov“ architektu, Chodackis sako, kad jų dėmesys buvo sutelktas į „data.gov“ kaip dvipusės gatvės naudojimą.

Jie pirmiausia pademonstravo, kad pats duomenų išsaugojimas gali būti daug efektyvesnis, nuskaičius paties data.gov kopiją ir įdėjus ją į išorinę svetainę, datamirror.org, naudojant stebėjimo scenarijus, kurie tikrina, ar nėra atnaujinimų. Tada Chodackis ir bendradarbiai taip pat pradėjo ieškoti, ar į veidrodį įnešti duomenų rinkiniai ir metaduomenys galėtų būti įtraukti į agentūrų esamus duomenis.govo darbo srautus per veidrodinius puslapius.

Remiantis 2013 m. Obamos vykdomuoju įsakymu, kuriuo įpareigojama skelbti mašininio skaitymo duomenis „data.gov“, agentūros vis tiek bus atsakingos už tame portale esančių įrašų generavimą; Chodacki ir Ogdeno idėja yra ta, kad siūlytų duomenų rinkinių rinkimas tiesiog padeda paskirstyti darbo krūvį.

„Mums nereikia atkartoti visos ekosistemos“, - teigė Chodacki. "Federacinė vyriausybė ir šios agentūros daug ilgiau tvarkėsi su duomenimis, nei buvo sudėtinga kalbėti apie didelius duomenis daug patikimiau nei bet kas kitas."

Viešojo ir privačiojo sektorių partnerystė

Išlaidų klausimas yra akivaizdus, ​​kai kalbama apie tai, kaip agentūros sugeba nustatyti, kurie duomenų rinkiniai yra vertingiausi visuomenei, tada vyriausybės portale skelbia nuorodas į savo metaduomenis ar faktinius duomenų rinkinius. Kongreso biudžeto tarnybos (CBO) ataskaita dėl šiuo metu Senate esančio Vyriausybės duomenų įstatymo projekto „OPEN“, kuriame būtų kodifikuotas Obamos vykdomasis įsakymas į įstatymą, vertina, kad jo visiškas įgyvendinimas 2018–2021 m. Kainuotų 2 mln. USD.

CBO padarė išvadą, kad vyriausybės pinigais iš esmės nėra realaus išlaidų padidėjimo.

Efektyvumas vis dėlto yra kitas klausimas, kurį Edas Kearnsas išbando Nacionalinėje vandenynų ir atmosferos administracijoje kartu su privačiais partneriais, įskaitant „Amazon Web Services“ ir „Google“. NOAA vyriausiasis duomenų pareigūnas Kearnsas teigė, kad didėjantis NOAA duomenų prieinamumas visuomenei ir jų naudojimas yra pagrindinis „Big Data Project“ tikslas.

Įmonės nustato, kurių duomenų rinkinių nori, ir NOAA perduoda juos be papildomų išlaidų visuomenei. Viskas, kas yra NOAA, yra ant stalo, sakė Kearnsas, tačiau penkerių metų partnerystės tikslas nėra ištraukti visus NOAA duomenis iš debesies - tik strateginius gabalus.

Tokių duomenų rinkinių priegloba privačių kompanijų debesijos paslaugoms suteikia keletą pranašumų, palyginti su 80-ųjų stiliaus FTP prieiga, kuri vis dar yra standartinė perduodant didelius duomenų rinkinius iš federalinių agentūrų. Visų pirma, NOAA duomenų rinkiniai paprastai būna gausūs - agentūra stebi Žemės vandenynus, atmosferą, saulę ir oro erdvę ir kartais viešai pristatyti reikalauja savaičių ar mėnesių.

Vienas iš pavyzdžių yra agentūros didelės raiškos NEXRAD II lygio Doplerio radaro archyvas. Remiantis Amerikos meteorologų draugijos gegužę paskelbtu tyrimu, viso 270 terabaitų NEXRAD archyvo perkėlimas vienam klientui 2015 m. Spalio mėn. Būtų užtrukęs 540 dienų ir kainuotų 203 310 USD. Pilna archyvo kopija niekada nebuvo prieinama išorinei analizei, kol NOAA dirbo su „Amazon“ ir „Google“, kad padėtų vieną ant debesies.

Eksperimentas taip pat davė įdomių ankstyvų rezultatų didėjant naudojimui. NOAA oro ir orų prognozavimo tinklalapiai jau gauna didžiausią srautą tarp vyriausybinių svetainių, tačiau po to, kai „Google“ neseniai į „BigQuery“ duomenų bazę integravo vieną klimato ir oro sąlygų duomenų rinkinį, kurio dydis yra maždaug vienas dydis, bendrovė pranešė pateikianti 1, 2 šio duomenų rinkinio petalatus. nuo sausio 1 d. iki balandžio 30 d. - daug daugiau nei bet kada buvo galima pasiekti per panašų laikotarpį iš NOAA serverių.

„„ Google “sugebėjo tai atverti visiškai naujai auditorijai“, - teigė Kearnsas.

Tai ne tik lietus ir sezoninė temperatūra. Duomenų rinkinius, kuriuos dabar gali rasti „Big Data“ partneriai, yra žuvininkystės informacija, jūrų orai ir IBM organizuotas katalogas, kuriame pateikiami dabartiniai, prognozuojami, istoriniai ir geoerdviniai NOAA centrų duomenų rinkiniai. Į būsimus duomenų rinkinius galėtų būti įtraukta net informacija apie ekosistemas ir žuvininkystės genomiką.

Tačiau pagal projektą partnerystė leidžia bendradarbiams pasirinkti, ko jie labiausiai nori, ir tai kelia pavojų, kad neaiškūs, tačiau potencialiai didelės vertės duomenų rinkiniai neišvys daug dienos šviesos. Kearnsas sako, kad dar per anksti pasakyti, kas galų gale gali būti pripažinta vertinga.

„Mums tai stulbinantis mastas ir pasiekiamumas, ką gali padaryti šie duomenys“, - pridūrė jis. "Mes negalime įsivaizduoti visų galimų naudojimo būdų."

Mažesniu mastu Filadelfijos miestas taip pat bendradarbiavo su privačiu subjektu skelbdamas duomenų rinkinius, visuomenės teigimu, jie būtų naudingiausi. Nors miesto dydis suteikia jam didesnį kasdienį manevringumą nei federalinis subjektas, „Philly“ modelis atspindi vieną metodą, kaip strateguoti dar nepaskelbtų duomenų rinkinių išleidimus.

Duomenų vizualizavimui specializuota programinės įrangos įmonė „Philly“, „Azavea“ bendradarbiavo su miesto vyriausiuoju informacijos pareigūnu Timu Wisniewskiu, kad parengtų nepaskelbtų duomenų rinkinių, kuriuos galėtų naudoti ne pelno siekiančios organizacijos mieste, sąrašą. Wisniewski ir Azavea sudarė sąrašą internete ir internetinį metaduomenų katalogą bei miesto departamentų įvestis. Tada „Azavea“ ir kiti partneriai nusipirko sąrašą Filadelfijos ne pelno siekiančioms organizacijoms ir paskelbė „OpenDataVote“ - konkursą visuomenei balsuoti dėl tų ne pelno organizacijų pateiktų projektų dėl to, kaip jie naudotųsi savo pageidaujamais duomenų rinkiniais.

Neseniai nugalėtoju tapo švietimo ne pelno siekiančios „MicroSociety“ pasiūlymas naudoti miesto duomenis apie donorus Filadelfijos mokyklų rajonui, kad būtų galima įvertinti ne pelno siekiančių programų poveikį mokykloms.

„Mes galime pasakyti, kad šis ne pelno siekiantis miestas yra suinteresuotas tam tikru duomenų rinkiniu, nes jie gali su tuo ką nors padaryti, ir kad daugybė žmonių balsavo už jų palaikymą“, - teigė Wisniewski. "Tai leidžia mums eiti į departamentus turint patikimą panaudojimo atvejį, o ne sakyti, hey, paviešinkite šiuos duomenis vien todėl."

Seni duomenys ir nauji

Bet kas nutinka net tada, kai jau yra prieiga prie jau turimų duomenų, kai naujos strategijos ir finansavimo direktyvos reiškia, kad patys duomenys nebegaminami? Tai yra tikras rūpestis, sakė Ann Dunkin, kuri dirbo Aplinkos apsaugos agentūros vyriausiuoju informacijos pareigūnu prie prezidento Obamos ir dabar vadovauja Kalifornijos Santa Klaros apygardos IT.

„Žmonės nerimauja dėl senų duomenų, tačiau mane labiausiai jaudina tai, kad nauji duomenys nėra teikiami tokiu pat greičiu kaip anksčiau arba išvis nėra generuojami“, - teigė Dunkinas.

Vienoje žurnalo „ Science“ siūlomo 2018 m. Federalinio biudžeto analizėje daugelis vyriausybinių agentūrų suprastų, kad jų tyrimų biudžetas būtų ženkliai sumažintas, jei biudžetas būtų priimtas kaip siūloma. Apytiksliai 22 proc. Sumažinus nacionalinius sveikatos institutus, būtų galima mokėti įmokas mokslinių tyrimų universitetams; NASA biudžeto prašymas panaikintų iniciatyvas stebėti šiltnamio efektą sukeliančių dujų išmetimą ir kitas žemės mokslo programas. NOAA klimato programos taip pat galėtų būti uždaromos panašiais sumažinimais.

Per savo kadenciją EPA stengėsi, kad jos duomenų rinkimas taptų priemone, kuria galėtų naudotis visi, suprantantys savo aplinkos sveikatą ir kaip į tai reaguoti. Bloga oro diena? Neik į lauką. Sumažinti kelią užterštą? Laikykite vaikus atokiau.

„Aš tikiuosi, kad tai judės atgal“, - pridūrė Dunkinas. "Aš galiu klysti, bet jei jūs sakote, kad mes nedarysime duomenų prieinamų, logiška išvada yra duomenų rinkiniai, kurie galėtų padėti visuomenės nariams, taip pat nebus prieinami arba nebus generuojami."

„Data Refuge“ Wiggin dirba su šia tema susijusiu pasakojimo projektu, kuris, kaip ji tikisi, paskatins daugiau žmonių reikalauti nuolatinio duomenų išleidimo ir sudarys pagrindą palaikyti dabartines duomenų rinkimo programas visoje federalinėje vyriausybėje. „Trys pasakojimai mūsų mieste“ pasakojimuose bus vaizduojamas dažnai paslėptas federalinių duomenų poveikis netikėtose vietose, pirmiausia pradedant Filadelfijoje, paskui kitose šalies vietose.

„Esminis„ Data Refuge “judėjimo elementas, pereinant į kitą etapą, padeda žmonėms suprasti, kaip plačiai naudojami federaliniai duomenys yra jų gyvenime“, - sakė Wigginas. "Nesvarbu, ar tai vadinate klimatu, ar sveikata, ar visuomenės saugumu, tai vis tiek yra federaliniai duomenys. Tai bendruomenėse, miesto rotušėje, vykdant policijos veiksmus, kariuomenėje. Turime nuolat atsiminti, kokie svarbūs yra šie duomenys."

Šaltiniai:

  • EPA Environmental Dataset Gateway: Aplinkos apsaugos agentūros metaduomenų portalas.
  • Open Data @ DOE: Energetikos departamento atviras duomenų portalas.
  • USDA ekonominių tyrimų tarnybos duomenų portalas
  • NOAA „Big Data Resources“: Nuorodos į „Big Data“ partnerių platformos puslapius, kuriuose talpinami NOAA sugeneruoti duomenys.
  • Šiaurės Teksaso universitetas: Kibernetinės kapinės: pasenusių, pasenusių ar uždarų vyriausybių svetainių archyvas.
  • Aplinkosaugos duomenų ir valdymo iniciatyvos archyvavimo projekto puslapis: įrankiai, kodas ir programos, susijusios su vyriausybės duomenų atradimu ir archyvavimu.
  • Interneto archyvo kelionių mašina
  • Interneto archyvas: Kaip išsaugoti puslapius „Wayback Machine“: Šeši būdai paskirstyti puslapius archyvavimui.
  • Kalifornijos skaitmeninė biblioteka: Terminų pabaigos interneto archyvas: JAV vyriausybės svetainių, išsaugotų nuo terminų pabaigos tikrinimo nuo 2008 m. Iki šių dienų, kolekcija.
  • „FreeGovInfo.info“: plataus turinio informacija apie duomenų portalus valstybiniu ir federaliniu lygmenimis bei naujienų istorijų apie atvirus duomenis klausimai.
  • Klimato veidrodis: savanorių surinktų klimato duomenų rinkinių rinkinys.

Ši istorija pirmą kartą pasirodė „PC Magazine Digital Edition“. Prenumeruokite šiandien daugiau originalių istorijų, naujienų, apžvalgų ir kaip tai padaryti!

Šie šalininkai nori įsitikinti, kad mūsų duomenys neišnyks