Tai geriausi nemokami atvirų duomenų šaltiniai, kuriuos gali naudoti visi

Kas yra atvirieji duomenys?

Paprasčiau tariant, „Atviri duomenys“ reiškia tokius duomenis, kurie yra atviri visiems ir visiems prieigai, modifikavimui, pakartotiniam naudojimui ir bendrinimui.

„Open Data“ pagrindą sudaro įvairūs „atviri judėjimai“, tokie kaip atviras šaltinis, atvira aparatūra, atvira valdžia, atviras mokslas ir kt.

Vyriausybės, nepriklausomos organizacijos ir agentūros pasiūlė atverti duomenų prieangį, kad sukurtų vis daugiau atvirų duomenų, kuriais būtų galima nemokamai ir lengvai naudotis.

Kodėl atviri duomenys yra svarbūs?

Atviri duomenys yra svarbūs, nes pasaulis vis labiau priklauso nuo duomenų. Bet jei yra duomenų prieigos ir naudojimo apribojimai, duomenų valdomo verslo ir valdymo idėja nebus įgyvendinta.

Todėl atviri duomenys turi savo unikalią vietą. Tai gali leisti išsamiau suprasti pasaulines problemas ir visuotinius klausimus. Tai gali labai paskatinti verslą. Tai gali būti puikus postūmis mokytis mašinoje. Tai gali padėti kovoti su tokiomis pasaulinėmis problemomis kaip ligos, nusikalstamumas ar badas. Atviri duomenys gali suteikti piliečiams daugiau galimybių ir taip sustiprinti demokratiją. Tai gali supaprastinti visuomenės ir vyriausybių sukurtus procesus ir sistemas. Tai gali padėti pakeisti tai, kaip mes suprantame pasaulį ir bendraujame su juo.

Taigi, čia yra mano 15 nuostabių atvirų duomenų šaltinių sąrašas:

1. Pasaulio banko atvirieji duomenys

Pasaulio banko atviri duomenys yra svarbiausias atvirųjų duomenų šaltinis, kuris yra išsamiausių pasaulyje duomenų apie tai, kas vyksta skirtingose ​​pasaulio šalyse, saugykla. Tai taip pat suteikia prieigą prie kitų duomenų rinkinių, kurie yra paminėti duomenų kataloge.

Pasaulio banko atviri duomenys yra didžiuliai, nes turi 3000 duomenų rinkinių ir 14000 rodiklių, apimančių mikroduomenis, laiko eilučių statistiką ir geoerdvinius duomenis.

Taip pat gana lengva pasiekti ir atrasti norimus duomenis. Viskas, ką jums reikia padaryti, tai nurodyti rodiklių pavadinimus, šalis ar temas, ir tai atvers jums atvirų duomenų lobyną. Tai taip pat leidžia atsisiųsti duomenis įvairiais formatais, pvz., CSV, „Excel“ ir XML.

Jei esate žurnalistas ar akademikas, jus sužavės daugybė jums prieinamų įrankių. Galite gauti prieigą prie analizės ir vizualizavimo įrankių, kurie gali sustiprinti jūsų tyrimus. Tai gali padėti giliau ir geriau suprasti pasaulines problemas.

Galite gauti prieigą prie API, kuri gali padėti sukurti jums reikalingas duomenų vizualizacijas, tiesioginius derinius su kitais duomenų šaltiniais ir daug daugiau tokių funkcijų.

Todėl nenuostabu, kad Pasaulio banko atvirieji duomenys yra visų atvirų duomenų šaltinių sąrašų viršūnėse!

2. PSO (Pasaulio sveikatos organizacija) - atvirų duomenų saugykla

PSO „Atvirų duomenų“ saugykla yra tai, kaip PSO seka savo sveikatos būklės 194 valstybių narių statistiką.

Saugykla sistemingai tvarko duomenis. Jį galima pasiekti pagal skirtingus poreikius. Pavyzdžiui, nesvarbu, ar tai mirtingumas, ar ligų našta, galima gauti duomenis, klasifikuojamus 100 ar daugiau kategorijų, pavyzdžiui, Tūkstantmečio vystymosi tikslai (vaikų mityba, vaiko sveikata, motinos ir reprodukcijos sveikata, imunizacija, ŽIV / AIDS, tuberkuliozė, maliarija, užkrėstos ligos, vanduo ir sanitarija), neužkrečiamosios ligos ir rizikos veiksniai, linkusios į epidemijas, sveikatos sistemos, aplinkos sveikata, smurtas ir traumos, teisingumas ir kt.

Atsižvelgdami į konkrečius poreikius, galite peržiūrėti duomenų rinkinius pagal temas, kategoriją, rodiklį ir šalį.

Gerai tai, kad „Excel“ formatu galima atsisiųsti bet kokius reikalingus duomenis. Taip pat galite stebėti ir analizuoti duomenis naudodamiesi jo duomenų portalu.

Taip pat yra prieinama Pasaulio sveikatos organizacijos duomenų ir statistikos turinio API.

3. „ Google“ viešųjų duomenų naršyklė

Paleistas 2010 m., „Google Public Data Explorer“ gali padėti ištirti didžiulį viešojo intereso duomenų rinkinių kiekį. Galite vizualizuoti ir perduoti duomenis savo reikmėms.

Tai leidžia gauti įvairių agentūrų ir šaltinių duomenis. Pavyzdžiui, galite pasiekti duomenis iš Pasaulio banko, JAV darbo statistikos biuro ir JAV biuro, EBPO, TVF ir kitų.

Skirtingos suinteresuotosios šalys prieina prie šių duomenų įvairiais tikslais. Nesvarbu, ar esate studentas, ar žurnalistas, ar esate politikos formuotojas, ar akademikas, galite naudoti šį įrankį, kad sukurtumėte viešųjų duomenų vizualizacijas.

Naudodami „Data Explorer“ galite įdiegti įvairius duomenų pateikimo būdus, pvz., Linijinius, juostinius, žemėlapius ir burbulų diagramas.

Geriausia tai, kad šios vizualizacijos atrodytų gana dinamiškos. Tai reiškia, kad laikui bėgant pamatysite, kaip jie keičiasi. Galite keisti temas, sutelkti dėmesį į skirtingus įrašus ir modifikuoti mastelį.

Jis taip pat lengvai dalijamas. Kai tik parengsite diagramą, galėsite ją įterpti į savo svetainę ar tinklaraštį arba tiesiog pasidalinti nuoroda su draugais.

4. AWS atvirųjų duomenų registras (RODA)

Tai saugykla, kurioje yra vieši duomenų rinkiniai. Tai yra duomenys, kuriuos galima gauti iš AWS išteklių.

Kalbant apie RODA, galite atrasti ir dalintis viešai prieinamais duomenimis.

„RODA“ galite naudoti raktinius žodžius ir žymas įprastų tipų duomenims, tokiems kaip genominiai, palydoviniai vaizdai ir transportas, kad galėtumėte ieškoti bet kokių ieškomų duomenų. Visa tai įmanoma naudojant paprastą žiniatinklio sąsają.

Kiekviename duomenų rinkinyje rasite išsamios informacijos puslapį, naudojimo pavyzdžius, licencijos informaciją ir mokymo programas ar programas, kurios naudoja šiuos duomenis.

Naudodami platų skaičiavimo ir duomenų analizės produktų asortimentą, galite analizuoti atvirus duomenis ir kurti visas norimas paslaugas.

Nors duomenis, kuriuos pasiekiate, galite gauti naudodami AWS išteklius, turite nepamiršti, kad jų neteikia AWS. Šie duomenys priklauso skirtingoms agentūroms, vyriausybinėms organizacijoms, tyrėjams, įmonėms ir asmenims.

5. Europos Sąjungos atvirųjų duomenų portalas

Galite pasiekti bet kokius atvirus duomenis, kuriuos ES institucijos, agentūros ir kitos organizacijos skelbia vienoje platformoje, būtent Europos Sąjungos atvirųjų duomenų portale.

ES atvirųjų duomenų portale yra svarbiausi atviri duomenys, susiję su ES politikos sritimis. Šios politikos sritys apima ekonomiką, užimtumą, mokslą, aplinką ir švietimą.

Maždaug 70 ES institucijų, organizacijų ar departamentų, tokių kaip „Eurostat“, Europos aplinkos agentūra, Jungtinis tyrimų centras ir kiti Europos Komisijos generaliniai direktoratai bei ES agentūros, savo duomenų rinkinius paviešino ir leido jiems naudotis. Šie duomenų rinkiniai peržengė 11700 skaičių iki datos.

Portalas leidžia lengvai pasiekti. Duomenis galite lengvai ieškoti, tyrinėti, susieti, atsisiųsti ir pakartotinai naudoti naudodami bendrų metaduomenų katalogą. Tai galite padaryti konkretiems tikslams. Tai gali būti komerciniai ar nekomerciniai tikslai.

Metaduomenų kataloge galite ieškoti naudodami interaktyvų paieškos variklį (skirtukas „Duomenys“) ir „SPARQL“ užklausas (susietų duomenų skirtukas).

Naudodamiesi šiuo katalogu, galite gauti prieigą prie duomenų, saugomų skirtingose ​​ES institucijų, agentūrų ir organizacijų svetainėse.

6. Penkiasdešimt aštuoni

Tai puiki svetainė, kuria remiasi žurnalistika, kuriama duomenų, ir pasakojimai.

Jame pateikiami įvairūs duomenų šaltiniai įvairiems sektoriams, pvz., Politikai, sportui, mokslui, ekonomikai ir kt. Taip pat galite atsisiųsti duomenis.

Priėję prie duomenų rasite trumpą paaiškinimą apie kiekvieną duomenų rinkinį, atsižvelgiant į jo šaltinį. Taip pat sužinosite, ką jis reiškia ir kaip juo naudotis.

Kad šie duomenys būtų patogūs vartotojui, jis pateikia duomenų rinkinius kuo paprastesniais, nepatentuotais formatais, pvz., CSV failais. Nereikia nė sakyti, kad šie formatai gali būti lengvai prieinami ir apdorojami žmonių, taip pat mašinų.

Šių duomenų rinkinių pagalba galite kurti istorijas ir vizualizacijas pagal savo poreikius ir pageidavimus.

7. JAV surašymo biuras

JAV surašymo biuras yra didžiausia federalinės vyriausybės statistikos agentūra. Joje saugomi ir pateikiami patikimi faktai ir duomenys apie Amerikos žmones, vietoves ir ekonomiką.

Surašymo biuras mano, kad kilni misija išplėsti savo paslaugas yra patikimiausias kokybiškų duomenų teikėjas.

Nesvarbu, ar tai federalinė, valstijos, vietos ar genčių vyriausybė, visos jos naudoja surašymo duomenis įvairiems tikslams. Šios vyriausybės naudoja šiuos duomenis naujų būstų ir viešųjų objektų vietai nustatyti. Jie taip pat ja naudojasi nagrinėdami bendruomenių, valstybių ir JAV demografines ypatybes.

Šie duomenys taip pat naudojami planuojant transporto sistemas ir kelius. Kai reikia nuspręsti dėl kvotų ir sukurti policijos bei priešgaisrines apygardas, šie duomenys yra naudingi. Kai vyriausybės sukuria lokalizuotas rinkimų sritis, mokyklas, komunalines paslaugas ir pan., Jos naudojasi šiais duomenimis. Gyventojų informaciją kaupti kartą per dešimtmetį yra praktika, ir šie duomenys yra gana naudingi tam pačiam tikslui pasiekti.

Yra įvairių įrankių, tokių kaip „American Fact Finder“, „Census Data Explorer“ ir „Quick Facts“, kurie yra naudingi tuo atveju, jei norite ieškoti, tinkinti ir vizualizuoti duomenis.

Pavyzdžiui, vien „Greituose faktuose“ pateikiama visų valstybių, apskričių, miestų ir net miestų, kuriuose gyvena 5000 ar daugiau gyventojų, statistika.

Be to, „American Fact Finder“ gali padėti atrasti populiarius faktus, tokius kaip gyventojų skaičius, pajamos ir kt. Jis teikia informaciją, kurios dažnai prašoma.

Gerai tai, kad naudodamiesi „Census Data Explorer“ galite ieškoti, sąveikauti su duomenimis, sužinoti apie populiarią statistiką ir pamatyti susijusias diagramas. Be to, interaktyvių žemėlapių duomenų pritaikymui galite naudoti vaizdinį įrankį.

8. Data.gov

„Data.gov“ yra JAV vyriausybės atvirų duomenų lobynas. Tik neseniai buvo nuspręsta visus vyriausybės duomenis pateikti nemokamai.

Kai ji buvo paleista, buvo tik 47. Dabar yra 180 000 duomenų rinkinių.

Kodėl „Data.gov“ yra puikus šaltinis, yra todėl, kad galite rasti duomenų, įrankių ir išteklių, kuriuos galite pritaikyti įvairiems tikslams. Galite atlikti tyrimus, kurti žiniatinklio ir mobiliąsias programas ir netgi kurti duomenų vizualizacijas.

Viskas, ką jums reikia padaryti, tai įvesti raktinius žodžius paieškos laukelyje ir naršyti tipus, žymas, formatus, grupes, organizacijos tipus, organizacijas ir kategorijas. Tai palengvins lengvą prieigą prie jums reikalingų duomenų ar duomenų rinkinių.

„Data.gov“ seka „Project Open Data Schema“ - būtinų laukų rinkinys (pavadinimas, aprašas, žymos, paskutinis atnaujinimas, leidėjas, kontakto vardas ir kt.) Kiekvienam duomenų rinkiniui, rodomam „Data.gov“.

9. DBpedia

Kaip žinote, Vikipedija yra puikus informacijos šaltinis. „DBpedia“ siekia gauti struktūrizuotą turinį iš vertingos informacijos, kurią sukūrė Vikipedija.

Naudodamiesi „DBpedia“, galite semantiškai ieškoti ir ištirti Vikipedijos šaltinio santykius ir savybes. Tai apima ir nuorodas į kitus susijusius duomenų rinkinius.

„DBpedia“ duomenų rinkinyje yra apie 4,58 mln. Subjektų. 4,22 mln. Yra klasifikuojami pagal ontologiją, įskaitant 1 445 000 asmenų, 735 000 vietų, 123 000 muzikos albumų, 87 000 filmų, 19 000 vaizdo žaidimų, 241 000 organizacijų, 251 000 rūšių ir 6 000 ligų.

Šiems objektams yra etiketės ir santraukos maždaug 125 kalbomis. Yra 25,2 mln. Nuorodų į atvaizdus. Yra 29,8 milijono nuorodų į išorinius tinklalapius.

Viskas, ką jums reikia padaryti norint naudoti „DBpedia“, yra parašyti SPARQL užklausas pagal galutinį tašką arba atsisiųsti jų sąvartynus.

„DBpedia“ davė naudos kelioms įmonėms, tokioms kaip „Apple“ (per „Siri“), „Google“ (per „Freebase“ ir „Google Knowledge Graph“) ir IBM (per „Watson“), ypač jų atitinkamiems prestižiniams projektams, susijusiems su dirbtiniu intelektu.

10. „ freeCodeCamp“ atvirieji duomenys

Tai atviro kodo bendruomenė. Kodėl tai svarbu, nes tai leidžia jums koduoti, kurti pro bono projektus po ne pelno organizacijų ir patraukti kūrėjo darbą.

Kad tai įvyktų, freeCodeCamp.org bendruomenė kiekvieną mėnesį pateikia didžiulį duomenų kiekį. Jie pavertė tai atviraisiais duomenimis.

Šioje saugykloje rasite įvairių dalykų. Remiantis „freeCodeCamp“ duomenimis, galite rasti duomenų rinkinius, tų pačių ir netgi demonstracinių projektų analizę. Taip pat galite rasti nuorodas į išorinius projektus, susijusius su „freeCodeCamp“ duomenimis.

Tai gali padėti jums atlikti įvairius projektus ir užduotis, kurias galite turėti omenyje. Nesvarbu, ar tai būtų interneto analizė, socialinės žiniasklaidos analizė, socialinių tinklų analizė, švietimo analizė, duomenų vizualizavimas, duomenimis pagrįstas interneto kūrimas ar robotai, šios bendruomenės siūlomi duomenys gali būti labai naudingi ir veiksmingi.

11. „ Yelp“ atidaryti duomenų rinkiniai

„Yelp“ duomenų rinkinys iš esmės yra tik mūsų pačių įmonių, apžvalgų ir naudotojų duomenų, skirtų asmeninėms, švietimo ir akademinėms reikmėms, pogrupis.

„Yelp Open Datasets“ yra 5 996 996 atsiliepimai, 188 593 įmonės, 280 991 nuotraukos ir 10 didmiesčių zonų.

Galite juos naudoti įvairiems tikslams. Kadangi jie yra prieinami kaip JSON failai, galite juos naudoti mokydami studentus apie duomenų bazes. Galite juos naudoti mokydamiesi NLP arba pavyzdiniams gamybos duomenims, kol suprantate, kaip kurti programas mobiliesiems.

Šiame duomenų rinkinyje rasite kiekvieną failą, sudarytą iš vieno objekto tipo, po vieną JSON objektą eilutėje.

12. UNICEF duomenų rinkinys

Kadangi UNICEF rūpinasi įvairiais kritiniais klausimais, jis surinko svarbius duomenis apie švietimą, vaikų darbą, vaiko negalią, vaikų mirtingumą, motinų mirtingumą, vandens ir sanitarijos sąlygas, mažą gimimo svorį, priešgimdyvinę priežiūrą, plaučių uždegimą, maliariją, jodo trūkumą. sutrikimas, moterų lytinių organų žalojimas / pjovimas ir paaugliai.

UNICEF atviri duomenų rinkiniai, paskelbti IATI registre: //www.iatiregistry.org/publisher/unicef, buvo ištraukti tiesiogiai iš UNICEF operacinės sistemos (VISION) ir kitų duomenų sistemų ir atspindi atskirų UNICEF biurų įvestis.

Gerai tai, kad reguliariai atnaujinami šie duomenų rinkiniai. Kiekvieną mėnesį duomenys atnaujinami, kad jie būtų išsamesni, patikimesni ir tikslesni.

Galite laisvai ir lengvai pasiekti šiuos duomenis. Norėdami tai padaryti, galite atsisiųsti šiuos duomenis CSV formatu. Taip pat galite peržiūrėti duomenų pavyzdžius prieš juos atsisiųsdami.

Nors kas gali tyrinėti ir vizualizuoti UNICEF duomenų rinkinius, yra trys pagrindiniai leidėjai:

UNICEF PAGALBOS SKAIDRUMO PORTALAS: Naudodamiesi šiuo portalu, galite daug lengviau pasiekti duomenų rinkinius. Jame taip pat pateikiama išsami informacija apie kiekvieną šalį, kurioje dirba UNICEF.

Leidėjo d-portalas: Šiuo metu jis yra BETA. Šiuo portalu galite naršyti IATI duomenis.

Galite ieškoti informacijos, susijusios su vystymosi veikla, biudžetais ir pan. Galite šią informaciją ištirti kiekvienoje šalyje.

Leidėjo duomenų platforma: šioje platformoje galite lengvai pasiekti statistinius duomenis, diagramas ir metriką apie duomenis, pasiekiamus per IATI registrą. Jei spustelėsite antraštes, taip pat galite rūšiuoti daugelį lentelių, kurias matote platformoje. Taip pat platformoje rasite daugybę duomenų rinkinių mašininio skaitymo JSON formatu.

13. Kaggle

„Kaggle“ yra puiku, nes skatina naudoti skirtingus duomenų rinkinių leidinių formatus. Tačiau geriausia yra tai, kad ji primygtinai rekomenduoja duomenų rinkinių leidėjams dalytis savo duomenimis prieinamu, nepatentuotu formatu.

Platforma palaiko atvirus ir prieinamus duomenų formatus. Tai svarbu ne tik prieigai, bet ir tam, ką norite daryti su šiais duomenimis. Todėl „Kaggle“ duomenų rinkinys aiškiai apibrėžia failų formatus, kurie yra rekomenduojami dalijantis duomenimis.

Unikalus „Kaggle“ duomenų rinkinių dalykas yra tai, kad tai nėra tik duomenų saugykla. Kiekvienas duomenų rinkinys reiškia bendruomenę, kuri suteikia galimybę aptarti duomenis, sužinoti viešuosius kodus ir metodus bei konceptualizuoti savo projektus branduoliuose.

CSV, JSON, SQLite, Archive, Big Query ir kt. Yra failų tipai, kuriuos palaiko Kaggle. Norėdami pradėti dirbti su atvirųjų duomenų projektu, galite rasti įvairių išteklių.

Geriausia tai, kad „Kaggle“ leidžia jums viešai ir viešai skelbti ir dalytis duomenų rinkiniais.

14. LODUMAS

Tai Miunsterio universiteto atvirųjų duomenų iniciatyva. Pagal šią iniciatyvą visiems suteikiama galimybė bet kokią viešą informaciją apie universitetą gauti mašininio skaitymo formatu. Galite lengvai pasiekti ir pakartotinai naudoti pagal savo poreikius.

Pagal šį projektą pateikiami atviri duomenys apie mokslinius artefaktus ir užkoduoti kaip susieti duomenys.

Susietų duomenų pagalba galima dalytis ir naudoti duomenis, ontologijas ir įvairius metaduomenų standartus. Iš tikrųjų numatoma, kad tai bus priimtas metaduomenų ir pačių duomenų teikimo internete standartas.

LODUM komanda kartu inicijavo „LinkedUniversities.org“ ir „LinkedScience.org“.

Duomenims analizuoti galite naudoti SPARQL redaktorių arba SP RQL paketą.

SPARQL paketas leidžia prisijungti prie SPARQL galinio taško per HTTP, pateikti SELECT užklausą arba atnaujinimo užklausą (LOAD, INSERT, DELETE).

15. UCI mašininio mokymosi saugykla

Tai tarnauja kaip išsami duomenų bazių, domenų teorijų ir duomenų generatorių saugykla, kurią mašininio mokymosi bendruomenė naudoja mašininio mokymosi algoritmų empirinei analizei.

Šiuo metu šioje saugykloje yra 463 duomenų rinkiniai, kaip paslauga mašininio mokymosi bendruomenei.

Kalifornijos universiteto Mašinų mokymosi ir intelektualiųjų sistemų centras, Irvine, jį priima ir prižiūri. Iš pradžių Davidas Aha jį sukūrė kaip UC „Irvine“ magistrantas.

Nuo to laiko studentai, pedagogai ir tyrėjai visame pasaulyje naudojasi juo kaip patikimu mašininio mokymosi duomenų rinkinių šaltiniu.

Kaip tai veikia, tai, kad kiekvienas duomenų rinkinys turi savo atskirą tinklalapį, kuriame pateikiama visa žinoma informacija, įskaitant visas atitinkamas publikacijas, kurios jį tiria. Šiuos duomenų rinkinius galite atsisiųsti kaip ASCII failus, dažnai naudingą CSV formatą.

Išsami duomenų rinkinių informacija yra apibendrinta pagal tokius aspektus kaip atributų tipai, egzempliorių skaičius, atributų skaičius ir paskelbti metai, kuriuos galima rūšiuoti ir ieškoti.

Atvirieji duomenų portalai ir paieškos sistemos:

Nors kiekvienais metais yra daugybė agentūrų išleidžiamų duomenų rinkinių, labai nedaug duomenų rinkinių tampa pripažinti ir įsteigti.

Priežastis, kodėl labai nedaug tokių duomenų rinkinių palaiko naudingus išteklius, yra tai, kad iššūkis yra kurti, tvarkyti ir pateikti duomenis taip, kad žmonėms ir organizacijoms būtų naudinga ir lengva juos naudoti.

Tačiau žemiau rasite keletą kitų svarbių atvirų duomenų portalų ir platformų, leidžiančių vartotojams gana lengvai pasiekti atvirus duomenis, ištirti jų poveikį ir sužinoti vertingų įžvalgų, sąrašą.

  1. „Google“ duomenų rinkinio paieška
  2. Dataverse
  3. „Open Data Kit“
  4. Ckan
  5. „Open Data Monitor“
  6. Plenaras.io
  7. Atviras duomenų poveikio žemėlapis

Išvada

Atviri duomenys yra dienos tvarka. Pasaulis palaipsniui pradėjo judėti link atvirų sistemų ir atviri duomenys yra teisingai sinchronizuojami su tuo.

Verslas ir organizacijos, naudojančios atvirus duomenis, įgis konkurencinį pranašumą ir galės dominuoti ateityje.