Need on parimad tasuta avatud andmeallikad, mida igaüks saab kasutada

Mis on avatud andmed?

Lihtsamalt öeldes tähendab Open Data sellist tüüpi andmeid, mis on kõigile kättesaadavad kõigile juurdepääsuks, muutmiseks, korduskasutamiseks ja jagamiseks.

Avatud andmed saavad oma baasi erinevatest "avatud liikumistest", nagu avatud lähtekoodiga, avatud riistvara, avatud valitsus, avatud teadus jne.

Valitsused, sõltumatud organisatsioonid ja asutused on tulnud üles avama andmete väravad, et luua üha rohkem avatud andmeid tasuta ja hõlpsaks juurdepääsuks.

Miks on avatud andmed olulised?

Avaandmed on olulised, sest maailm on kasvanud üha enam andmetest lähtuvalt. Kuid kui andmetele juurdepääsule ja kasutamisele on seatud piirangud, siis andmepõhise ettevõtluse ja juhtimise ideed ei realiseeru.

Seetõttu on avaandmetel oma ainulaadne koht. See võib võimaldada globaalsetest probleemidest ja universaalsetest probleemidest täielikumalt aru saada. See võib anda ettevõtetele suure tõuke. See võib olla suur tõuge masinõppele. See võib aidata võidelda selliste ülemaailmsete probleemidega nagu haigused, kuritegevus või nälg. Avaandmed võivad anda kodanikele õigusi ja seega tugevdada demokraatiat. See võib sujuvamaks muuta ühiskonna ja valitsuste loodud protsesse ja süsteeme. See võib aidata muuta seda, kuidas me maailmast aru saame ja suhtleme.

Nii et siin on minu nimekiri 15 suurepärasest avatud andmeallikast:

1. Maailmapanga avatud andmed

Maailmapanga avatud andmed on maailma kõige ulatuslikumate andmete hoidla kogu maailmas erinevates riikides toimuva kohta. See annab juurdepääsu ka teistele andmekataloogis mainitud andmekogumitele.

Maailmapanga avatud andmed on tohutu, kuna sellel on 3000 andmekogumit ja 14000 näitajat, mis hõlmavad mikroandmeid, aegridade statistikat ja georuumilisi andmeid.

Samuti on soovitud andmetele juurdepääs ja nende avastamine üsna lihtne. Kõik, mida peate tegema, on määratleda indikaatorite nimed, riigid või teemad ja see avab teile avatud andmete varakambri. See võimaldab teil andmeid alla laadida ka erinevates vormingutes, näiteks CSV, Excel ja XML.

Kui olete ajakirjanik või akadeemik, on teid vaimustav teie käsutuses olevast tööriistade hulgast. Saate juurdepääsu analüüsi- ja visualiseerimisvahenditele, mis võivad teie teadustööd tugevdada. See võib aidata kaasa globaalsete probleemide sügavamale ja paremale mõistmisele.

Saate juurdepääsu API-le, mis aitab teil luua vajalikke andmete visualiseeringuid, reaalajas kombinatsioone teiste andmeallikatega ja palju muid selliseid funktsioone.

Seetõttu pole üllatav, et Maailmapanga avatud andmed on kõigi avatud andmeallikate nimekirjas!

2. WHO (Maailma Terviseorganisatsioon) - avatud andmete hoidla

WHO avatud andmete hoidla on see, kuidas WHO jälgib oma 194 liikmesriigi tervisepõhist statistikat.

Hoidla hoiab andmeid süstemaatiliselt korrastatuna. Sellele pääseb juurde vastavalt erinevatele vajadustele. Näiteks, olgu see suremus või haiguste koormus, pääseb ligi 100 või enama kategooria alla liigitatud andmetele, näiteks aastatuhande arengueesmärgid (laste toitumine, laste tervis, ema- ja reproduktiivtervis, immuniseerimine, HIV / AIDS, tuberkuloos, malaaria, tähelepanuta jäetud haigused, vesi ja kanalisatsioon), mittenakkuslikud haigused ja riskitegurid, epideemiaohtlikud haigused, tervishoiusüsteemid, keskkonnatervis, vägivald ja vigastused, võrdsus jne.

Oma konkreetsete vajaduste jaoks võite andmekogumid läbi vaadata teemade, kategooria, näitaja ja riigi järgi.

Hea on see, et Exceli vormingus on võimalik alla laadida kõik vajalikud andmed. Samuti saate andmeid jälgida ja analüüsida, kasutades selle andmeportaali.

Samuti on saadaval API Maailma Terviseorganisatsiooni andmete ja statistika sisule.

3. Google Public Data Explorer

2010. aastal käivitatud Google Public Data Explorer aitab teil uurida tohutul hulgal avaliku huvi andmekogumeid. Andmeid saate oma kasutusalade jaoks visualiseerida ja edastada.

See teeb kättesaadavaks erinevate asutuste ja allikate andmed. Näiteks pääsete juurde Maailmapanga, USA tööstatistika büroo ja USA büroo, OECD, IMF jt andmetele.

Erinevad sidusrühmad pääsevad neile andmetele juurde erinevatel eesmärkidel. Ükskõik, kas olete üliõpilane või ajakirjanik, olenemata sellest, kas olete poliitikakujundaja või akadeemik, saate seda tööriista kasutada avalike andmete visualiseerimise loomiseks.

Data Exploreri abil saate andmete, näiteks joongraafikute, tulpdiagrammide, kaartide ja mullitabelite, esitamiseks kasutada erinevaid viise.

Parim osa on see, et need visualiseeringud oleksid teie jaoks üsna dünaamilised. See tähendab, et näete neid aja jooksul muutumas. Saate muuta teemasid, keskenduda erinevatele kirjetele ja muuta skaalat.

Ka seda on lihtne jagada. Niipea, kui saate graafiku valmis, saate selle kinnitada oma veebisaidile või ajaveebi või jagada lihtsalt linki oma sõpradega.

4. AWS-i avatud andmete register (RODA)

See on avalikke andmekogumeid sisaldav hoidla. Need on andmed, mis on saadaval AWS-i ressurssidest.

Mis puutub RODA-sse, siis võite avastada ja jagada andmeid, mis on avalikult kättesaadavad.

RODA-s saate märksõnu ja silte kasutada tavaliste andmetüüpide jaoks, näiteks genoomika, satelliidipiltide ja transpordi jaoks, et otsida mis tahes andmeid, mida otsite. Kõik see on võimalik lihtsal veebiliidesel.

Iga andmekogumi kohta leiate üksikasjaliku lehe, kasutusnäited, litsentsiteabe ja õpetused või rakendused, mis neid andmeid kasutavad.

Kasutades laia valikut arvutus- ja andmeanalüütikatooteid, saate analüüsida avatud andmeid ja luua mis tahes teenuseid.

Kuigi juurdepääsetavad andmed on saadaval AWS-i ressursside kaudu, peate meeles pidama, et neid ei paku AWS. Need andmed kuuluvad erinevatele asutustele, valitsusorganisatsioonidele, teadlastele, ettevõtetele ja üksikisikutele.

5. Euroopa Liidu avatud andmete portaal

Teil on juurdepääs mis tahes avaandmetele, mida ELi institutsioonid, asutused ja muud organisatsioonid avaldavad ühel platvormil, nimelt Euroopa Liidu avatud andmete portaalil.

ELi avatud andmete portaalis leidub elutähtsaid avatud andmeid, mis on seotud ELi poliitikavaldkondadega. Nende poliitikavaldkondade hulka kuuluvad majandus, tööhõive, teadus, keskkond ja haridus.

Ligikaudu 70 ELi institutsiooni, organisatsiooni või osakonda, näiteks Eurostat, Euroopa Keskkonnaagentuur, Teadusuuringute Ühiskeskus ning muud Euroopa Komisjoni peadirektoraadid ja ELi agentuurid on oma andmekogumid avalikustanud ja neile juurdepääsu võimaldanud. Need andmekogumid on kuupäevani ületanud numbri 11700.

Portaal võimaldab hõlpsat juurdepääsu. Andmeid saate hõlpsalt otsida, uurida, linkida, alla laadida ja taaskasutada tavaliste metaandmete kataloogi kaudu. Saate seda teha oma konkreetsetel eesmärkidel. See võib olla äriline või mitteäriline eesmärk.

Metaandmete kataloogist saate otsida interaktiivse otsingumootori (vahekaart Andmed) ja SPARQL-päringute (vahekaart Lingitud andmed) kaudu.

Selle kataloogi abil saate juurdepääsu andmetele, mis on salvestatud ELi institutsioonide, ametite ja organisatsioonide erinevatele veebisaitidele.

6. Viiskümmend kaheksa

See on suurepärane sait andmepõhise ajakirjanduse ja jutustamise jaoks.

See pakub mitmesuguseid andmeallikaid mitmesuguste sektorite jaoks, nagu poliitika, sport, teadus, majandus jne. Samuti saate andmed alla laadida.

Andmetele juurdepääsemisel leiate lühikese selgituse iga andmekogumi kohta selle allika kohta. Samuti saate teada, mida see tähistab ja kuidas seda kasutada.

Nende andmete kasutajasõbralikuks muutmiseks pakub see andmekogumeid võimalikult lihtsates, mitteomandilistes vormingutes, näiteks CSV-failid. Ütlematagi selge, et nendele vormingutele saavad inimesed ja ka masinad hõlpsasti juurde pääseda ja neid töödelda.

Nende andmekogumite abil saate luua lugusid ja visualiseeringuid vastavalt oma vajadustele ja eelistustele.

7. USA loendusbüroo

USA loendusbüroo on föderaalvalitsuse suurim statistikaamet. See salvestab ja pakub usaldusväärseid fakte ja andmeid Ameerika inimeste, paikade ja majanduse kohta.

Loendusbüroo peab oma üllast missiooni laiendada oma teenuseid kui kõige usaldusväärsemaid kvaliteetsete andmete pakkujaid.

Olenemata sellest, kas tegemist on föderaalse, osariigi, kohaliku või hõimuvalitsusega, kasutavad nad kõik loendusandmeid erinevatel eesmärkidel. Need valitsused kasutavad neid andmeid uute elamute ja avalike rajatiste asukoha määramiseks. Nad kasutavad seda ka kogukondade, osariikide ja USA demograafiliste omaduste uurimisel.

Neid andmeid kasutatakse ka transpordisüsteemide ja sõiduteede kavandamisel. Kvootide otsustamise ning politsei- ja tuletõrjepunktide loomise osas on need andmed kasuks. Kui valitsused loovad lokaliseeritud valimispiirkonnad, koolid, kommunaalteenused jne, kasutavad nad neid andmeid. Rahvastikuteabe koostamine on tavaks üks kord kümne aasta jooksul ja need andmed on sama saavutamiseks üsna kasulikud.

Seal on mitmesuguseid tööriistu, nagu American Fact Finder, Census Data Explorer ja Quick Facts, mis on kasulikud juhuks, kui soovite andmeid otsida, kohandada ja visualiseerida.

Näiteks ainuüksi kiirfaktid sisaldavad statistikat kõigi osariikide, maakondade, linnade ja isegi linnade kohta, kus elab vähemalt 5000 inimest.

Samuti aitab American Fact Finder teil leida populaarseid fakte, nagu rahvastik, sissetulek jne. See pakub teavet, mida sageli küsitakse.

Hea on see, et Census Data Exploreri kaudu saate otsida, andmetega suhelda, tutvuda populaarse statistikaga ja vaadata sellega seotud graafikuid. Lisaks saate interaktiivsete kaartide andmete kohandamiseks kasutada visuaalset tööriista.

8. Data.gov

Data.gov on USA valitsuse avatud andmete aardemaja. Alles hiljuti otsustati teha kõik valitsuse andmed tasuta kättesaadavaks.

Selle käivitamisel oli neid ainult 47. Praegu on 180 000 andmekogumit.

Miks on Data.gov suurepärane ressurss, on see, et leiate andmeid, tööriistu ja ressursse, mida saate mitmesugustel eesmärkidel juurutada. Saate teha oma uuringuid, arendada oma veebi- ja mobiilirakendusi ning isegi kujundada andmete visualiseerimist.

Kõik, mida peate tegema, on sisestada otsingukasti märksõnad ja sirvida tüüpe, silte, vorminguid, rühmi, organisatsiooni tüüpe, organisatsioone ja kategooriaid. See hõlbustab hõlpsat juurdepääsu vajalikele andmetele või andmekogumitele.

Data.gov järgib projekti avaandmete skeemi - nõutavate väljade kogumit (pealkiri, kirjeldus, sildid, viimane värskendus, avaldaja, kontakti nimi jne) iga Data.govis kuvatud andmekogumi jaoks.

9. DBpedia

Nagu teate, on Vikipeedia suurepärane teabeallikas. DBpedia eesmärk on saada struktureeritud sisu Vikipeedia loodud väärtuslikust teabest.

DBpedia abil saate semantiliselt otsida ja uurida Wikipedia ressursi seoseid ja omadusi. See hõlmab linke ka teistele seotud andmekogumitele.

DBpedia andmekogumis on umbes 4,58 miljonit üksust. 4,22 miljonit liigitatakse ontoloogiasse, sealhulgas 1 445 000 inimest, 735 000 kohta, 123 000 muusikaalbumit, 87 000 filmi, 19 000 videomängu, 241 000 organisatsiooni, 251 000 liiki ja 6000 haigust.

Nende üksuste jaoks on sildid ja kokkuvõtted umbes 125 keeles. Piltidele on linke 25,2 miljonit. Välistele veebilehtedele on 29,8 miljonit linki.

DBpedia kasutamiseks peate kirjutama SPARQL-päringud lõpp-punkti vastu või laadima alla nende prügimäed.

DBpedia on tulnud kasuks mitmele ettevõttele, näiteks Apple'ile (Siri kaudu), Google'ile (Freebase'i ja Google'i teadusgraafiku kaudu) ja IBM'ile (Watsoni kaudu), eriti nende vastavatele tehisintellektiga seotud projektidele.

10. freeCodeCampi avatud andmed

See on avatud lähtekoodiga kogukond. Miks see on oluline, on see, et see võimaldab teil kodeerida, pro bono projekte ehitada pärast mittetulundusühinguid ja haarata tööd arendajana.

Selle elluviimiseks teeb freeCodeCamp.org kogukond igal kuul kättesaadavaks tohutul hulgal andmeid. Nad on selle muutnud avatud andmeteks.

Sellest hoidlast leiate mitmesuguseid asju. FreeCodeCampi andmete põhjal saate leida andmekogumeid, samade ja isegi demode analüüse. Samuti leiate linke välistele projektidele, mis hõlmavad freeCodeCampi andmeid.

See võib aidata teil mitmesuguste projektide ja ülesannetega, mida võite silmas pidada. Olgu see veebianalüütika, sotsiaalmeedia analüütika, sotsiaalvõrgustike analüüs, hariduse analüüs, andmete visualiseerimine, andmetest lähtuv veebiarendus või robotid - selle kogukonna pakutavad andmed võivad olla äärmiselt kasulikud ja tõhusad.

11. Yelpi avatud andmekogumid

Yelpi andmekogum on põhimõtteliselt ainult meie enda ettevõtete, arvustuste ja kasutajaandmete alamhulk isiklikuks, hariduslikuks ja akadeemiliseks kasutamiseks.

Yelpi avatud andmekogumites on 5 996 996 arvustust, 188 593 ettevõtet, 280 991 pilti ja 10 suurlinna-ala.

Saate neid kasutada erinevatel eesmärkidel. Kuna need on saadaval JSON-failidena, saate neid kasutada õpilastele andmebaaside õpetamiseks. Saate neid kasutada NLP õppimiseks või prooviandmete jaoks, kui mõistate, kuidas mobiilirakendusi kujundada.

Selles andmestikus leiate kõik failid, mis koosnevad ühest objektitüübist, ühest reast ühest JSON-objektist.

12. UNICEFi andmekogum

Kuna UNICEF tegeleb paljude erinevate kriitiliste probleemidega, on ta koondanud asjakohased andmed hariduse, lastetöö, puuete, laste suremuse, emade suremuse, vee ja kanalisatsiooni, madala sünnikaaluga, sünnieelse abi, kopsupõletiku, malaaria, joodipuuduse kohta suguelundite moonutamine / lõikamine ja noorukid.

IICI registris avaldatud UNICEF-i avatud andmestikud: //www.iatiregistry.org/publisher/unicef ​​on välja võetud otse UNICEF-i operatsioonisüsteemist (VISION) ja muudest andmesüsteemidest ning see kajastab UNICEFi üksikute kontorite sisendeid.

Hea on see, et nende andmekogumite osas toimub regulaarne värskendus. Igal kuul värskendatakse andmeid, et muuta need terviklikumaks, usaldusväärsemaks ja täpsemaks.

Nendele andmetele saate vabalt ja hõlpsasti juurde pääseda. Selleks saate need andmed alla laadida CSV-vormingus. Enne andmete allalaadimist saate ka eelvaateid eelvaadet vaadata.

Kuigi keegi saab UNICEF-i andmekogumeid uurida ja visualiseerida, on kolm peamist kirjastajat:

UNICEF-i Abi LÄBIPAISTVUSPORTAAL: Selle portaali kasutamisel saate andmekogumitele palju lihtsamalt juurde pääseda. See sisaldab ka üksikasju iga riigi kohta, kus UNICEF töötab.

Kirjastaja d-portaal: see on praegu beetaversioonis. Selle portaali abil saate uurida IATI andmeid.

Võite otsida arendustegevusega seotud teavet, eelarveid jne. Saate seda teavet uurida riigiti.

Kirjastaja andmeplatvorm: sellel platvormil saate hõlpsasti juurde pääseda IATI registri kaudu juurdepääsetavate andmete statistikale, diagrammidele ja mõõdikutele. Kui klõpsate päistel, saate sortida ka paljusid platvormil kuvatavaid tabeleid. Platvormidelt leiate ka paljud andmekogumid masinloetavas JSON-vormingus.

13. Kaggle

Kaggle on suurepärane, kuna see soodustab erinevate andmekogumite avaldamisvormingute kasutamist. Parem on aga see, et see soovitab tungivalt andmekogude avaldajatel jagada oma andmeid juurdepääsetavas ja mittevaranduslikus vormingus.

Platvorm toetab avatud ja juurdepääsetavaid andmevorminguid. See on oluline mitte ainult juurdepääsu, vaid ka selle jaoks, mida soovite nende andmetega teha. Seetõttu määratleb Kaggle Dataset selgelt failivormingud, mida andmete jagamisel soovitatakse kasutada.

Kaggle'i andmekogumite ainulaadne omadus on see, et see pole lihtsalt andmekogu. Iga andmekogum tähistab kogukonda, mis võimaldab teil arutada andmeid, teada saada avalikke koode ja tehnikaid ning kontseptualiseerida oma projekte tuumades.

CSV, JSON, SQLite, Archive, Big Query jne on failitüübid, mida Kaggle toetab. Avatud andmesideprojektiga alustamiseks võite leida mitmesuguseid ressursse.

Parim on see, et Kaggle võimaldab teil andmekogumeid privaatselt või avalikult avaldada ja jagada.

14. LODUM

See on Münsteri ülikooli algatus Open Data. Selle algatuse raames on igaühel võimalik juurdepääs mis tahes avalikule teabele ülikooli kohta masinloetavates vormingutes. Saate sellele hõlpsasti juurde pääseda ja seda vastavalt oma vajadustele uuesti kasutada.

Selle projekti raames tehakse kättesaadavaks avatud andmed teaduslike artefaktide kohta ja kodeeritud lingitud andmetena.

Lingitud andmete abil on võimalik andmeid, ontoloogiaid ja erinevaid metaandmete standardeid jagada ja kasutada. Tegelikult on ette nähtud, et see on metaandmete ja andmete enda veebis edastamise aktsepteeritud standard.

LODUMi meeskond on algatanud LinkedUniversities.org ja LinkedScience.org.

Andmete analüüsimiseks võite kasutada SPARQL-redaktorit või SP-paketti R.

SPARQL-pakett võimaldab ühenduse luua SPARQL-i lõpp-punktiga HTTP kaudu, esitada SELECT-päringu või värskenduspäringu (LOAD, INSERT, DELETE).

15. UCI masinõppe hoidla

See toimib andmebaaside, domeeniteooriate ja andmegeneraatorite tervikliku hoidlana, mida masinõppekogukond kasutab masinõppealgoritmide empiiriliseks analüüsiks.

Selles hoidlas on masinõppekogukonna teenusena praegu 463 andmekogumit.

Irvine'i California ülikooli masinõppe ja intelligentsete süsteemide keskus võõrustab seda ja hooldab seda. David Aha oli selle algselt loonud UC Irvine'i kraadiõppurina.

Sellest ajast alates kasutavad üliõpilased, koolitajad ja teadlased seda kogu maailmas usaldusväärse masinõppe andmekogumite allikana.

See töötab nii, et igal andmekogumil on oma eraldi veebileht, kuhu on koondatud kõik teadaolevad üksikasjad, sealhulgas kõik asjakohased publikatsioonid, mis seda uurivad. Need andmekogumid saate alla laadida ASCII-failidena, sageli kasuliku CSV-vorminguna.

Andmekogumite üksikasjad on kokku võetud selliste aspektide järgi nagu atribuutide tüübid, eksemplaride arv, atribuutide arv ja avaldatud aasta, mida saab sortida ja otsida.

Avatud andmeportaalid ja otsingumootorid:

Kuigi igal aastal on arvukate agentuuride poolt avaldatud palju andmekogumeid, tunnustatakse ja kehtestatakse väga väheseid andmekogumeid.

Põhjus, miks väga vähesed sellised andmekogumid on kasuliku ressursina, seisneb selles, et andmete väljatöötamine, haldamine ja edastamine inimeste, organisatsioonide jaoks kasulikuks ja hõlpsaks kasutamiseks on väljakutse.

Siiski leiate allpool loetelu muudest olulistest avatud andmeportaalidest ja platvormidest, mis võimaldavad kasutajatel üsna hõlpsalt juurdepääsule avatud andmetele juurde pääseda, nende mõju uurida ja väärtuslikke teadmisi koguda.

  1. Google'i andmekogumi otsing
  2. Dataverse
  3. Avatud andmekomplekt
  4. Ckan
  5. Avatud andmemonitor
  6. Plenaar.io
  7. Ava andmete mõju kaart

Järeldus

Avaandmed on päeva järjekord. Maailm on järk-järgult hakanud liikuma avatud süsteemide poole ja avatud andmed on sellega õigustatult sünkroonis.

Avaandmeid kasutavad ettevõtted ja organisatsioonid saavad konkurentsieelise ja saavad tulevikus domineerida.