Järjestasin iga andmeteaduse sissejuhatuse kursuse Internetis tuhandete andmepunktide põhjal

Aasta tagasi loobusin ühest Kanada parimast arvutiteaduse programmist. Hakkasin veebiressursse kasutades looma oma andmeteaduse magistriprogrammi. Sain aru, et võin kõike vajalikku õppida hoopis edX-i, Coursera ja Udacity'i kaudu. Ja ma saaksin selle õppida kiiremini, tõhusamalt ja murdosa kuludest.

Olen nüüd peaaegu valmis. Olen läbinud palju andmeteadusega seotud kursusi ja auditeerinud osasid paljudest teistest. Ma tean sealseid võimalusi ja milliseid oskusi on vaja õppijatele, kes valmistuvad andme analüütiku või andmeteadlase rolliks. Mõni kuu tagasi hakkasin koostama ülevaatepõhist juhendit, mis soovitab andmeteaduse iga aine jaoks parimaid kursusi.

Sarja esimese juhendi jaoks soovitasin algajatele andmeteadlastele paar kodeerimisklassi. Siis oli see statistika ja tõenäosuseklassid.

Nüüd andmeteaduse tutvustuste juurde.

(Ärge muretsege, kui te pole kindel, mida andmeteaduse kursus sisse toob. Seletan varsti.)

Selle juhendi jaoks veetsin 10+ tundi, et tuvastada iga veebipõhine andmeteaduse kursus, mida pakutakse alates 2017. aasta jaanuarist, eraldades nende ainekavadest ja ülevaadetest põhiteabe ning koostades nende hinnangud. Selle ülesande jaoks pöördusin kellegi muu kui avatud lähtekoodiga Class Centrali kogukonna ja selle tuhandete kursuste hinnangute ja arvustuste andmebaasi poole.

Alates 2011. aastast on Class Centrali asutaja Dhawal Shah veebikursustel hoolikamalt silma peal hoidnud kui väidetavalt keegi teine ​​maailmas. Dhawal aitas mul isiklikult selle ressursside loendi kokku panna.

Kuidas me valisime kursused, mida kaaluda

Iga kursus peab vastama kolmele kriteeriumile:

  1. See peab õpetama andmeteaduse protsessi. Varsti sellest lähemalt.
  2. Seda tuleb tellida või pakkuda iga paari kuu tagant.
  3. See peab olema interaktiivne veebikursus, nii et ei mingeid raamatuid ega kirjutuskaitstud õpetusi . Kuigi need on õppimisvõimalused, keskendub see juhend kursustele.

Usume, et läbisime kõik märkimisväärsed kursused, mis vastavad ülaltoodud kriteeriumidele. Kuna Udemy kohta on näiliselt sadu kursusi, otsustasime arvestada ainult kõige ülevaatlikumate ja kõrgemalt hinnatud kursustega. Alati on võimalus, et me siiski millestki ilma jäime. Nii et palun andke meile kommentaaride jaotises teada, kui jätsime hea kursuse välja.

Kuidas me kursusi hindasime

Koostasime keskmise hinde ja arvustuste arvu Class Centralist ja teistelt arvustuste saitidelt, et arvutada iga kursuse kaalutud keskmine hinnang. Lugesime tekstiarvustusi ja kasutasime seda tagasisidet numbriliste hinnangute täiendamiseks.

Tegime subjektiivsete ainekavade hindamiskutseid kahe teguri põhjal:

1. Andmeteaduse protsessi kajastamine. Kas kursus harjab teatud õppeaineid või jätab need vahele? Kas see hõlmab teatud teemasid liiga üksikasjalikult? Mida see protsess hõlmab, vaadake järgmist jaotist.

2. Levinud andmeteaduse tööriistade kasutamine. Kas kursusel õpetatakse populaarseid programmeerimiskeeli nagu Python ja / või R? Need pole vajalikud, kuid enamikul juhtudel abiks, nii et neid kursusi eelistatakse veidi.

Mis on andmeteaduse protsess?

Mis on andmeteadus? Mida teeb andmeteadlane? Need on põhiküsimuste tüübid, millele andmeteaduse kursuse sissejuhatus peaks vastama. Harvardi professorite Joe Blitzsteini ja Hanspeter Pfisteri järgmine infograafik toob välja tüüpilise andmeteaduse protsessi , mis aitab meil neile küsimustele vastata.

Selle andmeteaduse kursuse sissejuhatuse eesmärk on tutvuda andmeteaduse protsessiga. Me ei soovi protsessi konkreetsete aspektide liiga põhjalikku kajastamist, seetõttu on pealkirja osa "sissejuhatus".

Iga aspekti jaoks selgitab ideaalne kursus protsessi raames peamisi mõisteid, tutvustab levinumaid tööriistu ja esitab mõned näited (soovitavalt käed-külge).

Otsime ainult sissejuhatust. Seetõttu ei sisalda see juhend täielikke spetsialiseerumisi ega programme, nagu Johns Hopkinsi ülikooli andmeteaduse spetsialiseerumine Coursera või Udacity'i andmeanalüütik Nanodegree. Need kursuste kogumid välistavad selle sarja eesmärgi: leida iga aine jaoks parimad individuaalsed kursused, mis hõlmaksid andmeteaduslikku haridust. Selle artikliseeria viimased kolm juhendit käsitlevad üksikasjalikult kõiki andmeteaduse protsessi aspekte.

Vajalik on põhiline kodeerimine, statistika ja tõenäosuskogemus

Mitmed allpool loetletud kursused nõuavad programmeerimise, statistika ja tõenäosuskogemuse omandamist. See nõue on mõistetav, arvestades, et uus sisu on mõistlikult arenenud ja et nendel ainetel on sageli mitu kursust.

Selle kogemuse saab omandada meie andmeteaduse karjäärijuhendi kahe esimese artikli (programmeerimine, statistika) soovituste kaudu.

Parim andmeteaduse kursuse tutvustus on…

  • Data Science AZ ™: Kaasatud reaalajalised andmeteaduse harjutused (Kirill Eremenko / Udemy)

Kirill Eremenko andmeteadus AZ ™ Udemys on 20+ kvalifitseerunud kursuse andmeteaduse protsessi laiuse ja hõlmatuse osas selge võitja. Sellel on 4,5 tärni kaalutud keskmine hinnang üle 3071 arvustuse, mis seab selle vaadeldavate kursuste seas kõige kõrgema hinnanguga ja enim hinnatud kursuste hulka.

Selles antakse ülevaade kogu protsessist ja tuuakse näiteid tegelikust elust. 21-tunnise sisu korral on see pikk. Retsensendid armastavad juhendaja kättetoimetamist ja sisu korraldamist. Hind varieerub sõltuvalt Udemy allahindlustest, mis on sagedased, nii et võite osta juurdepääsu juba 10 dollariga.

Ehkki see ei kontrolli meie ruutu „ Ühiste andmeteaduste tööriistade kasutamine” , kasutatakse mitte-Pythoni / R-i tööriistavalikuid (gretl, Tableau, Excel) kontekstis tõhusalt. Eremenko mainib gretli valiku selgitamisel järgmist (gretl on statistiline tarkvarapakett), ehkki see kehtib kõigi tema kasutatavate tööriistade kohta (rõhuasetus minu jaoks):

Gretlis on meil võimalik teha sama modelleerimist nagu R-is ja Pythonis, kuid me ei pea kodeerima. See on siin suur asi. Mõni teist võib R-i juba väga hästi tunda, kuid mõni ei pruugi seda üldse tunda. Minu eesmärk on näidata teile, kuidas luua kindel mudel ja anda teile raamistik, mida saate rakendada mis tahes valitud tööriistas . gretl aitab meil kodeerimisse takerdumist vältida.

Üks silmapaistev arvustaja märkis järgmist:

Kirill on parim õpetaja, kelle olen Internetist leidnud. Ta kasutab näiteid reaalsest elust ja selgitab levinumaid probleeme, et saaksite kursuste sügavamat mõistmist. Ta annab ka palju teadmisi selle kohta, mida tähendab olla andmeteadlane alates ebapiisavate andmetega töötamisest kuni oma töö esitlemiseni C-klassi juhtkonnale. Soovitan seda kursust algajatele üliõpilastele vahepealsetele analüütikutele!

Suurepärane Pythonile keskendunud sissejuhatus

  • Andmeanalüüsi tutvustus (Udacity)

Udacity'i sissejuhatus andmete analüüsi on suhteliselt uus pakkumine, mis on osa Udacity populaarse andmeanalüütiku Nanodegree'st. See hõlmab andmeteaduse protsessi Pythoni abil selgelt ja ühtselt, ehkki modelleerimise aspektist on seda vähe. Hinnanguline ajakava on 36 tundi (kuus tundi nädalas kuue nädala jooksul), kuigi see on minu kogemuse järgi lühem. Sellel on viie tärni kaalutud keskmine hinnang üle kahe arvustuse. See on tasuta.

Videod on hästi toodetud ning juhendaja (Caroline Buckey) on selge ja isikupärane. Paljud programmeerimisviktoriinid rakendavad videos õpitud kontseptsioone. Õpilased lahkuvad kursuselt oma uute ja / või täiustatud NumPy ja Pandas oskuste osas (need on populaarsed Pythoni teegid). Lõplik projekt - mis hinnatakse ja vaadatakse läbi nanokogus, kuid mitte tasuta individuaalsel kursusel - võib olla kena lisand portfelli.

Muljetavaldav pakkumine ilma ülevaatuse andmeteta

  • Andmeteaduse alused (Big Data University)

Data Science Fundamentals on neljakäiguline seeria, mille pakub IBMi Big Data University. See sisaldab kursusi pealkirjaga Data Science 101, Data Science Methodology, Data Science Hands-on with Open Source Tools ja R 101.

See hõlmab kogu andmeteaduse protsessi ja tutvustab Pythoni, R-i ja mitmeid muid avatud lähtekoodiga tööriistu. Kursustel on tohutu toodanguväärtus. Hinnanguliselt kulub 13–18 tundi pingutusi, sõltuvalt sellest, kas läbite lõpus R 101 kursuse, mis pole selle juhendi jaoks vajalik. Kahjuks pole sellel ülevaateandmeid suuremate ülevaadete saitide kohta, mida me selle analüüsi jaoks kasutasime, nii et me ei saa neid veel kahe ülaltoodud variandi jaoks soovitada. See on tasuta.

Võistlus

Meie valikul nr 1 oli kaalutud keskmine hinnang 4,5 tärni viiest tärnist üle 3068 arvustuse. Vaatame teisi alternatiive järjestatuna langeva reitingu järgi. Allpool leiate mitu R-põhist kursust, kui olete sisse seadnud selle keele sissejuhatuse.

  • Python andmeteaduse ja masinõppe jaoks Bootcamp (Jose Portilla / Udemy): täielik protsesside katvus koos tööriistarohke fookusega (Python). Vähem protsessipõhist ja rohkem Pythoni väga üksikasjalikku sissejuhatust. Hämmastav kursus, kuigi see pole selle juhendi jaoks ideaalne. See, nagu Jose R-kursus allpool, võib kahekordistada nii Pythoni / R-i kui ka andmeteaduse sissejuhatust. 21,5 tundi sisu. Sellel on 4,7 tärniga kaalutud keskmine hinnang üle 1644 arvustuse. Maksumus varieerub sõltuvalt Udemy allahindlustest, mis on sagedased.
  • Andmeteaduse ja masinõppe Bootcamp koos R-ga (Jose Portilla / Udemy): täielik protsesside katvus koos tööriistarikka fookusega (R) Vähem protsessipõhist ja rohkem väga üksikasjalikku sissejuhatust R. hämmastavale kursusele, kuigi pole selle juhendi jaoks ideaalne. See, nagu ülaltoodud Jose Pythoni kursus, võib kahekordistada nii Pythoni / R-i kui ka andmeteaduse sissejuhatustena. 18 tundi sisu. Sellel on 4,6- tärni kaalutud keskmine hinnang üle 847 arvustuse. Maksumus varieerub sõltuvalt Udemy allahindlustest, mis on sagedased.
  • Andmeteadus ja masinõpe Pythoniga - käed külge! (Frank Kane / Udemy): Protsessi osaline kajastamine. Keskendub statistikale ja masinõppele. Korralik pikkus (üheksa tundi sisu). Kasutab Pythoni. Sellel on 4,5 tärni kaalutud keskmine hinnang üle 3 104 arvustuse. Hind varieerub sõltuvalt Udemy allahindlustest, mis on sagedased.
  • Sissejuhatus andmeteadusse (Data Hawk Tech / Udemy): Protsessi täielik katvus, kuigi piiratud katvusega. Üsna lühike (kolm tundi sisu). Lühidalt hõlmab nii R kui ka Pythoni. Sellel on 4,4- tärni kaalutud keskmine hinnang üle 62 arvustuse. Maksumus varieerub sõltuvalt Udemy allahindlustest, mis on sagedased.
  • Rakendatud andmeteadus: sissejuhatus (Syracuse ülikool / Open Education by Blackboard): Protsessi täielik katvus, kuigi see pole ühtlaselt levinud. Keskendub tugevalt põhistatistikale ja R. Liiga rakendatud ja selle juhendi jaoks ei ole protsessile piisavalt keskendutud. Veebikursuse kogemus tundub olevat lahus. Sellel on 4,33- tärni kaalutud keskmine hinnang üle 6 arvustuse. Tasuta.
  • Sissejuhatus andmeteadusesse (Nina Zumel ja John Mount / Udemy): ainult osaline protsesside katvus, kuigi andmete ettevalmistamise ja modelleerimise aspektides on see põhjalik. Okei pikkus (kuus tundi sisu). Kasutab R. Sellel on 4,3 tärni kaalutud keskmine hinnang üle 101 arvustuse. Maksumus varieerub sõltuvalt Udemy allahindlustest, mis on sagedased.
  • Rakenduslik andmeteadus Pythoniga (V2 Maestros / Udemy): Protsessi täielik katvus, hea katvuse sügavus protsessi iga aspekti jaoks. Korralik pikkus (8,5 tundi sisu). Kasutab Pythoni. Sellel on 4,3 tärni kaalutud keskmine hinnang üle 92 arvustuse. Maksumus varieerub sõltuvalt Udemy allahindlustest, mis on sagedased.
  • Kas soovite olla andmeteadlane? (V2 Maestros / Udemy): protsessi täielik katvus, kuigi piiratud katvuse sügavus. Üsna lühike (3 tundi sisu). Tööriista piiratud ulatus. Sellel on 4,3 tärni kaalutud keskmine hinnang üle 790 arvustuse. Maksumus varieerub sõltuvalt Udemy allahindlustest, mis on sagedased.
  • Andmed ülevaate saamiseks: sissejuhatus andmeanalüüsi (Aucklandi ülikool / FutureLearn): leviala ulatus on ebaselge. Väited, et keskendutakse andmete uurimisele, avastamisele ja visualiseerimisele. Ei pakuta nõudmisel. 24 tundi sisu (kolm tundi nädalas kaheksa nädala jooksul). Sellel on nelja tärniga kaalutud keskmine hinnang üle 2 arvustuse. Saadaval on tasuta tasuline sertifikaat.
  • Andmeteaduse orientatsioon (Microsoft / edX): Osaline protsessi katvus (puudub modelleerimise aspekt). Kasutab Exceli, mis on mõttekas, kuna see on Microsofti kaubamärgiga kursus. 12–24 tundi sisu (kaks-neli tundi nädalas kuue nädala jooksul). Sellel on 3,95- tärni kaalutud keskmine hinnang üle 40 arvustuse. Tasuta koos kinnitatud sertifikaadiga, mis on saadaval 25 dollari eest.
  • Data Science Essentials (Microsoft / edX): Täielik protsesside katvus koos hea katvuse sügavusega iga aspekti jaoks. Hõlmab R, Python ja Azure ML (Microsofti masinõppe platvorm). Mitmed 1-tärnised ülevaated viitavad tööriista valikule (Azure ML) ja juhendaja kehvale kättetoimetamisele. 18–24 tundi sisu (kolm-neli tundi nädalas kuue nädala jooksul). Sellel on 3,81- tärni kaalutud keskmine hinnang üle 67 arvustuse. Tasuta koos kinnitatud sertifikaadiga, mis on saadaval 49 dollari eest.
  • Rakenduslik andmeteadus R-ga (V2 Maestros / Udemy): ülaltoodud V2 Maestrose Pythoni kursuse R-kaaslane. Protsessi täielik katvus koos hea katvuse iga protsessi aspektiga. Korralik pikkus (11 tundi sisu). Kasutab R. Sellel on 3,8- tärni kaalutud keskmine hinnang üle 212 arvustuse. Maksumus varieerub sõltuvalt Udemy allahindlustest, mis on sagedased.
  • Sissejuhatus andmeteadusesse (Udacity): osaline protsesside katvus, ehkki käsitletud teemadel on hea sügavus. Puudub uurimisaspekt, ehkki Udacity'l on suurepärane ja täielik kursus uurimuslike andmete analüüsiks (EDA). Väidab, et on 48 tundi pikk (kuus tundi nädalas kaheksa nädala jooksul), kuid on minu kogemuse järgi lühem. Mõne arvustuse kohaselt puudub täpsema sisu seadistamine. Tundub organiseerimata. Kasutab Pythoni. Sellel on 3,61- tärni kaalutud keskmine hinnang üle 18 arvustuse. Tasuta.
  • Sissejuhatus andmeteadusesse Pythonis (Michigani ülikool / Coursera): Protsessi osaline katvus. Modelleerimist ja visualiseerimist ei toimu, kuigi Pythoni spetsialiseerumisega rakendatud andmeteaduse kursused nr 2 ja nr 3 hõlmavad neid aspekte. Kõigi kolme kursuse läbimine oleks nende juhendite jaoks liiga põhjalik. Kasutab Pythoni. Neli nädalat pikk. Sellel on 3,6- tärni kaalutud keskmine hinnang üle 15 arvustuse. Saadaval on tasuta ja tasulised võimalused.
  • Andmepõhine otsuste tegemine (PwC / Coursera): osaline katvus (puudub modelleerimine), keskendudes ärile. Tutvustab paljusid tööriistu, sealhulgas R, Python, Excel, SAS ja Tableau. Neli nädalat pikk. Sellel on 3,5 tärni kaalutud keskmine hinnang üle 2 arvustuse. Saadaval on tasuta ja tasulised võimalused.
  • Andmeteaduse krahhikursus (Johns Hopkinsi ülikool / Coursera): äärmiselt lühike ülevaade kogu protsessist. Selle sarja jaoks liiga lühike. Kaks tundi pikk. Sellel on 3,4 tärni kaalutud keskmine hinnang üle 19 arvustuse. Saadaval on tasuta ja tasulised võimalused.
  • Andmeteadlase tööriistakast (Johns Hopkinsi ülikool / Coursera): äärmiselt lühike ülevaade kogu protsessist. Rohkem Johns Hopkinsi ülikooli andmeteaduse spetsialiseerumise kursusest. Väidetavalt on sisu 4–16 tundi (üks-neli tundi nädalas nelja nädala jooksul), ehkki üks ülevaataja märkis, et selle saab valmis kahe tunniga. Sellel on 3,22 tärniga kaalutud keskmine hinnang üle 182 arvustuse. Saadaval on tasuta ja tasulised võimalused.
  • Andmehaldus ja visualiseerimine (Wesleyani ülikool / Coursera): Osaline protsesside katvus (puudub modelleerimine). Neli nädalat pikk. Hea toodanguväärtus. Kasutab Pythoni ja SAS-i. Sellel on 2,67 tärniga kaalutud keskmine hinnang üle 6 arvustuse. Saadaval on tasuta ja tasulised võimalused.

Järgmistel kursustel ei olnud 2017. aasta jaanuari seisuga ühtegi arvustust.

  • CS109 andmeteadus (Harvardi ülikool): täielik protsesside katvus suures sügavuses (selle sarja eesmärgil ilmselt liiga põhjalik). Terve 12-nädalane bakalaureuseõpe. Kursuse navigeerimine on keeruline, kuna kursus pole mõeldud veebitarbimiseks. Harvardi tegelikke loenguid filmitakse. Sellest kursusest pärineb ülaltoodud andmeteaduse protsessi infograafik. Kasutab Pythoni. Ülevaate andmed puuduvad. Tasuta.
  • Ettevõtte Data Analytics sissejuhatus (Colorado ülikool Boulder / Coursera): Osaline protsesside katvus (puudub modelleerimise ja visualiseerimise aspekt), keskendudes ärile. Andmeteaduse protsess on nende loengutes varjatud kui “Information-Action Value chain”. Neli nädalat pikk. Kirjeldab mitut tööriista, kuigi hõlmab SQL-i ainult suvalises ulatuses. Ülevaate andmed puuduvad. Saadaval on tasuta ja tasulised võimalused.
  • Sissejuhatus andmeteadusesse (Lynda): Protsessi täielik katvus, kuigi piiratud katvusega. Üsna lühike (kolm tundi sisu). Tutvustab nii R kui ka Pythoni. Ülevaate andmed puuduvad. Maksumus sõltub Lynda tellimusest.

Selle kokku pakkimine

See on kolmas kuuest osast koosnevast seeriast, mis hõlmab parimaid veebikursusi enda alustamiseks andmeteaduste valdkonnas. Käsitlesime programmeerimist esimeses artiklis ning statistikat ja tõenäosust teises artiklis. Sarja ülejäänud osa hõlmab muid andmeteaduse põhipädevusi: andmete visualiseerimine ja masinõpe.

Kui soovite õppida andmeteadust, alustage ühest neist programmeerimistundidest

Kui soovite õppida andmeteadust, võtke mõned neist statistikatundidest

Viimane osa on kokkuvõte nendest artiklitest, lisaks parimad veebikursused muude võtmeteemade jaoks, nagu andmete rabelemine, andmebaasid ja isegi tarkvaratehnika.

Kui otsite andmeteaduse veebikursuste täielikku loendit, leiate need Class Centrali andmeteaduse ja suurandmete teema lehelt.

Kui teile meeldis seda lugeda, vaadake Class Centeri teisi tükke:

Siin on 250 Ivy League'i kursust, mida saate praegu veebis tasuta osaleda

250 MOOCi Brownist, Columbiast, Cornellist, Dartmouthist, Harvardist, Pennist, Princetonist ja Yale'ist.

Andmete järgi 50 parimat tasuta veebikõrgkooli kursust

Kui ma 2011. aasta novembris Class Centeri käivitasin, oli umbes 18 tasuta veebikursust ja peaaegu kõik…

Kui teil on ettepanekuid kursuste kohta, millest mul puudus, andke mulle vastustes teada!

Kui leiate, et see on kasulik, klõpsake nuppu? nii et rohkem inimesi näeb seda siin Mediumis.

See on kokkuvõtlik versioon minu algsest artiklist, mis avaldati Class Centralis, kuhu olen lisanud täiendavad kursuste kirjeldused, ainekavad ja mitu arvustust.