Kiekvieną „Intro to Data Science“ kursą internete suskirstiau pagal tūkstančius duomenų taškų

Prieš metus atsisakiau vienos geriausių informatikos programų Kanadoje. Aš pradėjau kurti savo duomenų mokslo magistro programą naudodamas internetinius išteklius. Supratau, kad visko, ko man reikia, galėčiau išmokti per „edX“, „Coursera“ ir „Udacity“. Aš galėčiau to išmokti greičiau, efektyviau ir už nedidelę kainą.

Dabar jau beveik baigiau. Aš išklausiau daug su duomenų mokslu susijusių kursų ir dar daugelio dalių auditą. Aš žinau galimybes ir kokių įgūdžių reikia besimokantiesiems, besiruošiantiems atlikti duomenų analitiko ar duomenų mokslininko vaidmenį. Prieš keletą mėnesių aš pradėjau kurti apžvalgomis pagrįstą vadovą, kuriame rekomenduojami geriausi kursai kiekvienam duomenų mokslo dalykui.

Pirmajam šios serijos vadovui rekomendavau keletą kodavimo klasių duomenų pradedantiesiems pradedantiesiems. Tada tai buvo statistikos ir tikimybės klasės.

Dabar apie duomenų mokslą.

(Nesijaudinkite, jei nesate tikri, ką reiškia įvadas į duomenų mokslą. Aš netrukus paaiškinsiu.)

Šiame vadove praleidau daugiau nei 10 valandų bandydamas identifikuoti kiekvieną internetinį duomenų mokslo kursų įvadą, kuris buvo siūlomas nuo 2017 m. Sausio mėn., Iš jų mokymo programų ir apžvalgų išgaunant pagrindines informacijos dalis ir sudarant jų įvertinimus. Šiai užduočiai atlikti kreipiausi ne į atvirojo kodo „Class Central“ bendruomenę, bet ir į jos tūkstančių kursų įvertinimų ir apžvalgų duomenų bazę.

Nuo 2011 m. „Class Central“ įkūrėjas Dhawalas Shahas atidžiau stebėjo internetinius kursus nei, be abejo, kas nors kitas pasaulyje. Dhawalas asmeniškai man padėjo sudaryti šį išteklių sąrašą.

Kaip mes pasirinkome kursus, į kuriuos reikia atsižvelgti

Kiekvienas kursas turi atitikti tris kriterijus:

  1. Ji turi mokyti duomenų mokslo proceso. Apie tai netrukus.
  2. Jis turi būti užsakomas arba siūlomas kas kelis mėnesius.
  3. Tai turi būti interaktyvus internetinis kursas, todėl jokių knygų ar tik skaitomų pamokų nėra . Nors tai yra perspektyvūs mokymosi būdai, šiame vadove daugiausia dėmesio skiriama kursams.

Manome, kad apėmėme visus žymius kursus, kurie atitinka pirmiau nurodytus kriterijus. Kadangi, atrodo, yra šimtai „Udemy“ kursų, mes nusprendėme apsvarstyti tik labiausiai peržiūrėtus ir geriausiai įvertintus kursus. Vis dėlto yra tikimybė, kad mes ką nors praleidome. Taigi, prašome pranešti mums komentarų skiltyje, jei palikome gerą kursą.

Kaip mes vertinome kursus

Norėdami apskaičiuoti kiekvieno kurso svertinį vidurkį, mes surinkome vidutinį įvertinimą ir apžvalgų skaičių iš „Class Central“ ir kitų apžvalgų svetainių. Mes skaitėme tekstines apžvalgas ir naudojome šiuos atsiliepimus, kad papildytume skaitinius įvertinimus.

Subjektyvius mokymo planus kvietėme remdamiesi dviem veiksniais:

1. Duomenų mokslo proceso aprėptis. Ar kursas papildo ar praleidžia tam tikrus dalykus? Ar per daug išsamiai aptariami tam tikri dalykai? Žr. Kitame skyriuje, ką reiškia šis procesas.

2. Paprastų duomenų mokslo priemonių naudojimas. Ar kursas mokomas naudojant populiarias programavimo kalbas, tokias kaip Python ir (arba) R? Tai nėra būtina, tačiau daugeliu atvejų naudinga, todėl šiek tiek pirmenybė teikiama šiems kursams.

Kas yra duomenų mokslo procesas?

Kas yra duomenų mokslas? Ką veikia duomenų mokslininkas? Tai yra pagrindinių klausimų tipai, į kuriuos turėtų atsakyti įvadas į duomenų mokslą. Šioje Harvardo profesorių Joe Blitzsteino ir Hanspeterio Pfisterio infografikoje pateikiamas tipiškas duomenų mokslo procesas , kuris padės mums atsakyti į šiuos klausimus.

Mūsų tikslas su šiuo duomenų mokslo kurso įvadu yra susipažinti su duomenų mokslo procesu. Mes nenorime pernelyg nuodugniai apžvelgti konkrečius proceso aspektus, todėl pavadinimo dalis „įvadas“.

Kiekvienam aspektui idealus kursas paaiškina pagrindines proceso sąvokas, pateikia įprastas priemones ir pateikia keletą pavyzdžių (pageidautina, kad tai būtų praktinė praktika).

Mes tik ieškome įžangos. Todėl šiame vadove nebus pateiktos visos specializacijos ar programos, tokios kaip Johns Hopkinso universiteto duomenų mokslo specializacija „Coursera“ ar „Udacity“ duomenų analitikas „Nanodegree“. Šie kursų rinkiniai vengia šios serijos tikslo: rasti geriausius individualius kursus kiekvienam dalykui, apimantį duomenų mokslo švietimą. Paskutiniai trys šios straipsnių grupės vadovai išsamiai apžvelgs kiekvieną duomenų mokslo proceso aspektą.

Būtinas pagrindinis kodavimas, statistika ir tikimybės patirtis

Keli žemiau išvardyti kursai reikalauja pagrindinio programavimo, statistikos ir tikimybės patirties. Šis reikalavimas suprantamas, nes naujas turinys yra pakankamai pažengęs ir kad šiems dalykams dažnai skiriami keli kursai.

Šią patirtį galima įgyti pasinaudojus mūsų rekomendacijomis, pateiktomis pirmuose dviejuose šio duomenų mokslo karjeros vadovo straipsniuose (programavimas, statistika).

Geriausias įvadas į duomenų mokslo kursus yra…

  • Duomenų mokslas AZ ™: įtraukiamos realaus gyvenimo duomenų mokslo pratybos (Kirillas Eremenko / Udemy)

Kirillo Eremenko duomenų mokslas AZ ™ apie „Udemy“ yra aiškus nugalėtojas, vertinant daugiau nei 20 kvalifikuotų kursų duomenų mokslo proceso aprėptį ir gylį. Jis turi 4,5 žvaigždutės įvertintą vidutinį įvertinimą virš 3071 atsiliepimų, todėl jis patenka į aukščiausiai įvertintus ir labiausiai įvertintus kursus.

Jame pateikiamas visas procesas ir pateikiami realūs pavyzdžiai. 21 valandos turinio jis yra ilgas. Recenzentams patinka instruktoriaus pristatymas ir turinio organizavimas. Kaina skiriasi priklausomai nuo „Udemy“ nuolaidų, kurios yra dažnos, todėl galėsite įsigyti prieigą už vos 10 USD.

Nors tai netikrina laukelio „bendrų duomenų mokslo įrankių naudojimas“ , ne „Python“ / R įrankių pasirinkimai („gretl“, „Tableau“, „Excel“) kontekste naudojami efektyviai. Aiškindamas „gretl“ pasirinkimą Eremenko pamini šiuos dalykus („gretl“ yra statistinis programinės įrangos paketas), nors jis taikomas visiems jo naudojamiems įrankiams (mano akcentas):

„Gretl“ mes galėsime atlikti tą patį modeliavimą, kaip ir „R“ ir „Python“, tačiau mums nereikės koduoti. Čia čia didelis reikalas. Kai kurie iš jūsų jau gali labai gerai pažinti R, bet kai kurie gali to visiškai nežinoti. Mano tikslas yra parodyti, kaip sukurti tvirtą modelį, ir suteikti jums sistemą, kurią galėsite pritaikyti bet kuriame pasirinktame įrankyje . „gretl“ padės išvengti įstrigimo kodavime.

Vienas žinomas apžvalgininkas atkreipė dėmesį į tai:

Kirilas yra geriausias mokytojas, kurį radau internete. Jis naudoja realaus gyvenimo pavyzdžius ir paaiškina įprastas problemas, kad galėtumėte giliau suprasti kursinį darbą. Jis taip pat pateikia daug įžvalgų, ką reiškia būti duomenų mokslininku nuo darbo su nepakankamais duomenimis iki savo darbo pristatymo C klasės vadovybei. Aš labai rekomenduoju šį kursą pradedantiesiems studentams tarpinių duomenų analitikams!

Puiki į „Python“ orientuota įžanga

  • Duomenų analizės įvadas (nepakartojamumas)

„Udacity“ duomenų analizės įvadas yra palyginti naujas pasiūlymas, kuris yra populiaraus „Udacity“ duomenų analizatoriaus „Nanodegree“ dalis. Tai aiškiai ir nuosekliai apima duomenų mokslo procesą, naudojant „Python“, nors modeliavimo aspektu šiek tiek trūksta. Apskaičiuota laiko juosta yra 36 valandos (šešios valandos per savaitę per šešias savaites), nors mano patirtis yra trumpesnė. Jis turi 5 žvaigždučių svertinį vidutinį įvertinimą, palyginti su dviem apžvalgomis. Nemokama.

Vaizdo įrašai yra gerai sukurti, o instruktorė (Caroline Buckey) yra aiški ir patraukli. Daugybė programavimo viktorinų įgyvendina vaizdo įrašuose išmoktas sąvokas. Studentai išeis iš kurso pasitikėdami savo naujais ir (arba) patobulintais „NumPy“ ir „Pandas“ įgūdžiais (tai yra populiarios „Python“ bibliotekos). Galutinis projektas, kuris vertinamas ir peržiūrimas Nanodegree, bet nėra nemokamas individualus kursas, gali būti puikus priedas prie portfelio.

Įspūdingas pasiūlymas be apžvalgos duomenų

  • Duomenų mokslo pagrindai („Big Data University“)

„Data Science Fundamentals“ yra keturių kursų serija, kurią teikia IBM „Big Data University“. Ją sudaro kursai „Data Science 101“, „Data Science Methodology“, „Data Science Hands-on with Open Source Tools“ ir „R 101“.

Tai apima visą duomenų mokslo procesą ir pristato „Python“, „R“ ir keletą kitų atvirojo kodo įrankių. Kursai turi didžiulę produkcijos vertę. Apskaičiuota 13–18 valandų pastangų, atsižvelgiant į tai, ar baigsite „R 101“ kursą, kuris nėra būtinas šio vadovo tikslams. Deja, ji neturi apžvalgos duomenų apie pagrindines apžvalgos svetaines, kurias naudojome šiai analizei, todėl kol kas negalime rekomenduoti jų naudoti pirmiau nurodytose dviejose parinktyse. Nemokama.

Varžybos

Mūsų pasirinktas numeris 1 įvertino vidutinį svertinį įvertinimą 4,5 iš 5 žvaigždžių, palyginti su 3068 atsiliepimais. Pažvelkime į kitas alternatyvas, surūšiuotas pagal mažėjantį reitingą. Žemiau rasite keletą į R orientuotų kursų, jei esate pasirengę įvadą ta kalba.

  • „Python“, skirtas duomenų mokslui ir mašininio mokymosi „Bootcamp“ (Jose Portilla / Udemy): Visas proceso aprėptis, sutelkiant dėmesį į įrankius („Python“). Mažiau procesų ir daugiau labai išsamus „Python“ įvadas. Nuostabus kursas, nors ir nėra idealus šio vadovo taikymo sričiai. Jis, kaip ir toliau pateiktas Jose'o R kursas, gali būti dvigubas ir „Python / R“, ir duomenų mokslo įvadas. 21,5 valandos turinio. Jis turi 4.7 star svertinis vidurkis reitingą virš 1,644 peržiūrų. Kaina skiriasi priklausomai nuo „Udemy“ nuolaidų, kurios yra dažnos.
  • Duomenų mokslas ir mašininio mokymosi „Bootcamp“ su „R“ (Jose Portilla / Udemy): Visas proceso aprėptis, sutelkiant dėmesį į įrankius (R). Mažiau procesų ir labiau labai išsamus R. Amazing kurso įvadas, nors ir nėra idealus šio vadovo taikymo sričiai. Jis, kaip ir aukščiau pateiktas Jose'o „Python“ kursas, gali būti dvigubas ir „Python / R“, ir duomenų mokslo įvadas. 18 valandų turinio. Jis turi 4,6 žvaigždutės įvertintą vidutinį įvertinimą virš 847 atsiliepimų. Kaina skiriasi priklausomai nuo „Udemy“ nuolaidų, kurios yra dažnos.
  • Duomenų mokslas ir mašininis mokymasis naudojant „Python“ - rankos! (Frank Kane / Udemy): Dalinė proceso aprėptis. Pagrindinis dėmesys skiriamas statistikai ir mašininiam mokymuisi. Tinkamas ilgis (devynios valandos turinio). Naudoja „Python“. Jis turi 4,5 žvaigždutės svertinį vidutinį įvertinimą, palyginti su 3 104 atsiliepimais. Kaina skiriasi priklausomai nuo „Udemy“ nuolaidų, kurios yra dažnos.
  • Įvadas į duomenų mokslą („Data Hawk Tech / Udemy“): Visas proceso aprėptis, nors ir ribotas. Gana trumpas (trijų valandų turinys). Trumpai aprėpia R ir Python. Jis turi 4.4 star svertinis vidurkis reitingą per 62 atsiliepimus. Kaina skiriasi priklausomai nuo „Udemy“ nuolaidų, kurios yra dažnos.
  • Taikomasis duomenų mokslas: įvadas (Sirakūzų universitetas / „Open Education by Blackboard“): visa proceso aprėptis, nors ir nevienodai paskirstyta. Daug dėmesio skiriama pagrindinei statistikai ir R. Šiame vadove per daug taikoma ir nepakankamai dėmesio skiriama procesams. Internetinių kursų patirtis jaučiasi nesusijusi. Jis turi 4,33 žvaigždutės įvertintą vidutinį įvertinimą virš 6 apžvalgų. Laisvas.
  • Duomenų mokslo įvadas (Nina Zumel ir John Mount / Udemy): tik dalinis proceso aprėptis, nors ir pakankamai gilus duomenų rengimo ir modeliavimo aspektai. Gerai, trukmė (šešios valandos turinio). Naudoja R. Jis turi 4,3 žvaigždutės vidutinį svertinį įvertinimą virš 101 atsiliepimo. Kaina skiriasi priklausomai nuo „Udemy“ nuolaidų, kurios yra dažnos.
  • Taikomasis duomenų mokslas su „Python“ (V2 „Maestros“ / „Udemy“): Visas proceso aprėptis, gerai aprėpiant kiekvieną proceso aspektą. Padorus ilgis (8,5 val. Turinio). Naudoja „Python“. Jis turi 4,3 žvaigždutės įvertintą vidutinį įvertinimą virš 92 atsiliepimų. Kaina skiriasi priklausomai nuo „Udemy“ nuolaidų, kurios yra dažnos.
  • Nori būti duomenų mokslininkas? (V2 Maestros / Udemy): Visas proceso aprėptis, nors ir ribotas. Gana trumpas (3 valandos turinio). Ribota įrankio aprėptis. Jis turi 4,3 žvaigždutės vidutinį svertinį įvertinimą virš 790 apžvalgų. Kaina skiriasi priklausomai nuo „Udemy“ nuolaidų, kurios yra dažnos.
  • Duomenys įžvalgoms: įvadas į duomenų analizę (Oklando universitetas / FutureLearn): Neaiškus aprėpties plotis. Tvirtina, kad daugiausia dėmesio skiriama duomenų tyrimui, atradimui ir vizualizavimui. Nesiūloma pagal pareikalavimą. 24 valandos turinio (tris valandas per savaitę aštuonias savaites). Jis turi 4 žvaigždučių svertinį vidutinį įvertinimą virš 2 apžvalgų. Nemokamas su mokamu sertifikatu.
  • Duomenų mokslo orientacija (Microsoft / edX): dalinė proceso aprėptis (trūksta modeliavimo aspekto). Naudoja „Excel“, o tai prasminga, nes tai yra „Microsoft“ prekės ženklo kursai. 12–24 val. Turinio (dvi – keturios valandos per savaitę per šešias savaites). Jis turi 3,95 žvaigždutės įvertintą vidutinį įvertinimą virš 40 apžvalgų. Nemokamai su patvirtintu sertifikatu galima įsigyti už 25 USD.
  • „Data Science Essentials“ („Microsoft“ / „edX“): pilnas proceso aprėptis, gerai aprėpiant kiekvieną aspektą. Apima „R“, „Python“ ir „Azure ML“ („Microsoft“ mašininio mokymosi platforma). Keli 1 žvaigždutės atsiliepimai, kuriuose nurodomas įrankio pasirinkimas („Azure ML“) ir prastas instruktoriaus pristatymas. 18–24 valandos turinio (tris-keturias valandas per savaitę per šešias savaites). Jis turi 3.81 star svertinis vidurkis reitingą virš 67 atsiliepimus. Nemokamai su patvirtintu sertifikatu galima įsigyti už 49 USD.
  • Taikomasis duomenų mokslas su R (V2 „Maestros“ / „Udemy“): aukščiau pateikto „V2 Maestros“ Python kurso R palydovas. Viso proceso aprėptis, gerai aprėpiant kiekvieną proceso aspektą. Padorus ilgis (11 valandų turinio). Naudoja R. Jis turi 3,8 žvaigždutės įvertintą vidutinį įvertinimą virš 212 atsiliepimų. Kaina skiriasi priklausomai nuo „Udemy“ nuolaidų, kurios yra dažnos.
  • Įvadas į duomenų mokslą („Udacity“): dalinis proceso aprėptis, nors ir pakankamai gilus aptariamoms temoms. Trūksta tiriamojo aspekto, nors „Udacity“ turi puikų, išsamų tiriamųjų duomenų analizės kursą (EDA). Teigiama, kad jos ilgis yra 48 valandos (šešios valandos per savaitę per aštuonias savaites), tačiau mano patirtis yra trumpesnė. Kai kurie atsiliepimai mano, kad trūksta išplėstinio turinio sąrankos. Jaučiasi neorganizuotas. Naudoja „Python“. Jis turi 3,61 žvaigždutės įvertintą vidutinį įvertinimą virš 18 apžvalgų. Laisvas.
  • Duomenų mokslo Python'e (Mičigano universitetas / Coursera) įvadas: dalinė proceso aprėptis. Jokio modeliavimo ir vizualizavimo, nors taikomųjų duomenų mokslo su „Python“ specializacija 2 ir 3 kursai apima šiuos aspektus. Šių vadovų prasme visų trijų kursų lankymas būtų per gilus. Naudoja „Python“. Keturių savaičių trukmė. Jis turi 3,6 žvaigždutės įvertintą vidutinį įvertinimą virš 15 apžvalgų. Galimi nemokami ir mokami variantai.
  • Duomenimis pagrįstas sprendimų priėmimas (PwC / Coursera): dalinis aprėptis (trūksta modeliavimo), sutelkiant dėmesį į verslą. Pristato daugybę įrankių, įskaitant R, Python, Excel, SAS ir Tableau. Keturių savaičių trukmė. Jis turi 3.5 star svertinis vidurkis reitingą virš 2 atsiliepimus. Galimi nemokami ir mokami variantai.
  • Duomenų mokslo avarijos kursai (Johns Hopkins universitetas / Coursera): itin trumpa viso proceso apžvalga. Per trumpas šios serijos tikslams. Dvi valandos. Jis turi 3.4 star svertinis vidurkis reitingą virš 19 atsiliepimus. Galimi nemokami ir mokami variantai.
  • Duomenų mokslininko įrankių rinkinys (Johns Hopkins universitetas / Coursera): itin trumpa viso proceso apžvalga. Daugiau apie Johns Hopkins universiteto duomenų mokslo specializacijos kursą. Tvirtina, kad turi 4–16 valandų turinio (keturias valandas per savaitę per keturias savaites), nors vienas apžvalgininkas pažymėjo, kad jis gali būti baigtas per dvi valandas. Jis turi 3.22 star svertinis vidurkis reitingą virš 182 atsiliepimus. Galimi nemokami ir mokami variantai.
  • Duomenų valdymas ir vizualizavimas (Wesleyan University / Coursera): dalinė proceso aprėptis (trūksta modeliavimo). Keturių savaičių trukmė. Gera produkcijos vertė. Naudoja „Python“ ir SAS. Jis turi 2.67 star svertinis vidurkis reitingą nei 6 atsiliepimus. Galimi nemokami ir mokami variantai.

Šių kursų apžvalgos 2017 m. Sausio mėn. Nebuvo.

  • CS109 duomenų mokslas (Harvardo universitetas): Visas proceso aprėptis labai giliai (tikriausiai per giliai šios serijos tikslams). Visas 12 savaičių bakalauro kursas. Kursų navigacija yra sunki, nes kursai nėra skirti naudoti internetu. Filmuojamos tikrosios Harvardo paskaitos. Aukščiau pateikta duomenų mokslo proceso infografika yra kilusi iš šio kurso. Naudoja „Python“. Peržiūros duomenų nėra. Laisvas.
  • Verslo duomenų analizės įvadas (Kolorado universitetas, Boulderis / Coursera): dalinė proceso aprėptis (trūksta modeliavimo ir vizualizavimo aspektų), daugiausia dėmesio skiriant verslui. Duomenų mokslo procesas jų paskaitose užmaskuotas kaip „Informacijos-veiksmo vertės grandinė“. Keturių savaičių trukmė. Aprašomi keli įrankiai, nors SQL apima bet kokį gylį. Peržiūros duomenų nėra. Galimi nemokami ir mokami variantai.
  • Įvadas į duomenų mokslą („Lynda“): Visas proceso aprėptis, nors ir ribotas. Gana trumpas (trijų valandų turinys). Pristato R ir Python. Peržiūros duomenų nėra. Kaina priklauso nuo „Lynda“ prenumeratos.

Apvyniokite jį

Tai yra trečioji šešių dalių serija, apimanti geriausius internetinius kursus, leidžiančius patekti į duomenų mokslo sritį. Pirmame straipsnyje aptarėme programavimą, o antrame - statistiką ir tikimybę. Likusi serijos dalis apims kitas pagrindines duomenų mokslo kompetencijas: duomenų vizualizavimą ir mašininį mokymąsi.

Jei norite išmokti Duomenų mokslą, pradėkite nuo vienos iš šių programavimo klasių

Jei norite išmokti Duomenų mokslo, eikite į keletą šių statistikos užsiėmimų

Paskutinis darbas bus šių straipsnių santrauka, taip pat geriausi internetiniai kursai, skirti kitoms pagrindinėms temoms, tokioms kaip duomenų grumtis, duomenų bazės ir net programinės įrangos inžinerija.

Jei ieškote išsamaus duomenų mokslo internetinių kursų sąrašo, juos galite rasti „Class Central“ duomenų mokslo ir didelių duomenų temų puslapyje.

Jei jums patiko tai skaityti, peržiūrėkite kitus „Class Central“ kūrinius:

Čia yra 250 „Ivy League“ kursų, kuriuos dabar galite nemokamai lankyti internete

250 MOOC iš Browno, Kolumbijos, Kornelio, Dartmuto, Harvardo, Penno, Prinstono ir Jeilio.

Pagal duomenis 50 geriausių nemokamų internetinių universitetinių kursų

Kai 2011 m. Lapkričio mėn. Atidariau „Class Central“, buvo apie 18 nemokamų internetinių kursų ir beveik visi…

Jei turite pasiūlymų dėl praleistų kursų, praneškite man atsakymuose!

Jei radote tai naudinga, spustelėkite? taigi daugiau žmonių tai pamatys čia, „Medium“.

Tai sutrumpinta mano originalaus straipsnio, paskelbto „Class Central“, versija, kur įtraukiau tolesnius kursų aprašymus, programas ir keletą apžvalgų.