Mašininis mokymasis: įvadas į vidutines kvadrato paklaidas ir regresijos linijas

Įvadas

Šiame straipsnyje bus nagrinėjamas statistinis metodo vidurkis paklaida , ir aš aprašysiu šio metodo ryšį su regresijos tiese .

Pavyzdį sudaro taškai Dekarto ašyje. Apibrėžsime matematinę funkciją, kuri suteiks tiesę, kuri geriausiai eina tarp visų Dekarto ašies taškų.

Tokiu būdu sužinosime ryšį tarp šių dviejų metodų ir kaip jų ryšio rezultatas atrodo kartu.

Bendras paaiškinimas

Tai yra „Wikipedia“ apibrėžimas:

Statistikoje vidutinė įverčio (nepastebėto kiekio įvertinimo procedūros kvadrato paklaida) rodo vidutinį klaidų kvadratų vidurkį - tai yra vidutinį kvadratinį skirtumą tarp apskaičiuotų verčių ir to, kas yra įvertinta. MSE yra rizikos funkcija, atitinkanti numatomą klaidos praradimo kvadrato vertę. Faktas, kad MSE beveik visada yra griežtai teigiamas (o ne nulis), yra dėl atsitiktinumo arba dėl to, kad vertintojas neatsižvelgia į informaciją, kuri galėtų pateikti tikslesnį įvertinimą.

Straipsnio struktūra

  • Pajuskite idėją, grafiko vizualizaciją, vidutinę kvadrato klaidų lygtį.
  • Matematinė dalis, kurioje yra algebrinės manipuliacijos ir dviejų kintamųjų funkcijų darinys, norint rasti minimumą. Šis skyrius skirtas tiems, kurie nori suprasti, kaip vėliau gauname matematines formules. Galite tai praleisti, jei tai jūsų nedomina.
  • Gautų matematinių formulių paaiškinimas ir kiekvieno kintamojo vaidmuo formulėje.
  • Pavyzdžiai

Pajuskite idėją

Tarkime, kad turime septynis taškus, o mūsų tikslas yra rasti liniją, kuri sumažintų atstumą iki šių skirtingų taškų kvadratu.

Pabandykime tai suprasti.

Imsiu pavyzdį ir nubrėžsiu liniją tarp taškų. Žinoma, mano piešinys nėra pats geriausias, bet jis skirtas tik demonstravimo tikslams.

Galbūt klausiate savęs, kas yra ši diagrama?

  • kad violetiniai taškai yra taškai grafike. Kiekviename taške yra x koordinatė ir y koordinatė.
  • Mėlyna linija yra mūsų prognozavimas linija. Tai yra linija, kuri eina per visus taškus ir geriausiai tinka jiems. Šioje eilutėje yra numatyti taškai.
  • Raudona linija tarp kiekvieno raudonos taško ir prognozės eilutėje yra klaidų. Kiekviena klaida yra atstumas nuo taško iki jo numatomo taško.

Turėtumėte prisiminti šią lygtį iš savo mokyklos dienų, y = Mx + B , kur M yra tiesės nuolydis, o B yra y tiesės perėmimas.

Mes norime rasti M (nuolydis) ir B (y-perėmimas), kurie sumažina klaidą kvadrate!

Apibrėžkime matematinę lygtį, kuri suteiks mums visų taškų vidutinę kvadrato paklaidą.

Panagrinėkime, ką ši lygtis iš tikrųjų reiškia.

  • Matematikoje keistai E atrodantis personažas vadinamas apibendrinimu (graikų sigma). Tai skaičių sekos suma nuo i = 1 iki n. Įsivaizduokime tai kaip taškų masyvą, kuriame pereiname visus taškus, nuo pirmo (i = 1) iki paskutinio (i = n).
  • Kiekvienam taškui imame taško y koordinatę ir y'koordinatę. Y koordinatė yra mūsų purpurinis taškas. Y taškas sėdi ant mūsų sukurtos tiesės. Iš y koordinatės vertės atimame y koordinatės vertę ir apskaičiuojame rezultato kvadratą.
  • Trečioji dalis yra visų (y-y ') ² reikšmių sumos padalijimas iš n, o tai suteiks vidurkį.

Mūsų tikslas yra sumažinti šį vidurkį, kuris suteiks mums geriausią liniją, einančią per visus taškus.

Nuo sąvokos iki matematinių lygčių

Ši dalis skirta žmonėms, norintiems suprasti, kaip patekome į matematines lygtis . Jei norite, galite pereiti prie kitos dalies.

Kaip žinote, tiesės lygtis yra y = mx + b, kur m yra nuolydis, o b yra y-perimta.

Paimkime kiekvieną grafiko tašką ir atliksime apskaičiavimą (y-y ') ².

Bet kas yra y 'ir kaip mes jį apskaičiuojame? Mes neturime jo kaip duomenų dalies.

Bet mes žinome, kad norėdami apskaičiuoti y ', turime naudoti savo tiesių lygtį y = mx + b ir x įterpti į lygtį.

Iš čia gaunama tokia lygtis:

Perrašykime šią išraišką, kad ją supaprastintume.

Pradėkime nuo visų lygties skliaustų atidarymo. Spalvojau skirtumą tarp lygčių, kad būtų lengviau suprasti.

Dabar pritaikykime dar vieną manipuliaciją. Mes paimsime kiekvieną dalį ir sujungsime. Mes paimsime visus y ir (-2ymx) ir tt, ir mes juos visus sujungsime.

Šiuo metu mes pradedame būti netvarkingi, todėl paimkime visų y, xy, x, x² reikšmių vidurkio vidurkį.

Kiekvienam apibrėžkime naują simbolį, kuris atspindės visų kvadratų reikšmių vidurkį.

Pažiūrėkime pavyzdį, paimkime visas y reikšmes ir padalinkime jas iš n, nes tai yra vidurkis, ir pavadinkime ją y (HeadLine).

Jei padauginsime abi lygties puses iš n, gausime:

Kas mus nuvestų į tokią lygtį:

Pažvelgę ​​į tai, ką gavome, galime pamatyti, kad turime 3D paviršių. Tai atrodo kaip taurė, kuri staigiai kyla aukštyn.

Mes norime rasti M ir B, kurie kuo labiau sumažintų funkciją. Mes padarysime dalinį darinį M atžvilgiu ir dalinį darinį B atžvilgiu.

Kadangi mes ieškome minimalaus taško, imsime dalinius darinius ir palyginsime su 0.

Paimkime dvi gautas lygtis, išskirdami kintamąjį b iš abiejų ir tada atimdami viršutinę lygtį iš apatinės lygties.

Iš antrosios lygties atimkime pirmąją lygtį

Atsikratykime vardiklių iš lygties.

Ir mes einame, tai yra lygybė rasti M, paimkime tai ir užrašykime B lygtį.

Nuolydžio ir y perėmimo lygtys

Pateikime matematines lygtis, kurios padės mums rasti reikiamą nuolydį ir y perkirpimą.

Taigi jūs tikriausiai galvojate sau, kas gi yra tos keistos lygtys?

Jie iš tikrųjų yra lengvai suprantami, todėl pakalbėkime apie juos šiek tiek.

Dabar, kai suprantame savo lygtis, atėjo laikas surinkti visus dalykus ir parodyti keletą pavyzdžių.

Pavyzdžiai

Didelis ačiū Khano akademijai už pavyzdžius.

1 pavyzdys

Paimkime 3 taškus (1,2), (2,1), (4,3).

Raskime M ir B lygčiai y = mx + b.

Apskaičiavę atitinkamas mūsų M lygties ir B lygties dalis, įdėkime tas reikšmes į lygtis ir gausime nuolydį ir y perversmą.

Paimkime tuos rezultatus ir nustatykime juos tiesės lygtyje y = mx + b.

Dabar nubrėžkime liniją ir pažiūrėkime, kaip linija praeina per linijas taip, kad sumažintų atstumą kvadratu.

2 pavyzdys

Paimkime 4 taškus, (-2, -3), (-1, -1), (1,2), (4,3).

Raskime M ir B lygčiai y = mx + b.

Tą patį, kaip ir anksčiau, įdėkime tas reikšmes į savo lygtis, kad rastume M ir B.

Paimkime tuos rezultatus ir nustatykime juos tiesės lygtyje y = mx + b.

Dabar nubrėžkime liniją ir pažiūrėkime, kaip linija praeina per linijas taip, kad sumažintų atstumą kvadratu.

Apibendrinant

Kaip matote, visa idėja yra paprasta. Mums tiesiog reikia suprasti pagrindines dalis ir kaip mes su jomis dirbame.

Galite dirbti su formulėmis, kad surastumėte tiesę kitame grafike, atlikite paprastą skaičiavimą ir gausite nuolydžio ir y perimties rezultatus.

Viskas, paprastas? ?

Kiekvienas komentaras ir visi atsiliepimai yra laukiami - jei reikės, pataisysiu straipsnį.

Nedvejodami susisiekite su manimi tiesiogiai „LinkedIn“ - spustelėkite čia.