Uporaba metode najmanjših kvadratov v Excelu. Metoda najmanjših kvadratov in iskanje rešitve v Excelu Rešite sistem enačb z uporabo metode najmanjših kvadratov v Excelu

Metoda najmanjših kvadratov uporablja za oceno parametrov regresijske enačbe.

Ena od metod za preučevanje stohastičnih odnosov med značilnostmi je regresijska analiza.
Regresijska analiza je izpeljava regresijske enačbe, s pomočjo katere se najde povprečna vrednost naključne spremenljivke (rezultatnega atributa), če je znana vrednost druge (ali drugih) spremenljivk (faktorskih atributov). Vključuje naslednje korake:

  1. izbira oblike povezave (vrsta analitične regresijske enačbe);
  2. ocena parametrov enačbe;
  3. ocena kakovosti analitične regresijske enačbe.
Najpogosteje se linearna oblika uporablja za opis statističnega odnosa značilnosti. Osredotočenost na linearna razmerja je razložena z jasno ekonomsko razlago njegovih parametrov, omejeno variacijo spremenljivk in dejstvom, da se v večini primerov nelinearne oblike razmerij pretvorijo (z logaritmom ali zamenjavo spremenljivk) v linearno obliko za izvedbo izračunov. .
V primeru linearne parne povezave bo regresijska enačba imela obliko: y i =a+b·x i +u i . Parametra a in b te enačbe sta ocenjena iz podatkov statističnega opazovanja x in y. Rezultat takega ocenjevanja je enačba: , kjer sta , oceni parametrov a in b , vrednost nastalega atributa (spremenljivke), dobljena iz regresijske enačbe (izračunana vrednost).

Najpogosteje se uporablja za oceno parametrov metoda najmanjših kvadratov (LSM).
Metoda najmanjših kvadratov zagotavlja najboljše (dosledne, učinkovite in nepristranske) ocene parametrov regresijske enačbe. Vendar le, če so izpolnjene določene predpostavke glede naključnega člena (u) in neodvisne spremenljivke (x) (glej predpostavke OLS).

Problem ocenjevanja parametrov enačbe linearnega para z uporabo metode najmanjših kvadratov je naslednji: pridobiti takšne ocene parametrov , , pri katerih je vsota kvadratov odstopanj dejanskih vrednosti rezultantne karakteristike - y i od izračunanih vrednosti - minimalna.
Formalno OLS test lahko zapišemo takole: .

Klasifikacija metod najmanjših kvadratov

  1. Metoda najmanjših kvadratov.
  2. Metoda največje verjetnosti (za običajni klasični linearni regresijski model je postulirana normalnost regresijskih ostankov).
  3. Posplošena metoda najmanjših kvadratov OLS se uporablja v primeru avtokorelacije napak in v primeru heteroskedastičnosti.
  4. Metoda uteženih najmanjših kvadratov (poseben primer OLS s heteroskedastičnimi ostanki).

Ponazorimo bistvo klasična metoda najmanjših kvadratov grafično. Da bi to naredili, bomo na podlagi opazovalnih podatkov (x i, y i, i=1;n) v pravokotnem koordinatnem sistemu zgradili razpršeni graf (takšen razpršeni graf imenujemo korelacijsko polje). Poskusimo izbrati ravno črto, ki je najbližje točkam korelacijskega polja. Po metodi najmanjših kvadratov je premica izbrana tako, da je vsota kvadratov navpičnih razdalj med točkami korelacijskega polja in to premico minimalna.

Matematični zapis za ta problem: .
Vrednosti y i in x i =1...n so nam znane; to so opazovalni podatki. V funkciji S predstavljajo konstante. Spremenljivke v tej funkciji so zahtevane ocene parametrov - , . Da bi našli minimum funkcije dveh spremenljivk, je treba izračunati delne odvode te funkcije za vsakega od parametrov in jih enačiti na nič, tj. .
Kot rezultat dobimo sistem dveh normalnih linearnih enačb:
Z reševanjem tega sistema najdemo zahtevane ocene parametrov:

Pravilnost izračuna parametrov regresijske enačbe lahko preverimo s primerjavo zneskov (lahko pride do odstopanja zaradi zaokroževanja izračunov).
Za izračun ocen parametrov lahko sestavite tabelo 1.
Predznak regresijskega koeficienta b označuje smer povezave (če je b >0, je povezava direktna, če b<0, то связь обратная). Величина b показывает на сколько единиц изменится в среднем признак-результат -y при изменении признака-фактора - х на 1 единицу своего измерения.
Formalno je vrednost parametra a povprečna vrednost y z x enakim nič. Če faktor atributa nima in ne more imeti vrednosti nič, potem zgornja razlaga parametra a ni smiselna.

Ocenjevanje tesnosti razmerja med značilnostmi izvedemo z uporabo korelacijskega koeficienta linearnega para - r x,y. Izračuna se lahko po formuli: . Poleg tega se korelacijski koeficient linearnega para lahko določi z regresijskim koeficientom b: .
Razpon sprejemljivih vrednosti korelacijskega koeficienta linearnega para je od –1 do +1. Predznak korelacijskega koeficienta kaže smer razmerja. Če je r x, y >0, je povezava neposredna; če je r x, y<0, то связь обратная.
Če je ta koeficient po velikosti blizu enote, potem je razmerje med značilnostmi mogoče interpretirati kot precej tesno linearno. Če je njen modul enak ena ê r x , y ê =1, potem je razmerje med karakteristikama funkcionalno linearno. Če sta lastnosti x in y linearno neodvisni, potem je r x,y blizu 0.
Za izračun r x,y lahko uporabite tudi tabelo 1.

Za oceno kakovosti nastale regresijske enačbe izračunajte teoretični koeficient determinacije - R 2 yx:

,
kjer je d 2 varianca y, razložena z regresijsko enačbo;
e 2 - rezidualna (nepojasnjena z regresijsko enačbo) varianca y;
s 2 y - skupna (skupna) varianca y.
Koeficient determinacije označuje delež variacije (razpršenosti) rezultantnega atributa y, razloženega z regresijo (in posledično faktorja x) v celotni variaciji (disperziji) y. Koeficient determinacije R 2 yx ima vrednosti od 0 do 1. V skladu s tem vrednost 1-R 2 yx označuje delež variance y, ki je posledica vpliva drugih dejavnikov, ki niso upoštevani v modelu in specifikacijskih napak.
S parno linearno regresijo je R 2 yx =r 2 yx.

Metoda najmanjših kvadratov (LSM)

Sistem m linearnih enačb z n neznankami ima obliko:

Možni so trije primeri: m n. Primer, ko je m=n, smo obravnavali v prejšnjih odstavkih. Pri m

Če je m>n in je sistem konsistenten, ima matrika A vsaj m - n linearno odvisnih vrstic. Tu lahko rešitev dobimo tako, da izberemo poljubnih n linearno neodvisnih enačb (če obstajajo) in uporabimo formulo X = A -1 CV, torej reduciramo problem na predhodno rešenega. V tem primeru bo dobljena rešitev vedno zadostila preostalim m - n enačbam.

Pri uporabi računalnika pa je bolj priročno uporabiti bolj splošen pristop – metodo najmanjših kvadratov.

Algebraična metoda najmanjših kvadratov

Algebraična metoda najmanjših kvadratov je metoda za reševanje sistemov linearnih enačb

z minimizacijo evklidske norme

Sekira? b? >inf. (1,2)

Analiza eksperimentalnih podatkov

Oglejmo si poskus, med katerim v trenutkih časa

Na primer, izmeri se temperatura Q(t). Naj bodo rezultati meritev določeni z nizom

Predpostavimo, da so eksperimentalni pogoji takšni, da se meritve izvajajo z znano napako. V teh primerih se zakon temperaturne spremembe Q(t) išče z uporabo določenega polinoma

P(t) = + + + ... +,

določanje neznanih koeficientov, ..., iz premislekov, da je vrednost E(, ...,), definirana z enakostjo

Gaussov algebrski exel približek

vzel minimalno vrednost. Ker je vsota kvadratov minimizirana, se ta metoda imenuje aproksimacija podatkov po metodi najmanjših kvadratov.

Če zamenjamo P(t) z njegovim izrazom, dobimo

Zastavimo nalogo definiranja matrike tako, da bo vrednost minimalna, tj. Definirajmo matriko z metodo najmanjših kvadratov. Da bi to naredili, izenačimo delne odvode na nič:

Če vnesete m × n matriko A = (), i = 1, 2..., m; j = 1, 2, ..., n, kjer je

I = 1, 2..., m; j = 1, 2, ..., n,

potem bo zapisana enakost dobila obliko

Prepišimo zapisano enakost v smislu operacij z matricami. Po definiciji množenja matrike s stolpcem imamo

Za transponirano matriko je podobno razmerje videti takole

Uvedemo zapis: označili bomo i-to komponento vektorja Ax V skladu z zapisanimi matričnimi enačbami bomo imeli

V matrični obliki lahko to enakost prepišemo kot

A T x=A T B (1.3)

Tukaj je A pravokotna matrika m×n. Poleg tega je pri problemih aproksimacije podatkov praviloma m > n. Enačbo (1.3) imenujemo normalna enačba.

Že od samega začetka je bilo mogoče z uporabo evklidske norme vektorjev zapisati problem v ekvivalentni matrični obliki:

Naš cilj je minimizirati to funkcijo v x. Da bi bil dosežen minimum na točki rešitve, morajo biti prvi odvodi glede na x na tej točki enaki nič. Izpeljanke te funkcije so

2A T B + 2A T Ax

zato mora rešitev zadoščati sistemu linearnih enačb

(AT A)x = (AT B).

Te enačbe imenujemo normalne enačbe. Če je A matrika m × n, potem je A>A - n × n matrika, tj. Matrika normalne enačbe je vedno kvadratna simetrična matrika. Poleg tega ima lastnost pozitivne določnosti v smislu, da je (A>Ax, x) = (Ax, Ax) ? 0.

Komentiraj. Včasih rešitev enačbe oblike (1.3) imenujemo rešitev sistema Ax = B, kjer je A pravokotna m × n (m > n) matrika z uporabo metode najmanjših kvadratov.

Problem najmanjših kvadratov je mogoče grafično interpretirati kot minimiziranje navpičnih razdalj od podatkovnih točk do krivulje modela (glej sliko 1.1). Ta ideja temelji na predpostavki, da vse napake v aproksimaciji ustrezajo napakam v opazovanjih. Če so tudi napake v neodvisnih spremenljivkah, potem je morda bolj primerno zmanjšati evklidsko razdaljo od podatkov do modela.

MNC v Excelu

Spodnji algoritem za implementacijo OLS v Excel predpostavlja, da so vsi začetni podatki že znani. Obe strani matrične enačbe AЧX=B sistema na levi pomnožimo s transponirano matriko sistema А Т:

A T A T K = A T B

Nato obe strani enačbe na levi pomnožimo z matriko (AT A) -1. Če ta matrika obstaja, potem je sistem definiran. Glede na to

(AT A) -1 *(AT A)=E, dobimo

X=(AT A) -1 A T B.

Nastala matrična enačba je rešitev sistema m linearnih enačb z n neznankami za m>n.

Oglejmo si uporabo zgornjega algoritma na posebnem primeru.

Primer. Naj bo treba rešiti sistem

V Excelu je list z rešitvami v načinu prikaza formule za to težavo videti takole:


Rezultati izračuna:

Zahtevani vektor X se nahaja v območju E11:E12.

Pri reševanju danega sistema linearnih enačb so bile uporabljene naslednje funkcije:

1. MOBR - vrne inverzno matriko za matriko, shranjeno v matriki.

Sintaksa: MOBR(niz).

Matrika je številska matrika z enakim številom vrstic in stolpcev.

2. MULTIPULT - vrne zmnožek matrik (matrike so shranjene v nizih). Rezultat je matrika z enakim številom vrstic kot matrika1 in enakim številom stolpcev kot matrika2.

Sintaksa: MULTIPLE(matrika1,matrika2).

Matrika1, matrika2 sta množični matriki.

Ko vnesete funkcijo v zgornjo levo celico obsega matrike, izberite matriko, začenši s celico, ki vsebuje formulo, pritisnite F2 in nato pritisnite CTRL+SHIFT+ENTER.

3. TRANSPORT - pretvori navpičen niz celic v vodoravnega ali obratno. Kot rezultat uporabe te funkcije se prikaže matrika s številom vrstic, ki je enako številu stolpcev prvotne matrike, in številom stolpcev, ki je enako številu vrstic začetne matrike.

4.1. Uporaba vgrajenih funkcij

Izračun regresijski koeficienti izvede s pomočjo funkcije

LINEST(Vrednosti_y; x-vrednosti; Konst; statistika),

Vrednosti_y- niz vrednosti y,

x-vrednosti- neobvezno polje vrednosti x, če niz X izpuščen, se predpostavlja, da je to polje (1;2;3;...) enake velikosti kot Vrednosti_y,

Konst- logična vrednost, ki kaže, ali je konstanta zahtevana b je bila enaka 0. Če Konst ima pomen PRAV ali izpuščeno, torej b se izračuna na običajen način. Če argument Konst je FALSE, potem b se predpostavlja, da je 0 in vrednosti a so izbrani tako, da je razmerje izpolnjeno y=ax.

Statistika je logična vrednost, ki označuje, ali je treba vrniti dodatne regresijske statistike. Če argument Statistika ima pomen PRAV, nato funkcijo LINEST vrne dodatno regresijsko statistiko. Če argument Statistika ima pomen LAŽI ali izpuščeno, nato funkcijo LINEST vrne le koeficient a in stalna b.

Ne smemo pozabiti, da je rezultat funkcij LINEST() je niz vrednosti – niz.

Za izračun korelacijski koeficient se uporablja funkcija

CORREL(Niz1;Array2),

vračanje vrednosti korelacijskega koeficienta, kjer Niz1- niz vrednosti l, Array2- niz vrednosti x. Niz1 in Array2 morajo biti enake velikosti.

PRIMER 1. Zasvojenost l(x) je predstavljen v tabeli. Zgradite regresijska črta in izračunaj korelacijski koeficient.

l 0.5 1.5 2.5 3.5
x 2.39 2.81 3.25 3.75 4.11 4.45 4.85 5.25

Vnesimo tabelo vrednosti v list MS Excel in zgradimo raztreseni graf. Delovni list bo dobil obliko, prikazano na sl. 2.

Za izračun vrednosti regresijskih koeficientov A in b izberite celice A7:B7, Pojdimo v čarovnika za funkcije in v kategorijo Statistični izberite funkcijo LINEST. Izpolnimo pogovorno okno, ki se prikaže, kot je prikazano na sl. 3 in pritisnite v redu.


Posledično bo izračunana vrednost prikazana samo v celici A6(slika 4). Da se vrednost prikaže v celici B6 vstopiti morate v način urejanja (tipka F2) in nato pritisnite kombinacijo tipk CTRL+SHIFT+ENTER.



Za izračun vrednosti korelacijskega koeficienta v celici C6 uvedena je bila naslednja formula:

C7=CORREL(B3:J3;B2:J2).


Poznavanje regresijskih koeficientov A in b izračunajmo vrednosti funkcij l=sekira+b za dano x. Da bi to naredili, uvedemo formulo

B5=$A$7*B2+$B$7

in ga kopirajte v obseg C5:J5(slika 5).

Na diagram narišimo regresijsko premico. Izberite eksperimentalne točke na grafu, kliknite z desno miškino tipko in izberite ukaz Začetni podatki. V pogovornem oknu, ki se prikaže (slika 5), ​​izberite zavihek Vrsti in kliknite na gumb Dodaj. Izpolnimo vnosna polja, kot je prikazano na sl. 6 in pritisnite gumb v redu. Grafu eksperimentalnih podatkov bo dodana regresijska črta. Privzeto bo njegov graf narisan kot točke, ki niso povezane z gladkimi črtami.

riž. 6

Če želite spremeniti videz regresijske črte, izvedite naslednje korake. Z desno miškino tipko kliknite točke, ki prikazujejo črtni graf in izberite ukaz Vrsta grafikona in nastavite vrsto raztresenega diagrama, kot je prikazano na sl. 7.

Vrsto črte, barvo in debelino lahko spremenite na naslednji način. Izberite črto na diagramu, z desno miškino tipko kliknite in v kontekstnem meniju izberite ukaz Oblika niza podatkov ... Nato naredite nastavitve, na primer, kot je prikazano na sl. 8.

Kot rezultat vseh transformacij dobimo graf eksperimentalnih podatkov in regresijsko premico v enem grafičnem območju (slika 9).

4.2. Uporaba trendne linije.

Konstrukcija različnih aproksimacijskih odvisnosti v MS Excelu je izvedena v obliki lastnosti grafikona - linija trenda.

PRIMER 2. Kot rezultat poskusa je bila določena določena tabelarična odvisnost.

0.15 0.16 0.17 0.18 0.19 0.20
4.4817 4.4930 5.4739 6.0496 6.6859 7.3891

Izberite in sestavite aproksimativno odvisnost. Izdelajte grafe tabelarnih in izbranih analitičnih odvisnosti.

Reševanje problema lahko razdelimo na naslednje faze: vnos začetnih podatkov, izdelava razpršenega grafa in dodajanje trendne črte na ta graf.

Oglejmo si ta postopek podrobneje. Vnesemo začetne podatke v delovni list in narišemo eksperimentalne podatke. Nato izberite eksperimentalne točke na grafu, kliknite z desno tipko miške in uporabite ukaz Dodaj l linija trenda(Slika 10).

Pogovorno okno, ki se prikaže, vam omogoča sestavljanje približne odvisnosti.

Prvi zavihek (slika 11) tega okna označuje vrsto aproksimacijske odvisnosti.

Na drugem (slika 12) so določeni konstrukcijski parametri:

· naziv aproksimativne odvisnosti;

· napoved naprej (nazaj) po n enot (ta parameter določa, za koliko enot naprej (nazaj) je treba podaljšati trendno črto);

ali prikazati presečišče krivulje z ravnico y=konst;

· prikaz aproksimativne funkcije na diagramu ali ne (možnost prikaza enačbe na diagramu);

· ali vrednost standardnega odklona umestiti na diagram ali ne (možnost vpisa vrednosti aproksimacijske zanesljivosti na diagram).

Za aproksimativno odvisnost izberimo polinom druge stopnje (slika 11) in na grafu prikažimo enačbo, ki ta polinom opisuje (slika 12). Nastali diagram je prikazan na sl. 13.

Podobno z uporabo trendne linije lahko izberete parametre takih odvisnosti kot

linearni l=a∙x+b,

logaritemski l=a∙ln(x)+b,

· eksponentno l=a∙e b,

· umirjeno l=a∙x b,

polinom l=a∙x 2 +b∙x+c, l=a∙x 3 +b∙x 2 +c∙x+d in tako naprej, do vključno polinoma 6. stopnje,

· linearna filtracija.

4.3. Uporaba reševalnega bloka

Zelo zanimiva je implementacija v MS Excelu izbire parametrov po metodi najmanjših kvadratov z uporabo reševalnega bloka. Ta tehnika vam omogoča izbiro parametrov funkcije katere koli vrste. Oglejmo si to možnost na primeru naslednjega problema.

PRIMER 3. Kot rezultat eksperimenta je bila pridobljena odvisnost z(t), prikazana v tabeli

0,66 0,9 1,17 1,47 1,7 1,74 2,08 2,63 3,12
38,9 68,8 64,4 66,5 64,95 59,36 82,6 90,63 113,5

Izberite koeficiente odvisnosti Z(t)=At 4 +Bt 3 +Ct 2 +Dt+K metoda najmanjših kvadratov.

Ta problem je enakovreden problemu iskanja minimuma funkcije petih spremenljivk

Oglejmo si postopek reševanja optimizacijskega problema (slika 14).

Naj vrednote A, IN, Z, D in TO shranjeni v celicah A7:E7. Izračunajmo teoretične vrednosti funkcije Z(t)=Pri 4 +Bt 3 +Ct 2 +Dt+K za dano t(B2:J2). Če želite to narediti, v celici B4 vnesite vrednost funkcije na prvo točko (celica B2):

B4=$A$7*B2^4+$B$7*B2^3+$C$7*B2^2+$D$7*B2+$E$7.

Kopirajmo to formulo v obseg C4:J4 in dobimo pričakovano vrednost funkcije v točkah, katerih abscise so shranjene v celicah B2:J2.

V celico B5 Predstavimo formulo, ki izračuna kvadrat razlike med eksperimentalno in izračunano točko:

B5=(B4-B3)^2,

in ga kopirajte v obseg C5:J5. V celici F7 shranili bomo skupno kvadratno napako (10). Če želite to narediti, vnesite formulo:

F7 = SUM(B5:J5).

Uporabimo ukaz Storitev® Iskanje rešitve in rešiti problem optimizacije brez omejitev. Ustrezno izpolnimo vnosna polja v pogovornem oknu, prikazanem na sl. 14 in pritisnite gumb Izvedi. Če je rešitev najdena, se okno, prikazano na sl. 15.

Rezultat odločitvenega bloka bo izpisan v celice A7:E7vrednosti parametrov funkcije Z(t)=Pri 4 +Bt 3 +Ct 2 +Dt+K. V celicah B4:J4 dobimo pričakovana vrednost funkcije na izhodiščih. V celici F7 bo shranjeno skupna kvadratna napaka.

Eksperimentalne točke in prilagojeno črto lahko prikažete v enem grafičnem območju tako, da izberete obseg B2:J4, pokliči Čarovnik za grafikone in nato oblikujte videz nastalih grafov.

riž. 17 prikaže delovni list MS Excel po opravljenih izračunih.


5. REFERENCE

1. Alekseev E.R., Chesnokova O.V., Reševanje problemov računalniške matematike v paketih Mathcad12, MATLAB7, Maple9. – NT Press, 2006.–596 str. :il. – (Vadnica)

2. Alekseev E.R., Chesnokova O.V., E.A. Rudčenko, Scilab, reševanje inženirskih in matematičnih problemov. –M., BINOM, 2008.–260 str.

3. Berezin I.S., Židkov N.P., Računalne metode – M.: Nauka, 1966. – 632 str.

4. Garnaev A.Yu., Uporaba MS EXCEL in VBA v ekonomiji in financah. – St. Petersburg: BHV - Petersburg, 1999.–332 str.

5. Demidovich B.P., Maron I.A., Shuvalova V.Z., Numerične metode analize – M.: Nauka, 1967. – 368 str.

6. Korn G., Korn T., Priročnik za matematiko za znanstvenike in inženirje – M., 1970, 720 str.

7. Alekseev E.R., Chesnokova O.V. Navodila za izvajanje laboratorijskih vaj v MS EXCEL. Za študente vseh specialnosti. Donetsk, DonNTU, 2004. 112 str.

Ki najde najširšo uporabo na različnih področjih znanosti in praktične dejavnosti. To je lahko fizika, kemija, biologija, ekonomija, sociologija, psihologija in tako naprej in tako naprej. Po volji usode se moram pogosto ukvarjati z gospodarstvom, zato bom danes za vas organiziral potovanje v čudovito državo, imenovano Ekonometrija=) ...Kako si ne želiš?! Tam je zelo dobro – le odločiti se morate! ...Toda kar si verjetno zagotovo želite, je naučiti se reševati probleme metoda najmanjših kvadratov. In še posebej pridni bralci se jih bodo naučili reševati ne samo natančno, ampak tudi ZELO HITRO ;-) Ampak najprej splošna navedba problema+ spremljajoči primer:

Preučimo kazalnike na določenem predmetnem področju, ki imajo kvantitativni izraz. Hkrati obstajajo vsi razlogi za domnevo, da je kazalnik odvisen od kazalnika. Ta predpostavka je lahko bodisi znanstvena hipoteza bodisi temelji na osnovni zdravi pameti. Pustimo znanost ob strani in raziščimo bolj okusna področja – namreč trgovine z živili. Označimo z:

– maloprodajna površina trgovine z živili, m2,
– letni promet trgovine z živili, milijonov rubljev.

Popolnoma jasno je, da večja kot je trgovina, večji bo v večini primerov njen promet.

Recimo, da imamo po izvedbi opazovanj/eksperimentov/izračunov/plesov s tamburino na voljo numerične podatke:

Z živilskimi trgovinami mislim, da je vse jasno: - to je površina 1. trgovine, - njen letni promet, - površina 2. trgovine, - njen letni promet itd. Mimogrede, dostop do tajnih gradiv sploh ni potreben - dokaj natančno oceno trgovinskega prometa je mogoče dobiti s pomočjo matematična statistika. Pa naj vas ne zamoti, tečaj komercialnega vohunjenja je že plačan =)

Tabelarne podatke lahko zapišemo tudi v obliki točk in jih upodobimo v znani obliki kartezični sistem .

Odgovorimo na pomembno vprašanje: Koliko točk je potrebnih za kakovosten študij?

Večji kot je, boljši je. Najmanjši sprejemljivi niz je sestavljen iz 5-6 točk. Poleg tega, ko je količina podatkov majhna, "nenormalnih" rezultatov ni mogoče vključiti v vzorec. Tako lahko na primer majhna elitna trgovina zasluži veliko več kot »njeni kolegi« in s tem izkrivlja splošni vzorec, ki ga morate najti!

Zelo preprosto povedano, izbrati moramo funkcijo, urnik ki poteka čim bližje točkam . Ta funkcija se imenuje približevanje (približek - približek) oz teoretična funkcija . Na splošno se tukaj takoj pojavi očiten "tekmovalec" - polinom visoke stopnje, katerega graf poteka skozi VSE točke. Toda ta možnost je zapletena in pogosto preprosto napačna. (ker se bo graf ves čas vrtel in slabo odražal glavni trend).

Tako naj bi bila iskana funkcija precej enostavna in hkrati ustrezno odražala odvisnost. Kot morda ugibate, se imenuje ena od metod za iskanje takšnih funkcij metoda najmanjših kvadratov. Najprej si oglejmo njegovo bistvo na splošno. Naj neka funkcija približa eksperimentalne podatke:


Kako oceniti točnost tega približka? Izračunajmo še razlike (odklone) med eksperimentalnimi in funkcijskimi vrednostmi (preučujemo risbo). Prva misel, ki pride na misel, je oceniti, kako velika je vsota, vendar je težava v tem, da so razlike lahko negativne (Na primer, ) in odstopanja kot posledica takega seštevanja se bodo med seboj izničila. Zato kot oceno točnosti približka prosimo, da vzamemo vsoto moduli odstopanja:

ali strnjeno: (če kdo ne ve: – to je ikona vsote in – pomožna spremenljivka »števec«, ki zavzema vrednosti od 1 do ).

Z aproksimacijo eksperimentalnih točk z različnimi funkcijami bomo dobili različne vrednosti in očitno je tam, kjer je ta vsota manjša, tista funkcija natančnejša.

Takšna metoda obstaja in se imenuje metoda najmanjšega modula. Vendar je v praksi postalo veliko bolj razširjeno metoda najmanjših kvadratov, v katerem se morebitne negativne vrednosti izločijo ne z modulom, temveč s kvadratiranjem odstopanj:

, nato pa so prizadevanja usmerjena v izbiro takšne funkcije, da je vsota kvadratov odklonov je bil čim manjši. Pravzaprav od tod izvira ime metode.

In zdaj se vrnemo k drugi pomembni točki: kot je navedeno zgoraj, mora biti izbrana funkcija precej preprosta - vendar obstaja tudi veliko takih funkcij: linearni , hiperbolično, eksponentno, logaritemski, kvadratni itd. In seveda, tukaj bi rad takoj "zmanjšal področje dejavnosti." Kateri razred funkcij naj izberem za raziskovanje? Primitivna, a učinkovita tehnika:

– Najlažje je upodobiti točke na risbo in analizirati njihovo lokacijo. Če tečejo v ravni črti, potem morate iskati enačba premice z optimalnimi vrednostmi in. Z drugimi besedami, naloga je najti TAKŠNE koeficiente, da bo vsota kvadratov odstopanj najmanjša.

Če se točke nahajajo na primer vzdolž hiperbola, potem je očitno jasno, da bo linearna funkcija dala slab približek. V tem primeru iščemo najugodnejše koeficiente za enačbo hiperbole – tiste, ki dajejo najmanjšo vsoto kvadratov .

Zdaj upoštevajte, da v obeh primerih govorimo funkcije dveh spremenljivk, čigar argumenti so iskani parametri odvisnosti:

In v bistvu moramo rešiti standardni problem - najti minimalna funkcija dveh spremenljivk.

Spomnimo se našega primera: predpostavimo, da so točke »skladišča« običajno nameščene v ravni črti in obstaja vsak razlog za domnevo, da linearna odvisnost promet iz maloprodajnega prostora. Poiščimo TAKA koeficienta "a" in "be", tako da je vsota kvadratov odstopanj je bil najmanjši. Vse je kot običajno – najprej Parcialni odvodi 1. reda. Po navedbah pravilo linearnosti Razlikujete lahko tik pod ikono vsote:

Če želite te informacije uporabiti za esej ali seminarsko nalogo, vam bom zelo hvaležen za povezavo na seznamu virov, tako podrobne izračune boste našli na nekaj mestih:

Ustvarimo standardni sistem:

Vsako enačbo zmanjšamo za "dve" in poleg tega "razbijemo" vsote:

Opomba : samostojno analizirajte, zakaj lahko "a" in "be" izvlečete izven ikone vsote. Mimogrede, formalno je to mogoče storiti z vsoto

Prepišimo sistem v "uporabni" obliki:

po katerem se začne pojavljati algoritem za rešitev našega problema:

Ali poznamo koordinate točk? Vemo. Zneski ga lahko najdemo? Enostavno. Naredimo najpreprostejše sistem dveh linearnih enačb z dvema neznankama("a" in "biti"). Sistem rešimo npr. Cramerjeva metoda, zaradi česar dobimo stacionarno točko. Preverjanje zadosten pogoj za ekstrem, lahko preverimo, da je na tej točki funkcija doseže točno najmanj. Preverjanje vključuje dodatne izračune, zato ga bomo pustili za prizori (po potrebi si lahko ogledate manjkajoči okvir). Naredimo končni zaključek:

funkcija najboljši način (vsaj v primerjavi s katero koli drugo linearno funkcijo) približuje eksperimentalne točke . Grobo rečeno, gre njen graf čim bližje tem točkam. V tradiciji ekonometrija nastalo aproksimirajočo funkcijo imenujemo tudi enačba parne linearne regresije .

Obravnavani problem je velikega praktičnega pomena. V našem primeru je enačba vam omogoča, da napoveste, kakšen trgovinski promet ("Igrek") trgovina bo imela na takšni ali drugačni vrednosti prodajne površine (en ali drug pomen "x"). Da, nastala napoved bo le napoved, vendar se bo v mnogih primerih izkazala za precej natančno.

Analiziral bom samo eno težavo s "pravimi" številkami, saj v njej ni težav - vsi izračuni so na ravni šolskega učnega načrta 7.-8. V 95 odstotkih primerov boste morali poiskati samo linearno funkcijo, čisto na koncu članka pa bom pokazal, da ni nič težje najti enačb optimalne hiperbole, eksponentne in nekaterih drugih funkcij.

Pravzaprav ostane le še razdelitev obljubljenih dobrot - da se boste naučili reševati takšne primere ne le natančno, ampak tudi hitro. Pazljivo preučujemo standard:

Naloga

Kot rezultat preučevanja razmerja med dvema indikatorjema so bili pridobljeni naslednji pari številk:

Z uporabo metode najmanjših kvadratov poiščite linearno funkcijo, ki se najbolje približa empirični (izkušeno) podatke. Narišite risbo, na kateri boste zgradili eksperimentalne točke in graf aproksimacijske funkcije v kartezičnem pravokotnem koordinatnem sistemu . Poiščite vsoto kvadratov odstopanj med empiričnimi in teoretičnimi vrednostmi. Ugotovite, ali bi bila funkcija boljša (z vidika metode najmanjših kvadratov) približati eksperimentalne točke.

Upoštevajte, da so pomeni "x" naravni in to ima značilen smiselni pomen, o katerem bom govoril malo kasneje; seveda pa so lahko tudi delni. Poleg tega sta lahko vrednosti "X" in "igra" v celoti ali delno negativni, odvisno od vsebine določene naloge. No, dobili smo "brezobrazno" nalogo in jo začnemo rešitev:

Poiščemo koeficiente optimalne funkcije kot rešitev sistema:

Zaradi bolj kompaktnega zapisa lahko spremenljivko »števec« izpustimo, saj je že jasno, da se seštevanje izvaja od 1 do .

Primerneje je izračunati potrebne količine v obliki tabele:


Izračune je mogoče izvesti na mikrokalkulatorju, vendar je veliko bolje uporabiti Excel - tako hitreje kot brez napak; poglej kratek video:

Tako dobimo naslednje sistem:

Tukaj lahko drugo enačbo pomnožite s 3 in odštej 2. od 1. enačbe člen za členom. A to je sreča – sistemi v praksi pogosto niso darilo in v takih primerih prihrani Cramerjeva metoda:
, kar pomeni, da ima sistem edinstveno rešitev.

Preverimo. Razumem, da ne želite, ampak zakaj bi preskočili napake, kjer jih nikakor ne morete zgrešiti? Najdeno rešitev nadomestimo v levo stran vsake enačbe sistema:

Dobljene so desne strani pripadajočih enačb, kar pomeni, da je sistem pravilno rešen.

Tako je želena aproksimativna funkcija: – od vse linearne funkcije Ona je tista, ki najbolje približa eksperimentalne podatke.

Za razliko od naravnost odvisnost prometa trgovine od njene površine, ugotovljena odvisnost je vzvratno (načelo več, manj), in to dejstvo takoj razkrije negativno naklon. funkcija nam pove, da se s povečanjem določenega kazalnika za 1 enoto vrednost odvisnega kazalnika zmanjša povprečje za 0,65 enote. Kot pravijo, višja ko je cena ajde, manj se je proda.

Za izris grafa aproksimacijske funkcije poiščemo njeni dve vrednosti:

in izvedite risbo:


Konstruirana premica se imenuje linija trenda (in sicer linearna trendna črta, tj. v splošnem primeru trend ni nujno ravna črta). Vsi poznajo izraz »biti v trendu« in menim, da ta izraz ne potrebuje dodatnih komentarjev.

Izračunajmo vsoto kvadratov odstopanj med empiričnimi in teoretičnimi vrednostmi. Geometrično je to vsota kvadratov dolžin segmentov "malin". (dva sta tako majhna, da se sploh ne vidita).

Povzemimo izračune v tabelo:


Spet jih je mogoče narediti ročno, za vsak slučaj bom dal primer za 1. točko:

vendar je veliko bolj učinkovito, če to storite na že znani način:

Še enkrat ponavljamo: Kakšen je pomen dobljenega rezultata? Od vse linearne funkcije y funkcijo kazalnik je najmanjši, to je v svoji družini najboljši približek. In tukaj, mimogrede, zadnje vprašanje problema ni naključno: kaj če predlagana eksponentna funkcija bi bilo bolje eksperimentalne točke približati?

Poiščimo ustrezno vsoto kvadratov odstopanj - za razlikovanje jih bom označil s črko "epsilon". Tehnika je popolnoma enaka:


In spet, za vsak slučaj, izračuni za 1. točko:

V Excelu uporabljamo standardno funkcijo EXP (sintakso lahko najdete v pomoči za Excel).

Zaključek: , kar pomeni, da eksponentna funkcija slabše aproksimira eksperimentalne točke kot premica .

Toda tukaj je treba opozoriti, da je "slabše". še ne pomeni, kaj je narobe. Zdaj sem zgradil graf te eksponentne funkcije - in prav tako prehaja blizu točk - tako zelo, da je brez analitične raziskave težko reči, katera funkcija je natančnejša.

S tem je rešitev zaključena in vračam se k vprašanju naravnih vrednosti argumenta. V različnih študijah, običajno ekonomskih ali socioloških, se naravni "X" uporabljajo za številčenje mesecev, let ali drugih enakih časovnih intervalov. Razmislite na primer o naslednjem problemu.

4.1. Uporaba vgrajenih funkcij

Izračun regresijski koeficienti izvede s pomočjo funkcije

LINEST(Vrednosti_y; x-vrednosti; Konst; statistika),

Vrednosti_y- niz vrednosti y,

x-vrednosti- neobvezno polje vrednosti x, če niz X izpuščen, se predpostavlja, da je to polje (1;2;3;...) enake velikosti kot Vrednosti_y,

Konst- logična vrednost, ki kaže, ali je konstanta zahtevana b je bila enaka 0. Če Konst ima pomen PRAV ali izpuščeno, torej b se izračuna na običajen način. Če argument Konst je FALSE, potem b se predpostavlja, da je 0 in vrednosti a so izbrani tako, da je razmerje izpolnjeno y=ax.

Statistika je logična vrednost, ki označuje, ali je treba vrniti dodatne regresijske statistike. Če argument Statistika ima pomen PRAV, nato funkcijo LINEST vrne dodatno regresijsko statistiko. Če argument Statistika ima pomen LAŽI ali izpuščeno, nato funkcijo LINEST vrne le koeficient a in stalna b.

Ne smemo pozabiti, da je rezultat funkcij LINEST() je niz vrednosti – niz.

Za izračun korelacijski koeficient se uporablja funkcija

CORREL(Niz1;Array2),

vračanje vrednosti korelacijskega koeficienta, kjer Niz1- niz vrednosti l, Array2- niz vrednosti x. Niz1 in Array2 morajo biti enake velikosti.

PRIMER 1. Zasvojenost l(x) je predstavljen v tabeli. Zgradite regresijska črta in izračunaj korelacijski koeficient.

l 0.5 1.5 2.5 3.5
x 2.39 2.81 3.25 3.75 4.11 4.45 4.85 5.25

Vnesimo tabelo vrednosti v list MS Excel in zgradimo raztreseni graf. Delovni list bo dobil obliko, prikazano na sl. 2.

Za izračun vrednosti regresijskih koeficientov A in b izberite celice A7:B7, Pojdimo v čarovnika za funkcije in v kategorijo Statistični izberite funkcijo LINEST. Izpolnimo pogovorno okno, ki se prikaže, kot je prikazano na sl. 3 in pritisnite v redu.


Posledično bo izračunana vrednost prikazana samo v celici A6(slika 4). Da se vrednost prikaže v celici B6 vstopiti morate v način urejanja (tipka F2) in nato pritisnite kombinacijo tipk CTRL+SHIFT+ENTER.

Za izračun vrednosti korelacijskega koeficienta v celici C6 uvedena je bila naslednja formula:

C7=CORREL(B3:J3;B2:J2).

Poznavanje regresijskih koeficientov A in b izračunajmo vrednosti funkcij l=sekira+b za dano x. Da bi to naredili, uvedemo formulo

B5=$A$7*B2+$B$7

in ga kopirajte v obseg C5:J5(slika 5).

Na diagram narišimo regresijsko premico. Izberite eksperimentalne točke na grafu, kliknite z desno miškino tipko in izberite ukaz Začetni podatki. V pogovornem oknu, ki se prikaže (slika 5), ​​izberite zavihek Vrsti in kliknite na gumb Dodaj. Izpolnimo vnosna polja, kot je prikazano na sl. 6 in pritisnite gumb v redu. Grafu eksperimentalnih podatkov bo dodana regresijska črta. Privzeto bo njegov graf narisan kot točke, ki niso povezane z gladkimi črtami.



Če želite spremeniti videz regresijske črte, izvedite naslednje korake. Z desno miškino tipko kliknite točke, ki prikazujejo črtni graf in izberite ukaz Vrsta grafikona in nastavite vrsto raztresenega diagrama, kot je prikazano na sl. 7.

Vrsto črte, barvo in debelino lahko spremenite na naslednji način. Izberite črto na diagramu, z desno miškino tipko kliknite in v kontekstnem meniju izberite ukaz Oblika niza podatkov ... Nato naredite nastavitve, na primer, kot je prikazano na sl. 8.

Kot rezultat vseh transformacij dobimo graf eksperimentalnih podatkov in regresijsko premico v enem grafičnem območju (slika 9).

4.2. Uporaba trendne linije.

Konstrukcija različnih aproksimacijskih odvisnosti v MS Excelu je izvedena v obliki lastnosti grafikona - linija trenda.

PRIMER 2. Kot rezultat poskusa je bila določena določena tabelarična odvisnost.

0.15 0.16 0.17 0.18 0.19 0.20
4.4817 4.4930 5.4739 6.0496 6.6859 7.3891

Izberite in sestavite aproksimativno odvisnost. Izdelajte grafe tabelarnih in izbranih analitičnih odvisnosti.

Reševanje problema lahko razdelimo na naslednje faze: vnos začetnih podatkov, izdelava razpršenega grafa in dodajanje trendne črte na ta graf.

Oglejmo si ta postopek podrobneje. Vnesemo začetne podatke v delovni list in narišemo eksperimentalne podatke. Nato izberite eksperimentalne točke na grafu, kliknite z desno tipko miške in uporabite ukaz Dodaj l linija trenda(Slika 10).

Pogovorno okno, ki se prikaže, vam omogoča sestavljanje približne odvisnosti.

Prvi zavihek (slika 11) tega okna označuje vrsto aproksimacijske odvisnosti.

Na drugem (slika 12) so določeni konstrukcijski parametri:

· naziv aproksimativne odvisnosti;

· napoved naprej (nazaj) po n enot (ta parameter določa, za koliko enot naprej (nazaj) je treba podaljšati trendno črto);

ali prikazati presečišče krivulje z ravnico y=konst;

· prikaz aproksimativne funkcije na diagramu ali ne (možnost prikaza enačbe na diagramu);

· ali vrednost standardnega odklona umestiti na diagram ali ne (možnost vpisa vrednosti aproksimacijske zanesljivosti na diagram).

Za aproksimativno odvisnost izberimo polinom druge stopnje (slika 11) in na grafu prikažimo enačbo, ki ta polinom opisuje (slika 12). Nastali diagram je prikazan na sl. 13.

Podobno z uporabo trendne linije lahko izberete parametre takih odvisnosti kot

linearni l=a∙x+b,

logaritemski l=a∙ln(x)+b,

· eksponentno l=a∙e b,

· umirjeno l=a∙x b,

polinom l=a∙x 2 +b∙x+c, l=a∙x 3 +b∙x 2 +c∙x+d in tako naprej, do vključno polinoma 6. stopnje,

· linearna filtracija.

4.3. Uporaba orodja za analizo možnosti: iskanje rešitve.

Pomembna zanimivost je implementacija v MS Excelu izbire parametrov funkcionalnega odnosa po metodi najmanjših kvadratov z orodjem za analizo opcij: Iskanje rešitve. Ta tehnika vam omogoča izbiro parametrov funkcije katere koli vrste. Oglejmo si to možnost na primeru naslednjega problema.

PRIMER 3. Kot rezultat eksperimenta je bila pridobljena odvisnost z(t), prikazana v tabeli

0,66 0,9 1,17 1,47 1,7 1,74 2,08 2,63 3,12
38,9 68,8 64,4 66,5 64,95 59,36 82,6 90,63 113,5

Izberite koeficiente odvisnosti Z(t)=At 4 +Bt 3 +Ct 2 +Dt+K metoda najmanjših kvadratov.

Ta problem je enakovreden problemu iskanja minimuma funkcije petih spremenljivk

Oglejmo si postopek reševanja optimizacijskega problema (slika 14).

Naj vrednote A, IN, Z, D in TO shranjeni v celicah A7:E7. Izračunajmo teoretične vrednosti funkcije Z(t)=Pri 4 +Bt 3 +Ct 2 +Dt+K za dano t(B2:J2). Če želite to narediti, v celici B4 vnesite vrednost funkcije na prvo točko (celica B2):

B4=$A$7*B2^4+$B$7*B2^3+$C$7*B2^2+$D$7*B2+$E$7.

Kopirajmo to formulo v obseg C4:J4 in dobimo pričakovano vrednost funkcije v točkah, katerih abscise so shranjene v celicah B2:J2.

V celico B5 Predstavimo formulo, ki izračuna kvadrat razlike med eksperimentalno in izračunano točko:

B5=(B4-B3)^2,

in ga kopirajte v obseg C5:J5. V celici F7 shranili bomo skupno kvadratno napako (10). Če želite to narediti, vnesite formulo:

F7 = SUM(B5:J5).

Uporabimo ukaz Storitev® Iskanje rešitve in rešiti problem optimizacije brez omejitev. Ustrezno izpolnimo vnosna polja v pogovornem oknu, prikazanem na sl. 14 in pritisnite gumb Izvedi. Če je rešitev najdena, se okno, prikazano na sl. 15.

Rezultat odločitvenega bloka bo izpisan v celice A7:E7vrednosti parametrov funkcije Z(t)=Pri 4 +Bt 3 +Ct 2 +Dt+K. V celicah B4:J4 dobimo pričakovana vrednost funkcije na izhodiščih. V celici F7 bo shranjeno skupna kvadratna napaka.

Eksperimentalne točke in prilagojeno črto lahko prikažete v enem grafičnem območju tako, da izberete obseg B2:J4, pokliči Čarovnik za grafikone in nato oblikujte videz nastalih grafov.

riž. 17 prikaže delovni list MS Excel po opravljenih izračunih.



Gor