Metoda najmniejszych kwadratów (OLS) odnosi się dosfera analizy regresji. Ma wiele zastosowań, ponieważ umożliwia przybliżoną reprezentację danej funkcji przez inne prostsze. OLS może być niezwykle przydatny w przetwarzaniu obserwacji i jest aktywnie wykorzystywany do szacowania niektórych wielkości na podstawie wyników pomiarów innych, które zawierają błędy losowe. W tym artykule dowiesz się, jak zaimplementować obliczenia metodą najmniejszych kwadratów w programie Excel.
Załóżmy, że istnieją dwa wykładniki X i Y.Co więcej, Y zależy od X. Ponieważ OLS interesuje nas z punktu widzenia analizy regresji (w Excelu jej metody są implementowane za pomocą wbudowanych funkcji), to należy od razu przejść do rozważenia konkretnego problemu.
Niech więc X będzie powierzchnią sklepu spożywczego mierzoną w metrach kwadratowych, a Y - rocznym obrotem mierzonym w milionach rubli.
Wymagane jest sporządzenie prognozy jaki obrót (Y)będzie w sklepie, jeśli ma taką lub inną powierzchnię handlową. Oczywiście funkcja Y = f (X) rośnie, ponieważ hipermarket sprzedaje więcej towarów niż stragan.
Załóżmy, że mamy tabelę zbudowaną z danych dla n sklepów.
Z | z1 | z2 | ... | zPan |
I… | i1 | i2 | ... | iPan |
Według statystyk matematycznych wynikibędą mniej lub bardziej poprawne, jeśli zbadane zostaną dane dotyczące co najmniej 5-6 obiektów. Ponadto nie można używać wyników „nienormalnych”. W szczególności elitarny mały butik może mieć obroty wielokrotnie większe niż obroty dużych punktów sprzedaży detalicznej klasy „masmarket”.
Dane tabeli można wykreślić na płaszczyźnie kartezjańskiej jako punkty M1 (x1, tak1),… MPan (xPan, takPan). Teraz rozwiązanie problemu sprowadzi się do wyboru funkcji aproksymującej y = f (x) z wykresem przechodzącym jak najbliżej punktów M1, M.2, ..M.Pan.
Oczywiście możesz użyć wysokiego wielomianustopnia, ale ta opcja jest nie tylko trudna do wdrożenia, ale także po prostu niepoprawna, ponieważ nie będzie odzwierciedlać głównego trendu, który należy wykryć. Najrozsądniejszym rozwiązaniem jest znalezienie prostej y = ax + b, która najlepiej przybliża dane eksperymentalne, a raczej współczynniki - a i b.
Dla każdego przybliżenia szczególnie ważna jest ocena jego dokładności. Oznaczamy przez ei różnica (odchylenie) między wartościami funkcjonalnymi i eksperymentalnymi dla punktu xi, czyli ei = yi - f (xi).
Oczywiście, aby oszacować dokładność przybliżeniamożna zastosować sumę odchyleń, to znaczy wybierając linię prostą do przybliżonego przedstawienia zależności X od Y, należy preferować tę o najmniejszej wartości sumy ei we wszystkich rozważanych punktach. Jednak nie wszystko jest takie proste, ponieważ wraz z odchyleniami dodatnimi praktycznie będą obecne odchylenia ujemne.
Możesz rozwiązać ten problem za pomocą modułów odchyleńlub ich kwadraty. Ta ostatnia metoda jest najczęściej stosowana. Jest używany w wielu obszarach, w tym w analizie regresji (Excel implementuje ją z dwiema wbudowanymi funkcjami) i od dawna sprawdza się.
Wiadomo, że Excel ma wbudowanąfunkcja autosumowania, która oblicza wartości wszystkich wartości znajdujących się w wybranym zakresie. Nic więc nie stoi na przeszkodzie, aby obliczyć wartość wyrażenia (e12 + e22 + e32+ ... ePan2).
W notacji matematycznej wygląda to tak:
Ponieważ początkowo podjęto decyzję o aproksymacji za pomocą linii prostej, mamy:
Zatem problem znalezienia prostej najlepiej opisującej określoną zależność wielkości X i Y sprowadza się do obliczenia minimum funkcji dwóch zmiennych:
Wymaga to zrównania do zera pochodnych cząstkowych po nowych zmiennych a i b oraz rozwiązania układu pierwotnego składającego się z dwóch równań z 2 niewiadomymi postaci:
Po kilku prostych przekształceniach, w tym dzieleniu przez 2 i manipulowaniu sumami, otrzymujemy:
Rozwiązując go np. metodą Cramera otrzymujemy punkt stacjonarny o pewnych współczynnikach a* oraz b*... Jest to minimum, czyli do przewidzenia jaki obrót będzie miał sklep dla określonej powierzchni, linia prosta y = a*x + b*, który jest modelem regresji dlaomawiany przykład. Oczywiście nie pozwoli Ci to znaleźć dokładnego wyniku, ale pomoże zorientować się, czy zakup sklepu na kredyt na konkretną okolicę się opłaci.
Excel ma funkcję obliczania wartościprzez OLS. Ma następującą postać: „TREND” (znane wartości Y; znane wartości X; nowe wartości X; stała). Zastosujmy do naszej tabeli wzór obliczania OLS w Excelu.
Aby to zrobić, w komórce, w której powinno byćwyświetlany jest wynik obliczeń metodą najmniejszych kwadratów w Excelu, należy wpisać znak „=” i wybrać funkcję „TREND”. W oknie, które się otworzy, wypełnij odpowiednie pola, podkreślając:
Dodatkowo formuła zawiera zmienną logiczną „Const”. Jeśli wpiszesz 1 w odpowiednim polu, będzie to oznaczało, że obliczenia należy wykonać przy założeniu, że b = 0.
Jeśli chcesz znać prognozę dla więcej niż jednej wartości x, to po wprowadzeniu formuły nie powinieneś naciskać „Enter”, ale musisz wpisać na klawiaturze kombinację „Shift” + „Control” + „Enter” ("Wejść").
Analiza regresji może być nawet dostępnaczajniki. Formuła Excela do przewidywania wartości tablicy nieznanych zmiennych - "TREND" - może być używana nawet przez tych, którzy nigdy nie słyszeli o metodzie najmniejszych kwadratów. Wystarczy poznać niektóre cechy jej twórczości. W szczególności:
Analiza regresji w Excelu jest zaimplementowana za pomocąza pomocą kilku funkcji. Jeden z nich nosi nazwę „PROGNOZA”. Jest podobny do „TREND”, czyli daje wynik obliczeń metodą najmniejszych kwadratów. Jednak tylko dla jednego X, dla którego wartość Y jest nieznana.
Teraz znasz formuły w Excelu dla manekinów, które pozwalają przewidzieć przyszłą wartość danego wskaźnika zgodnie z trendem liniowym.