تقریب حداقل مربعات خطی روش حداقل مربعات در اکسل

3. تقریب تابع با استفاده از روش

کمترین مربعات

در هنگام پردازش نتایج تجربی از روش حداقل مربعات استفاده می شود تقریب ها (تقریبی) داده های تجربی فرمول تحلیلی شکل خاص فرمول، به عنوان یک قاعده، از ملاحظات فیزیکی انتخاب می شود. چنین فرمول هایی می تواند باشد:

دیگر.

ماهیت روش حداقل مربعات به شرح زیر است. اجازه دهید نتایج اندازه گیری در جدول ارائه شود:

جدول 4

x n

y n

(3.1)

جایی که f - عملکرد شناخته شده، a 0، a 1، ...، a m - پارامترهای ثابت ناشناخته، که مقادیر آنها باید پیدا شود. در روش حداقل مربعات، تقریب تابع (3.1) به وابستگی تجربی در صورت شرط بهترین در نظر گرفته می شود.

(3.2)

به این معنا که مبالغ آ مربع انحراف تابع تحلیلی مورد نیاز از وابستگی تجربی باید حداقل باشد .

توجه داشته باشید که تابعس تماس گرفت اختلاف


از آنجا که باقی مانده است

سپس دارای حداقل است. شرط لازم برای حداقل یک تابع از چندین متغیر، برابری با صفر تمام مشتقات جزئی این تابع با توجه به پارامترها است. بنابراین، یافتن بهترین مقادیر پارامترهای تابع تقریبی (3.1)، یعنی مقادیری که برای آنها Q = Q (a 0, a 1, ..., a m ) حداقل است، به حل سیستم معادلات کاهش می یابد:

(3.3)

روش حداقل مربعات را می توان تفسیر هندسی زیر ارائه داد: در میان یک خانواده نامتناهی از خطوط از یک نوع معین، یک خط یافت می شود که مجموع مجذورات تفاوت بین مختصات نقاط آزمایشی و مختصات مربوطه آن نقاطی که با معادله این خط پیدا می شوند کوچکترین خواهند بود.

یافتن پارامترهای یک تابع خطی

اجازه دهید داده های تجربی با یک تابع خطی نمایش داده شوند:

انتخاب چنین مقادیری الزامی استالف و ب که برای آن تابع

(3.4)

حداقل خواهد بود. شرایط لازم برای حداقل تابع (3.4) به سیستم معادلات کاهش می یابد:

پس از تبدیل ها، سیستمی متشکل از دو معادله خطی با دو مجهول به دست می آوریم:

(3.5)

با حل آن، مقادیر مورد نیاز پارامترها را پیدا می کنیمالف و ب

یافتن پارامترهای یک تابع درجه دوم

اگر تابع تقریبی وابستگی درجه دوم باشد

سپس پارامترهای آن a,b,c از شرط حداقل تابع پیدا می شود:

(3.6)

شرایط برای حداقل تابع (3.6) به سیستم معادلات کاهش می یابد:


پس از تبدیل ها، سیستمی از سه معادله خطی با سه مجهول به دست می آوریم:

(3.7)

در حل آن مقادیر مورد نیاز پارامترها را پیدا می کنیمالف، ب و ج.

مثال ... اجازه دهید آزمایش به جدول مقادیر زیر منجر شود x و y:

جدول 5

y من

0,705

0,495

0,426

0,357

0,368

0,406

0,549

0,768

لازم است داده های تجربی را با توابع خطی و درجه دوم تقریب کنیم.

راه حل. یافتن پارامترهای توابع تقریبی به حل سیستم معادلات خطی (3.5) و (3.7) کاهش می یابد. برای حل مشکل از یک پردازنده صفحه گسترده استفاده می کنیمبرتری داشتن.

1. ابتدا اجازه دهید شیت های 1 و 2 را پیوند دهیم. اجازه دهید مقادیر آزمایشی را وارد کنیم x i و y منبه ستون ها A و B، از ردیف دوم شروع می کنیم (در ردیف اول عناوین ستون ها را قرار می دهیم). سپس مجموع این ستون ها را محاسبه کرده و در ردیف دهم قرار می دهیم.

ستون های C - G محاسبه و جمع را به ترتیب قرار دهید

2. بیایید ورق ها را از هم جدا کنیم.محاسبات بیشتر برای وابستگی خطی به برگه 1 و برای وابستگی درجه دوم به ورق 2 به همین ترتیب انجام خواهد شد.

3. در زیر جدول به دست آمده، ماتریسی از ضرایب و بردار ستونی از اعضای آزاد تشکیل دهید. بیایید سیستم معادلات خطی را طبق الگوریتم زیر حل کنیم:

برای محاسبه ماتریس معکوس و ضرب ماتریس از توسط استاد کارکردو توابع MOBRو MOMNOZH.

4. در بلوک سلولی H2:اچ 9 بر اساس ضرایب به دست آمده محاسبه می کنیم مقدار تقریبیچند جمله ایy من کسر.، در بلوک I 2: I 9 - انحرافات D y i = y من انقضا. - y من کسر.، ستون J - باقیمانده:

جداول حاصل و ساخته شده با جادوگران نمودارنمودارها در شکل 6، 7، 8 نشان داده شده است.


برنج. 6. جدول محاسبه ضرایب یک تابع خطی،

تقریبیداده های تجربی


برنج. 7. جدول محاسبه ضرایب تابع درجه دوم،

تقریبیداده های تجربی


برنج. 8. نمایش گرافیکی نتایج تقریب

داده های تجربی توسط توابع خطی و درجه دوم.

پاسخ. داده های تجربی با وابستگی خطی تقریب زدند y = 0,07881 ایکس + 0,442262 با باقی مانده س = 0,165167 و وابستگی درجه دوم y = 3,115476 ایکس 2 – 5,2175 ایکس + 2,529631 با باقی مانده س = 0,002103 .

وظایف تابعی را که با توابع جدولی، خطی و درجه دوم به دست می‌آید، تقریبی کنید.

جدول 6

№0

ایکس

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

y

3,030

3,142

3,358

3,463

3,772

3,251

3,170

3,665

1

3,314

3,278

3,262

3,292

3,332

3,397

3,487

3,563

2

1,045

1,162

1,264

1,172

1,070

0,898

0,656

0,344

3

6,715

6,735

6,750

6,741

6,645

6,639

6,647

6,612

4

2,325

2,515

2,638

2,700

2,696

2,626

2,491

2,291

5

1.752

1,762

1,777

1,797

1,821

1,850

1,884

1,944

6

1,924

1,710

1,525

1,370

1,264

1,190

1,148

1,127

7

1,025

1,144

1,336

1,419

1,479

1,530

1,568

1,248

8

5,785

5,685

5,605

5,545

5,505

5,480

5,495

5,510

9

4,052

4,092

4,152

4,234

4,338

4,468

4,599

کار دوره

بر اساس رشته: انفورماتیک

موضوع: تقریب تابع حداقل مربعات

معرفی

1. بیان مشکل

2. فرمول های محاسباتی

محاسبه با استفاده از جداول ساخته شده با استفاده از Microsoft Excel

نمودار الگوریتم

محاسبه در برنامه MathCad

نتایج به دست آمده با استفاده از تابع خطی

ارائه نتایج در قالب نمودار

معرفی

هدف از کار دوره تعمیق دانش علوم کامپیوتر، توسعه و تثبیت مهارت های کار با پردازنده صفحه گسترده مایکروسافت اکسل و محصول نرم افزار MathCAD و استفاده از آنها برای حل مشکلات با استفاده از رایانه از حوزه موضوعی مرتبط با تحقیق است.

تقریب (از لاتین "approximare" - "نزدیک شدن") - عبارت تقریبی از هر شیء ریاضی (به عنوان مثال، اعداد یا توابع) از طریق دیگر ساده تر، راحت تر برای استفاده، یا به سادگی بهتر شناخته شده است. در تحقیقات علمی، تقریب برای توصیف، تجزیه و تحلیل، تعمیم و استفاده بیشتر از نتایج تجربی استفاده می شود.

همانطور که می دانید، زمانی که یک مقدار آرگومان با یک مقدار خاص مطابقت دارد، می تواند یک رابطه دقیق (عملکردی) بین کمیت ها وجود داشته باشد، و یک رابطه (همبستگی) کمتر دقیق، زمانی که یک مقدار خاص آرگومان با یک مقدار تقریبی یا تقریبی مطابقت دارد. مجموعه ای از مقادیر یک تابع که کم و بیش به یکدیگر نزدیک هستند. هنگام انجام تحقیقات علمی، پردازش نتایج مشاهده یا آزمایش، معمولاً باید با گزینه دوم سر و کار داشت.

هنگام مطالعه وابستگی های کمی شاخص های مختلف، که مقادیر آنها به صورت تجربی تعیین می شود، به عنوان یک قاعده، مقداری تنوع وجود دارد. تا حدی به دلیل ناهمگونی اشیاء مورد مطالعه از بی جان و به خصوص طبیعت زنده تنظیم می شود - تا حدی ناشی از خطای مشاهده و پردازش کمی مواد است. همیشه نمی توان آخرین جزء را به طور کامل حذف کرد، تنها با انتخاب دقیق روش تحقیق کافی و دقت کار می توان آن را به حداقل رساند. بنابراین، هنگام انجام هر کار تحقیقاتی، مشکل شناسایی ماهیت واقعی وابستگی شاخص های مورد مطالعه ایجاد می شود، این یا آن درجه توسط متغیرهای نامشخص: مقادیر پوشانده می شود. برای این، از یک تقریب استفاده می شود - یک توصیف تقریبی از وابستگی همبستگی متغیرها توسط یک معادله مناسب از وابستگی عملکردی، که روند اصلی وابستگی (یا "روند" آن) را منتقل می کند.

هنگام انتخاب یک تقریب، باید از یک مسئله تحقیقاتی خاص استفاده کرد. معمولاً هرچه از معادله برای تقریب ساده‌تر استفاده شود، توصیف وابستگی تقریبی‌تر خواهد بود. بنابراین، مهم است که بخوانید چقدر و چه چیزی باعث انحراف مقادیر خاص از روند حاصل شده است. هنگام توصیف وابستگی مقادیر تجربی تعیین شده، می توان با استفاده از معادله پیچیده تر و چند پارامتری به دقت بسیار بیشتری دست یافت. با این حال، تلاش با حداکثر دقت برای انتقال انحرافات تصادفی مقادیر در یک سری خاص از داده های تجربی منطقی نیست. درک الگوی کلی بسیار مهمتر است که در این مورد منطقی ترین و با دقت قابل قبولی دقیقاً توسط معادله دو پارامتری تابع توان بیان می شود. بنابراین، با انتخاب یک روش تقریبی، محقق همیشه مصالحه می کند: تصمیم می گیرد که در این مورد تا چه حد مصلحت و مناسب است که جزئیات را "قربانی" کند و بر این اساس، وابستگی متغیرهای مقایسه شده تا چه حد کلی باید بیان شود. همراه با شناسایی الگوهای پوشانده شده توسط انحرافات تصادفی داده های تجربی از الگوی عمومی، تقریب همچنین اجازه می دهد تا بسیاری از مسائل مهم دیگر را حل کند: رسمی کردن وابستگی یافت شده. مقادیر ناشناخته متغیر وابسته را با درون یابی یا در صورت امکان برون یابی بیابید.

در هر کار، شرایط مسئله، داده های اولیه، فرم صدور نتایج فرموله می شود، وابستگی های اصلی ریاضی برای حل مسئله نشان داده می شود. مطابق با روش حل مسئله، یک الگوریتم راه حل ایجاد شده است که به صورت گرافیکی ارائه شده است.

1. بیان مشکل

1. با استفاده از روش حداقل مربعات، تابع داده شده در جدول تقریبی است:

الف) چند جمله ای درجه اول ;

ب) چند جمله ای درجه دوم؛

ج) وابستگی نمایی.

ضریب جبر را برای هر وابستگی محاسبه کنید.

ضریب همبستگی (فقط در مورد الف) را محاسبه کنید.

برای هر وابستگی یک خط روند رسم کنید.

با استفاده از تابع LINEST، مشخصه های عددی وابستگی به را محاسبه کنید.

محاسبات خود را با نتایج به دست آمده با استفاده از LINEST مقایسه کنید.

نتیجه گیری کنید که کدام یک از فرمول های به دست آمده بهترین تقریب تابع را دارد.

برنامه ای را به یکی از زبان های برنامه نویسی بنویسید و نتایج شمارش را با نتایج به دست آمده در بالا مقایسه کنید.

گزینه 3. تابع در جدول آورده شده است. یکی

میز 1.


2. فرمول های محاسباتی

اغلب، هنگام تجزیه و تحلیل داده های تجربی، یافتن یک رابطه عملکردی بین مقادیر x و y که در نتیجه تجربه یا اندازه گیری به دست می آیند ضروری می شود.

Xi (مقدار مستقل) توسط آزمایشگر داده می شود و yi که مقادیر تجربی یا تجربی نامیده می شود، در نتیجه تجربه به دست می آید.

شکل تحلیلی وابستگی عملکردی که بین مقادیر x و y وجود دارد معمولاً ناشناخته است، بنابراین، یک کار عملی مهم ایجاد می شود - پیدا کردن یک فرمول تجربی.

, (1)

(پارامترها کجا هستند)، مقادیر آنها، در صورت امکان، کمی با مقادیر تجربی متفاوت است.

بر اساس روش حداقل مربعات، بهترین ضرایب آنهایی هستند که مجموع مجذور انحرافات تابع تجربی یافت شده از مقادیر داده شده تابع حداقل باشد.

با استفاده از شرط لازم برای حداکثر یک تابع از چندین متغیر - برابری مشتقات جزئی به صفر، مجموعه ای از ضرایب را پیدا کنید که حداقل تابع تعریف شده با فرمول (2) را فراهم می کند و یک سیستم نرمال برای تعیین ضرایب به دست می آورید. :

(3)

بنابراین، یافتن ضرایب به حل سیستم (3) تقلیل می یابد.

نوع سیستم (3) بستگی به این دارد که کدام دسته از فرمول های تجربی را به دنبال وابستگی هستیم (1). در مورد وابستگی خطی، سیستم (3) به شکل زیر است:

(4)

در مورد وابستگی درجه دوم، سیستم (3) به شکل زیر است:

(5)

در برخی موارد، به عنوان یک فرمول تجربی، تابعی در نظر گرفته می شود که ضرایب تعریف نشده به صورت غیر خطی وارد می شود. در این مورد، گاهی اوقات می توان مشکل را خطی کرد، به عنوان مثال. کاهش به خطی این وابستگی ها شامل وابستگی نمایی است

که در آن a1 و a2 ضرایب تعریف نشده هستند.

خطی سازی با گرفتن لگاریتم برابری (6) حاصل می شود و پس از آن رابطه را بدست می آوریم

(7)

اجازه دهید به ترتیب با و مشخص کنیم و سپس وابستگی (6) را می توان به شکل نوشت که امکان اعمال فرمول (4) را با جایگزینی a1 توسط و توسط می دهد.

نمودار وابستگی عملکردی بازیابی شده y (x) با توجه به نتایج اندازه گیری (xi, yi), i = 1,2,…, n منحنی رگرسیون نامیده می شود. برای بررسی تطابق منحنی رگرسیون ساخته شده با نتایج تجربی، معمولاً مشخصه های عددی زیر معرفی می شوند: ضریب همبستگی (وابستگی خطی)، نسبت همبستگی و ضریب جبر.

ضریب همبستگی معیاری از رابطه خطی بین متغیرهای تصادفی وابسته است: نشان می‌دهد که به طور متوسط ​​چقدر می‌توان یکی از متغیرها را به عنوان تابع خطی دیگری نشان داد.

ضریب همبستگی با استفاده از فرمول محاسبه می شود:

(8)

(9)

میانگین حسابی x و y به ترتیب کجاست.

ضریب همبستگی بین متغیرهای تصادفی در مقدار مطلق از 1 تجاوز نمی کند. هر چه به 1 نزدیکتر باشد، رابطه خطی بین x و y نزدیکتر است.

در مورد همبستگی غیر خطی، مقادیر میانگین شرطی در نزدیکی خط منحنی قرار دارند. در این مورد توصیه می شود از نسبت همبستگی به عنوان مشخصه استحکام باند استفاده شود که تفسیر آن به نوع وابستگی مورد مطالعه بستگی ندارد.

نسبت همبستگی با فرمول محاسبه می شود:

(10)

جایی که و عددساز پراکندگی میانگین‌های شرطی را در اطراف میانگین غیرشرطی مشخص می‌کند.

همیشه ... هست. برابری = مربوط به مقادیر تصادفی غیر همبسته است. = اگر و فقط اگر یک رابطه عملکردی دقیق بین x و y وجود داشته باشد. در مورد وابستگی خطی y به x، نسبت همبستگی با مجذور ضریب همبستگی منطبق است. مقدار به عنوان شاخصی برای انحراف رگرسیون از خطی بودن استفاده می شود.

نسبت همبستگی معیاری از همبستگی بین yc x به هر شکلی است، اما نمی تواند تصوری از درجه نزدیکی داده های تجربی به یک فرم خاص بدهد. برای اینکه بفهمیم منحنی 5 رسم شده چقدر دقیق داده های تجربی را منعکس می کند، یک مشخصه دیگر معرفی می شود - ضریب جبر.

ضریب جبر با فرمول تعیین می شود:

که در آن Sres = مجموع باقیمانده مربع ها است که انحراف داده های تجربی از داده های نظری را مشخص می کند؛ کامل مجموع مجموع مربع ها است که در آن مقدار متوسط ​​yi است.

- مجموع رگرسیون مربع ها، که پراکندگی داده ها را مشخص می کند.

هر چه مجموع باقیمانده مربع ها نسبت به مجموع مجموع مجذورها کوچکتر باشد، ضریب جبر r2 بیشتر است، که نشان می دهد معادله به دست آمده با استفاده از تحلیل رگرسیون چقدر رابطه بین متغیرها را توضیح می دهد. اگر برابر با 1 باشد، یک همبستگی کامل با مدل وجود دارد، یعنی. هیچ تفاوتی بین مقادیر y واقعی و تخمینی وجود ندارد. در غیر این صورت، اگر ضریب جبر 0 باشد، معادله رگرسیون نمی تواند مقادیر y را پیش بینی کند.

ضریب جبر همیشه از نسبت همبستگی تجاوز نمی کند. در صورتی که برابری برآورده شود، می‌توانیم فرض کنیم که فرمول تجربی ساخته شده، داده‌های تجربی را با دقت بیشتری منعکس می‌کند.

3. محاسبه با استفاده از جداول ساخته شده با استفاده از Microsoft Excel

برای انجام محاسبات، توصیه می شود با استفاده از ابزارهای پردازشگر صفحه گسترده مایکروسافت اکسل، داده ها را در قالب جدول 2 مرتب کنید.

جدول 2












اجازه دهید توضیح دهیم که چگونه جدول 2 کامپایل شده است.

مرحله 1. در سلول های A1: A25، مقادیر xi را وارد کنید.

مرحله 2 در سلول های B1: B25 مقادیر уi را وارد می کنیم.

مرحله 3 در سلول C1، فرمول = A1 ^ 2 را وارد کنید.

مرحله 4. در سلول های C1: C25، این فرمول کپی شده است.

مرحله 5 در سلول D1، فرمول = A1 * B1 را وارد کنید.

مرحله 6 این فرمول در سلول های D1: D25 کپی می شود.

مرحله 7 در سلول F1، فرمول = A1 ^ 4 را وارد کنید.

مرحله 8 این فرمول در سلول های F1: F25 کپی می شود.

مرحله 9 در سلول G1، فرمول = A1 ^ 2 * B1 را وارد کنید.

مرحله 10 این فرمول در سلول های G1: G25 کپی می شود.

مرحله 11 در سلول H1، فرمول = LN (B1) را وارد کنید.

مرحله 12. در سلول های H1: H25 این فرمول کپی می شود.

مرحله 13 در سلول I1، فرمول = A1 * LN (B1) را وارد کنید.

مرحله 14. در سلول های I1: I25، این فرمول کپی می شود.

مراحل بعدی با استفاده از autosum S انجام می شود.

مرحله 15. در سلول A26، فرمول = SUM (A1: A25) را وارد کنید.

مرحله 16. در سلول B26، فرمول = SUM (B1: B25) را وارد کنید.

مرحله 17. در سلول C26، فرمول = SUM (C1: C25) را وارد کنید.

مرحله 18. در سلول D26، فرمول = SUM (D1: D25) را وارد کنید.

مرحله 19. در سلول E26، فرمول = SUM (E1: E25) را وارد کنید.

مرحله 20. در سلول F26، فرمول = SUM (F1: F25) را وارد کنید.

مرحله 21. در سلول G26، فرمول = SUM (G1: G25) را وارد کنید.

مرحله 22. در سلول H26، فرمول = SUM (H1: H25) را وارد کنید.

مرحله 23. در سلول I26، فرمول = SUM (I1: I25) را وارد کنید.

اجازه دهید تابع را با یک تابع خطی تقریب کنیم. برای تعیین ضرایب و استفاده از سیستم (4). با استفاده از مجموع مجموع جدول 2 واقع در خانه های A26، B26، C26 و D26، سیستم (4) را به شکل می نویسیم.

(11)

با حل آن، به دست می آوریم و .

سیستم با روش کرامر حل شد. که ماهیت آن به شرح زیر است. سیستمی از n معادله خطی جبری با n مجهول را در نظر بگیرید:

(12)

تعیین کننده سیستم، تعیین کننده ماتریس سیستم است:

(13)

تعیین کننده را نشان می دهیم که از تعیین کننده سیستم Δ با جایگزینی ستون j با ستون به دست می آید.

بنابراین، تقریب خطی شکل دارد

سیستم (11) با استفاده از ابزارهای مایکروسافت اکسل حل می شود. نتایج در جدول 3 نشان داده شده است.

جدول 3











ماتریس معکوس






جدول 3 در سلول های A32: B33 حاوی فرمول (= MOBR (A28: B29)) است.

در سلول های E32: E33 فرمول نوشته شده است (= MULTIPLE (A32: B33)، (C28: C29)).

در مرحله بعد، تابع را با یک تابع درجه دوم تقریب می کنیم ... برای تعیین ضرایب a1، a2 و a3 از سیستم (5) استفاده می کنیم. با استفاده از مجموع مجموع جدول 2، واقع در سلول های A26، B26، C26، D26، E26، F26، G26، سیستم (5) را به شکل می نویسیم.

(16)

با حل آن، a1 = 10.663624 به دست می آید، و

بنابراین، تقریب درجه دوم شکل دارد

سیستم (16) با استفاده از ابزارهای مایکروسافت اکسل حل می شود. نتایج در جدول 4 نشان داده شده است.

جدول 4














ماتریس معکوس







در جدول 4، در سلول های A41: C43، فرمول نوشته شده است (= MOBR (A36: C38)).

سلول های F41: F43 حاوی فرمول (= MULTIPLE (A41: C43)، (D36: D38)) هستند.

حالا تابع را با یک تابع نمایی تقریب می زنیم. برای تعیین ضرایب و لگاریتم مقادیر و با استفاده از مجموع مجموع جدول 2 واقع در سلول های A26، C26، H26 و I26، سیستم را بدست می آوریم.

(18)

با حل سیستم (18) و به دست می آوریم.

پس از تقویت به دست می آوریم.

بنابراین، تقریب نمایی شکل دارد

سیستم (18) با استفاده از ابزارهای مایکروسافت اکسل حل می شود. نتایج در جدول 5 نشان داده شده است.

جدول 5











ماتریس معکوس




در سلول های A50: B51، فرمول نوشته شده است (= MOBR (A46: B47)).

در سلول های E49: E50، فرمول نوشته شده است (= MULTIPLE (A50: B51)، (C46: C47)).

سلول E51 حاوی فرمول = EXP (E49) است.

بیایید میانگین حسابی را با استفاده از فرمول ها محاسبه کنیم:

نتایج محاسبات با استفاده از Microsoft Excel در جدول 6 ارائه شده است.

جدول 6



سلول B54 حاوی فرمول = A26 / 25 است.

سلول B55 حاوی فرمول = B26 / 25 است

جدول 7


مرحله 1 در سلول J1، فرمول = (A1- $ B $ 54) * (B1- $ B $ 55) را وارد کنید.

مرحله 2 این فرمول در سلول های J2 کپی می شود: J25.

مرحله 3 در سلول K1، فرمول = (A1- $ B $ 54) را وارد کنید ^ 2.

مرحله 4 این فرمول در سلول های k2: K25 کپی می شود.

مرحله 5 در سلول L1، فرمول = (B1- $ B $ 55) را وارد کنید ^ 2.

مرحله 6 این فرمول در سلول های L2: L25 کپی می شود.

مرحله 7 در سلول M1، فرمول = ($ E $ 32 + $ E $ 33 * A1-B1) را وارد کنید ^ 2.

مرحله 8 این فرمول در سلول های M2: M25 کپی می شود.

مرحله 9 در سلول N1، فرمول = ($ F $ 41 + $ F $ 42 * A1 + $ F $ 43 * A1 ^ 2-B1) را وارد کنید ^ 2.

مرحله 10. در سلول های N2: N25، این فرمول کپی می شود.

مرحله 11 در سلول O1، فرمول = ($ E $ 51 * EXP ($ E $ 50 * A1) -B1) را وارد کنید ^ 2.

مرحله 12 این فرمول در سلول های O2: O25 کپی می شود.

مراحل بعدی با جمع خودکار S انجام می شود.

مرحله 13 در سلول J26، فرمول = SUMM (J1: J25) را وارد کنید.

مرحله 14 در سلول K26، فرمول = SUMM (K1: K25) را وارد کنید.

مرحله 15 در سلول L26، فرمول = SUMM (L1: L25) را وارد کنید.

مرحله 16 در سلول M26، فرمول = SUMM (M1: M25) را وارد کنید.

مرحله 17 در سلول N26، فرمول = SUMM (N1: N25) را وارد کنید.

مرحله 18 در سلول O26، فرمول = SUMM (O1: O25) را وارد کنید.

حال اجازه دهید ضریب همبستگی را با استفاده از فرمول (8) (فقط برای تقریب خطی) و ضریب جبر را با استفاده از فرمول (10) محاسبه کنیم. نتایج محاسبات با استفاده از Microsoft Excel در جدول 8 ارائه شده است.

جدول 8


ضریب همبستگی

ضریب جبر (تقریبا خطی)



ضریب جبر (تقریبا درجه دوم)



ضریب جبر (تقریبا نمایی)



سلول E57 حاوی فرمول = J26 / (K26 * L26) ^ (1/2) است.

سلول E59 حاوی فرمول = 1-M26 / L26 است.

سلول E61 حاوی فرمول = 1-N26 / L26 است.

سلول E63 حاوی فرمول = 1-O26 / L26 است.

تجزیه و تحلیل نتایج محاسبات نشان می دهد که تقریب درجه دوم به بهترین وجه داده های تجربی را توصیف می کند.

نمودار الگوریتم

برنج. 1. طرح الگوریتم برای برنامه محاسبه.

5. محاسبه در برنامه MathCad

رگرسیون خطی

· خط (x، y) - بردار دو عنصر (b، a) از ضرایب رگرسیون خطی b + ax.

· X - بردار داده های معتبر آرگومان.

· Y بردار مقادیر داده معتبر با همان اندازه است.

شکل 2.

رگرسیون چند جمله ای به معنای تقریب داده ها (x1، y1) با چند جمله ای درجه k ام است. با k = i، چند جمله ای یک خط مستقیم است، با k = 2 - یک سهمی، با k = 3 - یک سهمی مکعبی، و غیره. به عنوان یک قاعده، در عمل، ک<5.

رگرسیون (x، y، k) - بردار ضرایب برای ساخت رگرسیون داده های چند جمله ای.

Interp (s، x، y، t) - نتیجه رگرسیون چند جمله ای.

S = رگرسیون (x، y، k)؛

· X - بردار داده های معتبر آرگومان که عناصر آن به ترتیب صعودی مرتب شده اند.

· Y بردار مقادیر داده معتبر با همان اندازه است.

· K - درجه چند جمله ای رگرسیون (عدد صحیح مثبت).

· T - مقدار آرگومان چند جمله ای رگرسیون.

شکل 3

علاوه بر موارد در نظر گرفته شده، چندین نوع دیگر از رگرسیون سه پارامتری در Mathcad تعبیه شده است که اجرای آنها تا حدودی با گزینه های رگرسیون فوق متفاوت است، زیرا علاوه بر آرایه داده، نیاز به تنظیم مقادیر اولیه نیز می باشد. ضرایب a، b، c برای آنها. اگر ایده خوبی در مورد اینکه چه نوع وابستگی مجموعه داده های شما را توصیف می کند، از نوع مناسب رگرسیون استفاده کنید. هنگامی که نوع رگرسیون توالی داده ها را به خوبی منعکس نمی کند، نتیجه آن اغلب رضایت بخش نیست و بسته به انتخاب مقادیر اولیه حتی بسیار متفاوت است. هر یک از توابع یک بردار از پارامترهای مشخص شده a,b,c تولید می کند.

نتایج از LINEST

بیایید به هدف تابع LINEST نگاه کنیم.

این تابع از روش حداقل مربعات برای محاسبه خط مستقیمی استفاده می کند که بهترین تناسب را با داده های موجود دارد.

تابع آرایه ای را برمی گرداند که خط حاصل را توصیف می کند. معادله یک خط مستقیم به صورت زیر است:

M1x1 + m2x2 + ... + b یا y = mx + b،

الگوریتم نرم افزار مایکروسافت جدولی

که در آن مقدار y وابسته تابعی از مقدار x مستقل است. مقادیر m ضرایب مربوط به هر متغیر مستقل x هستند و b یک ثابت است. توجه داشته باشید که y، x و m می توانند بردار باشند.

برای به دست آوردن نتایج، باید یک فرمول جدولی ایجاد کنید که 5 سطر و 2 ستون را اشغال کند. این فاصله زمانی را می توان در هر نقطه از کاربرگ قرار داد. تابع LINEST در این بازه مورد نیاز است.

در نتیجه، تمام سلول های فاصله A65: B69 باید پر شوند (همانطور که در جدول 9 نشان داده شده است).

جدول 9.



اجازه دهید هدف برخی از مقادیر جدول 9 را توضیح دهیم.

مقادیر موجود در سلول های A65 و B65 به ترتیب شیب و شیفت را مشخص می کنند - ضریب جبر - F - مقدار مشاهده شده - تعداد درجات آزادی - مجموع رگرسیون مربع ها - مجموع باقیمانده از مربع ها

ارائه نتایج در قالب نمودار

برنج. 4. نمودار تقریب خطی

برنج. 5. طرح تقریب درجه دوم

برنج. 6. نمودار تقریب نمایی

نتیجه گیری

بیایید بر اساس نتایج حاصل از داده های به دست آمده نتیجه گیری کنیم.

تجزیه و تحلیل نتایج محاسبات نشان می دهد که تقریب درجه دوم به بهترین شکل داده های تجربی را توصیف می کند، زیرا خط روند برای آن دقیقاً رفتار تابع را در این منطقه نشان می دهد.

با مقایسه نتایج به دست آمده با استفاده از تابع LINEST، می بینیم که آنها کاملاً با محاسبات انجام شده در بالا مطابقت دارند. این نشان می دهد که محاسبات صحیح است.

نتایج به دست آمده با استفاده از برنامه MathCad کاملاً با مقادیر داده شده در بالا مطابقت دارد. این نشان دهنده صحت محاسبات است.

کتابشناسی - فهرست کتب

1 B.P. دمیدویچ، I.A. مارون. مبانی ریاضیات محاسباتی. م: انتشارات دولتی ادبیات فیزیکی و ریاضی.

2 انفورماتیک: ویرایش کتاب درسی. پروفسور N.V. ماکاروا. م: امور مالی و آمار، 2007.

3 انفورماتیک: کارگاه آموزشی فناوری کار بر روی کامپیوتر، ویرایش. پروفسور N.V. ماکاروا. م: امور مالی و آمار، 2010.

4 V.B. کومیاژین. برنامه نویسی اکسل در ویژوال بیسیک. م: رادیو و ارتباطات، 1386.

5 ن. نیکول، آر. آلبرشت. برتری داشتن. صفحات گسترده م: اد. ECOM، 2008.

6 دستورالعمل روش شناختی برای اجرای کار درسی در علوم کامپیوتر (برای دانشجویان مکاتبه ای همه تخصص ها)، ویرایش. Zhurova G.N.، SPbGGI (TU)، 2011.

من یک ریاضیدان نرم افزار هستم. بزرگترین جهش در حرفه من زمانی بود که یاد گرفتم بگویم: "من هیچی نمیفهمم!"حالا خجالت نمی‌کشم به مرشد علم بگویم که برای من سخنرانی می‌کند، نمی‌فهمم چه می‌گوید. و این بسیار دشوار است. بله، اعتراف به نادانی خود دشوار و شرم آور است. کسی که دوست دارد اعتراف کند که اصول چیزی را در آنجا نمی داند. بر اساس حرفه ام، مجبورم در تعداد زیادی سخنرانی و سخنرانی شرکت کنم، جایی که، اعتراف می کنم، در اکثریت قریب به اتفاق موارد می خواهم بخوابم، زیرا چیزی نمی فهمم. اما من نمی فهمم زیرا مشکل عظیم وضعیت فعلی علم در ریاضیات نهفته است. فرض بر این است که همه شنوندگان کاملاً با تمام زمینه های ریاضیات آشنا هستند (که پوچ است). شرم آور است که اعتراف کنید که نمی دانید مشتق چیست (که کمی دیرتر است).

اما یاد گرفتم که بگویم نمی دانم ضرب چیست. بله، من نمی دانم جبر فرعی بر جبر دروغ چیست. بله، من نمی دانم چرا معادلات درجه دوم در زندگی مورد نیاز است. به هر حال، اگر مطمئن هستید که می دانید، پس ما باید در مورد آن صحبت کنیم! ریاضیات یک سری ترفند است. ریاضیدانان سعی می کنند مردم را گیج و مرعوب کنند. جایی که آشفتگی نباشد، شهرت نباشد، اقتدار نباشد. بله، صحبت کردن با زبانی انتزاعی تا حد امکان معتبر است، که خود کاملاً مزخرف است.

آیا می دانید مشتق چیست؟ به احتمال زیاد در مورد محدودیت نسبت تفاوت به من خواهید گفت. ویکتور پتروویچ خاوین در سال اول ریاضیات و مکانیک دانشگاه دولتی سنت پترزبورگ شناخته شده استمشتق به عنوان ضریب اولین جمله از سری تیلور تابع در یک نقطه (این یک ژیمناستیک جداگانه برای تعیین سری تیلور بدون مشتقات بود). مدت زیادی به این تعریف خندیدم تا اینکه بالاخره فهمیدم در مورد چیست. مشتق چیزی بیش از اندازه گیری نیست که نشان می دهد چقدر تابعی که ما متمایز می کنیم به تابع y = x، y = x ^ 2، y = x ^ 3 شباهت دارد.

اکنون این افتخار را دارم که برای دانش آموزانی سخنرانی کنم ترسریاضیات اگر از ریاضی می ترسید ما در همین مسیر هستیم. به محض اینکه سعی کردید متنی را بخوانید و به نظرتان می رسد که بیش از حد پیچیده است، بدانید که بد نوشته شده است. من استدلال می کنم که هیچ حوزه ای از ریاضیات وجود ندارد که نتوان در مورد آن "روی انگشتان دست" بدون از دست دادن دقت صحبت کرد.

تکلیف برای آینده نزدیک: من به دانش آموزان خود دستور دادم تا بفهمند تنظیم کننده خطی-مربع چیست. دریغ نکنید، سه دقیقه از عمر خود را صرف کنید، لینک را دنبال کنید. اگر چیزی نمی فهمید، پس ما در راه با شما هستیم. من (یک ریاضی دان-برنامه نویس حرفه ای) هم چیزی نفهمیدم. و من به شما اطمینان می دهم که می توانید آن را از روی انگشتان دست پیدا کنید. در حال حاضر نمی‌دانم چیست، اما به شما اطمینان می‌دهم که می‌توانیم آن را کشف کنیم.

بنابراین، اولین سخنرانی‌ای که می‌خواهم برای دانش‌آموزانم بخوانم، بعد از اینکه آنها با وحشت به سراغم آمدند با این جمله که یک تنظیم‌کننده خطی-مربع یک بایاکای وحشتناک است که هرگز در زندگی من به آن مسلط نمی‌شود. روش های حداقل مربعات... آیا می توانید معادلات خطی را حل کنید؟ اگر در حال خواندن این متن هستید، به احتمال زیاد نه.

بنابراین، با توجه به دو نقطه (x0، y0)، (x1، y1)، به عنوان مثال، (1،1) و (3،2)، مشکل پیدا کردن معادله یک خط مستقیم است که از این دو نقطه می گذرد:

تصویر

این خط باید معادله ای مانند زیر داشته باشد:

در اینجا آلفا و بتا برای ما ناشناخته هستند، اما ما دو نقطه از این خط مستقیم را می دانیم:

می توانید این معادله را به صورت ماتریسی بنویسید:

در اینجا باید یک انحراف غزلی انجام داد: ماتریس چیست؟ ماتریس چیزی بیش از یک آرایه دو بعدی نیست. این روشی برای ذخیره سازی داده ها است؛ شما نباید به آن اهمیت بیشتری بدهید. این به ما بستگی دارد که چگونه یک ماتریس خاص را دقیقاً تفسیر کنیم. من به صورت دوره ای آن را به عنوان یک نمایش خطی، به صورت دوره ای به عنوان یک فرم درجه دوم، و گاهی اوقات فقط به عنوان مجموعه ای از بردارها تفسیر می کنم. این همه در چارچوب روشن خواهد شد.

بیایید ماتریس های خاص را با نمایش نمادین آنها جایگزین کنیم:

سپس (آلفا، بتا) را می توان به راحتی پیدا کرد:

به طور خاص برای داده های قبلی ما:

که منجر به معادله زیر خط مستقیم عبور از نقاط (1،1) و (3،2) می شود:

خوب، اینجا همه چیز روشن است. بیایید معادله خط مستقیم عبوری را پیدا کنیم سهنقاط: (x0، y0)، (x1، y1) و (x2، y2):

اوه اوه، اما ما سه معادله برای دو مجهول داریم! یک ریاضیدان استاندارد خواهد گفت که هیچ راه حلی وجود ندارد. برنامه نویس چه خواهد گفت؟ برای شروع، او سیستم معادلات قبلی را به شکل زیر بازنویسی می کند:

در مورد ما، بردارهای i، j، b سه بعدی هستند، بنابراین (در حالت کلی) هیچ راه حلی برای این سیستم وجود ندارد. هر بردار (آلفا \ * i + بتا \ * j) در صفحه ای قرار دارد که توسط بردارهای (i, j) پوشانده شده است. اگر b به این صفحه تعلق نداشته باشد، پس جواب وجود ندارد (برابری در معادله بدست نمی آید). چه باید کرد؟ بیایید یک سازش پیدا کنیم. بیایید نشان دهیم e (آلفا، بتا)دقیقا چقدر به برابری نرسیده ایم:

و ما سعی خواهیم کرد این خطا را به حداقل برسانیم:

چرا مربع؟

ما نه فقط به دنبال حداقل هنجار، بلکه به دنبال حداقل مربع هنجار هستیم. چرا؟ حداقل نقطه به خودی خود منطبق است و مربع یک تابع صاف می دهد (یک تابع درجه دوم از آرگومان ها (آلفا، بتا))، در حالی که به سادگی طول یک تابع مخروط مانند می دهد که در نقطه حداقل قابل تمایز نیست. Brr. مربع راحت تر است.

بدیهی است که هنگام بردار خطا به حداقل می رسد همتعامد به صفحه ای است که توسط بردارها پوشانده شده است منو j.

تصویر

به عبارت دیگر: ما به دنبال خطی هستیم که مجموع مجذور طول فواصل تمام نقاط تا این خط حداقل باشد:

به روز رسانی: در اینجا من یک نمدی دارم، فاصله تا خط مستقیم باید به صورت عمودی اندازه گیری شود، نه یک برآمدگی متعامد. این مفسر درست می گوید.

تصویر

کاملاً متفاوت (با دقت، به طور ضعیف رسمی شده است، اما باید روی انگشتان مشخص باشد): ما همه خطوط ممکن را بین همه جفت نقاط می گیریم و به دنبال خط متوسط ​​بین همه می گردیم:

تصویر

یک توضیح دیگر روی انگشتان: ما بین تمام نقاط داده (در اینجا ما سه نقطه داریم) و خط مستقیمی که به دنبال آن هستیم یک فنر وصل می کنیم و خط مستقیم حالت تعادل دقیقاً همان چیزی است که به دنبال آن هستیم.

حداقل یک فرم درجه دوم

بنابراین، داشتن یک بردار داده شده بو صفحه ای که توسط بردارهای ستونی ماتریس پوشانده شده است آ(در این مورد (x0، x1، x2) و (1،1،1))، ما به دنبال یک بردار هستیم. هبا حداقل طول مربع بدیهی است که حداقل برای بردار قابل دستیابی است ه، متعامد به صفحه ای که توسط بردارهای ستون ماتریس پوشانده شده است آ:

به عبارت دیگر، ما به دنبال یک بردار x = (آلفا، بتا) هستیم که:

اجازه دهید یادآوری کنم که این بردار x = (آلفا، بتا) حداقل تابع درجه دوم است || e (آلفا، بتا) || ^ 2:

در اینجا یادآوری این نکته مفید خواهد بود که ماتریس را می توان به صورت یک فرم درجه دوم تفسیر کرد، برای مثال، ماتریس واحد ((1,0), (0,1)) را می توان به عنوان یک تابع x ^ 2 + y ^ 2 تفسیر کرد. :

فرم درجه دوم

تمام این ژیمناستیک به عنوان رگرسیون خطی شناخته می شود.

معادله لاپلاس با شرط مرزی دیریکله

اکنون ساده ترین کار واقعی: یک سطح مثلثی مشخص وجود دارد، شما باید آن را صاف کنید. به عنوان مثال، بیایید مدل چهره من را بارگذاری کنیم:

تعهد اولیه در دسترس است. برای به حداقل رساندن وابستگی‌های خارجی، کد رندر نرم‌افزارم را که قبلاً روی Habré بود، گرفتم. برای حل یک سیستم خطی، من از OpenNL استفاده می کنم، این یک حل کننده عالی است، با این حال، نصب آن بسیار دشوار است: شما باید دو فایل (.h + .c) را در پوشه پروژه خود کپی کنید. تمام Anti-aliasing با کد زیر انجام می شود:

برای (int d = 0; d<3; d++) { nlNewContext(); nlSolverParameteri(NL_NB_VARIABLES, verts.size()); nlSolverParameteri(NL_LEAST_SQUARES, NL_TRUE); nlBegin(NL_SYSTEM); nlBegin(NL_MATRIX); for (int i=0; i<(int)verts.size(); i++) { nlBegin(NL_ROW); nlCoefficient(i, 1); nlRightHandSide(verts[i][d]); nlEnd(NL_ROW); } for (unsigned int i=0; i& face = چهره [i]; برای (int j = 0; j<3; j++) { nlBegin(NL_ROW); nlCoefficient(face[ j ], 1); nlCoefficient(face[(j+1)%3], -1); nlEnd(NL_ROW); } } nlEnd(NL_MATRIX); nlEnd(NL_SYSTEM); nlSolve(); for (int i=0; i<(int)verts.size(); i++) { verts[i][d] = nlGetVariable(i); } }

مختصات X، Y و Z قابل جدا شدن هستند، من آنها را جداگانه صاف می کنم. یعنی من سه سیستم معادله خطی را حل می کنم که هر کدام تعداد متغیرها برابر با تعداد رئوس مدل من است. n سطر اول ماتریس A فقط یک واحد در هر سطر دارند و n سطر اول بردار b مختصات مدل اصلی دارند. یعنی، من بین موقعیت راس جدید و موقعیت راس قدیمی به فنری گره می زنم - موارد جدید نباید خیلی از حالت های قدیمی دور شوند.

تمام ردیف‌های بعدی ماتریس A (faces.size () * 3 = تعداد یال‌های همه مثلث‌ها در شبکه) یک رخداد 1 و یک رخداد -1 دارند و بردار b دارای مولفه‌های مقابل صفر است. این بدان معناست که من یک فنر را روی هر لبه مش مثلثی خود آویزان می کنم: تمام لبه ها سعی می کنند راس یکسانی را به عنوان نقطه شروع و پایان به دست آورند.

بار دیگر: همه رئوس متغیر هستند و نمی توانند از موقعیت اصلی خود دور شوند، اما در عین حال سعی می کنند شبیه یکدیگر شوند.

نتیجه این است:

همه چیز خوب خواهد بود، مدل واقعا صاف است، اما از لبه اصلی خود فاصله گرفته است. بیایید کد را کمی تغییر دهیم:

برای (int i = 0; i<(int)verts.size(); i++) { float scale = border[i] ? 1000: 1; nlBegin(NL_ROW); nlCoefficient(i, scale); nlRightHandSide(scale*verts[i][d]); nlEnd(NL_ROW); }

در ماتریس A، برای رئوس هایی که روی لبه هستند، یک ردیف از بیت v_i = verts [i] [d] اضافه نمی کنم، بلکه 1000 * v_i = 1000 * verts [i] [d] اضافه می کنم. چه چیزی را تغییر می دهد؟ و خطای قانون مربع ما را تغییر می دهد. اکنون، یک انحراف از راس در لبه، نه یک واحد، مانند قبل، بلکه 1000 * 1000 واحد هزینه خواهد داشت. یعنی فنر قوی تری را روی راس های افراطی آویزان کردیم، راه حل ترجیح می دهد بقیه بیشتر کشیده شود. نتیجه این است:

بیایید فنرهای بین رئوس را دو برابر کنیم:
nlCoefficient (face [j], 2); nlCoefficient (face [(j + 1)% 3], -2);

منطقی است که سطح صاف تر شده است:

و حالا حتی صد برابر قوی تر است:

این چیه؟ تصور کنید یک حلقه سیمی را در آب صابون فرو کنید. در نتیجه، فیلم صابونی تشکیل شده سعی می کند تا حد امکان کوچکترین انحنا را داشته باشد و مرز - حلقه سیم ما را لمس کند. این دقیقاً همان چیزی است که با تعمیر حاشیه و درخواست سطح صاف در داخل به دست آوردیم. تبریک می‌گوییم، ما فقط معادله لاپلاس را با شرایط مرزی دیریکله حل کردیم. باحال به نظر می رسد؟ اما در واقع فقط یک سیستم معادلات خطی حل می شود.

معادله پواسون

بیایید یک نام جالب دیگر را به یاد بیاوریم.

فرض کنید من یک عکس مانند این دارم:

همه خوبن فقط من صندلی رو دوست ندارم.

عکس رو نصف میکنم:



و من صندلی را با دستان خود برجسته می کنم:

سپس هر چیزی که در ماسک سفید است را به سمت چپ تصویر می کشم و در همان زمان در سراسر تصویر می گویم که تفاوت بین دو پیکسل همسایه باید برابر با تفاوت بین دو پیکسل همسایه سمت راست باشد. تصویر:

برای (int i = 0; i

نتیجه این است:

مثال زندگی واقعی

من عمداً نتایج صیقلی را انجام ندادم. من فقط می خواستم به شما نشان دهم که چگونه می توانید روش های حداقل مربعات را اعمال کنید، این یک کد آموزشی است. بگذارید اکنون مثالی از زندگی بزنم:

من تعدادی عکس از نمونه پارچه دارم به این صورت:

وظیفه من ساختن بافت های بدون درز از عکس هایی با این کیفیت است. اول، من (به طور خودکار) به دنبال یک الگوی تکراری می گردم:

اگر این چهار ضلعی را مستقیماً برش دهم، به دلیل اعوجاج، لبه ها همگرا نمی شوند، در اینجا یک نمونه از یک الگوی است که چهار بار تکرار شده است:

متن پنهان

در اینجا یک قطعه است که درز به وضوح قابل مشاهده است:

بنابراین، من در امتداد یک خط مستقیم نمی برم، در اینجا خط برش است:

متن پنهان

و در اینجا الگویی است که چهار بار تکرار شده است:

متن پنهان

و بخشی از آن برای روشن تر شدن مطلب:

حتی بهتر از آن، برش در یک خط مستقیم قرار نگرفت و انواع فرها را دور زد، اما همچنان به دلیل نور ناهموار در عکس اصلی، درز قابل مشاهده است. اینجاست که روش حداقل مربعات برای معادله پواسون وارد می شود. در اینجا نتیجه نهایی پس از تراز کردن نور است:

بافت کاملاً یکپارچه بیرون آمد، و همه اینها به صورت خودکار از یک عکس بسیار متوسط ​​بود. از ریاضی نترسید، به دنبال توضیحات ساده باشید و خوشحالی مهندسی خواهید داشت.

حداقل مربعات معمولی (OLS)- یک روش ریاضی که برای حل مسائل مختلف استفاده می شود، بر اساس به حداقل رساندن مجموع مجذورات انحراف برخی از توابع از متغیرهای مورد نظر. می توان از آن برای "حل" معادلات بیش از حد تعیین شده استفاده کرد (زمانی که تعداد معادلات از تعداد مجهولات بیشتر شود)، برای یافتن راه حل در مورد سیستم های غیرخطی معادلات معمولی (نه بیش از حد تعیین شده)، برای تقریب مقادیر نقطه ای. از برخی عملکردها OLS یکی از روش های تحلیل رگرسیون اساسی برای تخمین پارامترهای ناشناخته مدل های رگرسیونی بر اساس داده های نمونه است.

یوتیوب دانشگاهی

    1 / 5

    ✪ روش حداقل مربعات. موضوع

    ✪ حداقل مربعات درس 1/2. تابع خطی

    ✪ اقتصاد سنجی سخنرانی 5 روش حداقل مربعات

    ✪ میتین IV - پردازش نتایج فیزیکی. آزمایش - روش حداقل مربعات (سخنرانی 4)

    ✪ اقتصاد سنجی: درک حداقل مربعات شماره 2

    زیرنویس

داستان

تا اوایل قرن نوزدهم. دانشمندان قوانین مشخصی برای حل سیستم معادلاتی که در آن تعداد مجهولات کمتر از تعداد معادلات باشد، نداشتند. تا آن زمان از روش‌های خاصی استفاده می‌شد که به نوع معادلات و هوشمندی ماشین‌حساب‌ها بستگی داشت و بنابراین ماشین‌حساب‌های مختلف بر اساس داده‌های مشاهداتی یکسان به نتایج متفاوتی می‌رسیدند. گاوس (1795) نویسنده اولین کاربرد این روش بود و لژاندر (1805) به طور مستقل آن را کشف و با نام مدرن (فر. Méthode des moindres quarrés). لاپلاس این روش را با نظریه احتمال مرتبط کرد و ریاضیدان آمریکایی ادرین (1808) کاربردهای نظری و احتمالی آن را در نظر گرفت. این روش با تحقیقات بیشتر توسط انکه، بسل، هانسن و دیگران گسترش یافت و بهبود یافت.

ماهیت روش حداقل مربعات

اجازه دهید x (\ displaystyle x)- کیت n (\ displaystyle n)متغیرهای ناشناخته (پارامترها) f i (x) (\ displaystyle f_ (i) (x)), , m> n (\ displaystyle m> n)- مجموعه ای از توابع از این مجموعه از متغیرها. وظیفه انتخاب چنین مقادیری است x (\ displaystyle x)به طوری که مقادیر این توابع تا حد امکان به برخی از مقادیر نزدیک باشد y i (\ displaystyle y_ (i))... در اصل، ما در مورد "حل" سیستم معادلات بیش از حد تعیین شده صحبت می کنیم. f i (x) = y i (\ نمایش سبک f_ (i) (x) = y_ (i)), i = 1،…، m (\ نمایش سبک i = 1، \ ldots، m)به معنای مشخص شده حداکثر نزدیکی قسمت های چپ و راست سیستم. ماهیت LSM این است که مجموع مربعات انحرافات سمت چپ و راست را به عنوان "اندازه گیری مجاورت" انتخاب کنید. | f i (x) - y i | (\ displaystyle | f_ (i) (x) -y_ (i) |)... بنابراین، ماهیت OLS را می توان به صورت زیر بیان کرد:

∑ iei 2 = ∑ i (yi - fi (x)) 2 → min x (\ displaystyle \ sum _ (i) e_ (i) ^ (2) = \ sum _ (i) (y_ (i) -f_ ( i) (x)) ^ (2) \ فلش راست \ دقیقه _ (x)).

اگر سیستم معادلات دارای راه حل باشد، حداقل مجموع مربعات برابر با صفر خواهد بود و جواب های دقیق سیستم معادلات را می توان به صورت تحلیلی یا مثلاً با روش های مختلف بهینه سازی عددی یافت. اگر سیستم بازتعریف شود، یعنی به صورت آزاد صحبت کنیم، تعداد معادلات مستقل بیشتر از تعداد متغیرهای جستجو شده باشد، آنگاه سیستم راه حل دقیقی ندارد و روش حداقل مربعات به شما امکان می دهد برخی از بردارهای "بهینه" را پیدا کنید. x (\ displaystyle x)به معنای حداکثر نزدیکی بردارها y (\ نمایش سبک y)و f (x) (\ displaystyle f (x))یا حداکثر نزدیکی بردار انحرافات e (\ displaystyle e)به صفر (نزدیک به معنای فاصله اقلیدسی درک می شود).

مثال - سیستم معادلات خطی

به طور خاص، روش حداقل مربعات را می توان برای "حل" یک سیستم معادلات خطی استفاده کرد

A x = b (\ شیوه نمایش Ax = b),

جایی که A (\ displaystyle A)ماتریس اندازه مستطیلی m × n، m> n (\ displaystyle m \ بار n، m> n)(یعنی تعداد ردیف های ماتریس A بیشتر از تعداد متغیرهای جستجو شده است).

در حالت کلی، چنین سیستم معادلاتی هیچ راه حلی ندارد. بنابراین، این سیستم را می توان تنها به معنای انتخاب چنین بردار "حل" کرد x (\ displaystyle x)برای به حداقل رساندن "فاصله" بین بردارها A x (\ displaystyle Axe)و b (\ displaystyle b)... برای این کار می توانید معیار کمینه سازی مجموع مجذورات اختلاف سمت چپ و راست معادلات سیستم را اعمال کنید، یعنی: (A x - b) T (A x - b) → min x (\ نمایش سبک (Ax-b) ^ (T) (Ax-b) \ فلش راست \ دقیقه _ (x))... به راحتی می توان نشان داد که حل این مسئله کمینه سازی منجر به حل سیستم معادلات زیر می شود

ATA x = AT b ⇒ x = (ATA) - 1 AT b (\ نمایش سبک A ^ (T) Ax = A ^ (T) b \ فلش راست x = (A ^ (T) A) ^ (- 1) A ^ (T) ب).

OLS در تحلیل رگرسیون (برازش داده ها)

بذار باشه n (\ displaystyle n)مقادیر برخی از متغیرها y (\ نمایش سبک y)(این می تواند نتایج مشاهدات، آزمایش ها و غیره باشد) و متغیرهای مربوطه x (\ displaystyle x)... چالش این است که اطمینان حاصل شود که رابطه بین y (\ نمایش سبک y)و x (\ displaystyle x)تقریبی توسط یک تابع شناخته شده تا برخی از پارامترهای ناشناخته b (\ displaystyle b)، یعنی در واقع بهترین مقادیر پارامترها را پیدا کنید b (\ displaystyle b)، حداکثر مقادیر تقریبی f (x, b) (\ displaystyle f (x, b))به ارزش های واقعی y (\ نمایش سبک y)... در واقع، این به حالت "حل" یک سیستم معادلات بیش از حد تعیین شده با توجه به b (\ displaystyle b):

F (x t، b) = y t، t = 1،…، n (\ نمایش سبک f (x_ (t)، b) = y_ (t)، t = 1، \ ldots، n).

در تحلیل رگرسیون و به ویژه در اقتصاد سنجی، از مدل های احتمالی رابطه بین متغیرها استفاده می شود.

Y t = f (x t، b) + ε t (\ نمایش سبک y_ (t) = f (x_ (t)، b) + \ varepsilon _ (t)),

جایی که ε t (\ displaystyle \ varepsilon _ (t))- باصطلاح خطاهای تصادفیمدل ها.

بر این اساس، انحراف مقادیر مشاهده شده y (\ نمایش سبک y)از مدل f (x, b) (\ displaystyle f (x, b))از قبل در خود مدل فرض شده است. ماهیت OLS (معمولی، کلاسیک) یافتن چنین پارامترهایی است b (\ displaystyle b)که مجموع مربعات انحرافات (خطاها، برای مدل های رگرسیون اغلب آنها را باقیمانده رگرسیون می نامند) e t (\ displaystyle e_ (t))حداقل خواهد بود:

b ^ O L S = arg ⁡ min b R S S (b) (\ displaystyle (\ hat (b)) _ (OLS) = \ arg \ min _ (b) RSS (b)),

جایی که R S S (\ displaystyle RSS)- انگلیسی. مجموع مربعات باقیمانده به صورت زیر تعریف می شود:

RSS (b) = e T e = ∑ t = 1 خالص 2 = ∑ t = 1 n (yt - f (xt، b)) 2 (\ displaystyle RSS (b) = e ^ (T) e = \ جمع _ (t = 1) ^ (n) e_ (t) ^ (2) = \ جمع _ (t = 1) ^ (n) (y_ (t) -f (x_ (t)، b)) ^ (2) ).

در حالت کلی، این مشکل را می توان با روش های بهینه سازی عددی (به حداقل رساندن) حل کرد. در این مورد آنها صحبت می کنند حداقل مربعات غیر خطی(NLS یا NLLS - حداقل مربعات غیر خطی انگلیسی). در بسیاری از موارد می توان یک راه حل تحلیلی به دست آورد. برای حل مشکل کمینه سازی، باید نقاط ساکن تابع را پیدا کرد R S (b) (\ displaystyle RSS (b))، آن را با پارامترهای ناشناخته متمایز می کند b (\ displaystyle b)، معادل سازی مشتقات با صفر و حل سیستم معادلات حاصل:

∑ t = 1 n (yt - f (xt, b)) ∂ f (xt, b) ∂ b = 0 (\ displaystyle \ جمع _ (t = 1) ^ (n) (y_ (t) -f (x_ (t)، b)) (\ frac (\ f جزئی (x_ (t)، b)) (\ جزئی b)) = 0).

OLS برای رگرسیون خطی

بگذارید وابستگی رگرسیون خطی باشد:

yt = ∑ j = 1 kbjxtj + ε = xt T b + ε t (\ نمایش سبک y_ (t) = \ جمع _ (j = 1) ^ (k) b_ (j) x_ (tj) + \ varepsilon = x_ ( t) ^ (T) b + \ varepsilon _ (t)).

اجازه دهید yبردار ستونی مشاهدات متغیر مورد توضیح است و X (\ displaystyle X)- آی تی (n × k) (\ سبک نمایش ((n \ بار k)))-ماتریس مشاهدات عوامل (ردیف های ماتریس بردار مقادیر فاکتورها در یک مشاهده معین هستند، توسط ستون ها - بردار مقادیر یک عامل معین در همه مشاهدات). نمایش ماتریسی مدل خطی به صورت زیر است:

y = X b + ε (\ displaystyle y = Xb + \ varepsilon).

سپس بردار تخمین های متغیر توضیح داده شده و بردار باقیمانده های رگرسیون برابر خواهد بود.

y ^ = X b، e = y - y ^ = y - X b (\ نمایش سبک (\ کلاه (y)) = Xb، \ چهار e = y - (\ کلاه (y)) = y-Xb).

بر این اساس، مجموع مجذورهای باقیمانده رگرسیون خواهد بود

R S S = e T e = (y - X b) T (y - X b) (\ displaystyle RSS = e ^ (T) e = (y-Xb) ^ (T) (y-Xb)).

متمایز کردن این تابع با توجه به بردار پارامتر b (\ displaystyle b)و با معادل سازی مشتقات با صفر، سیستمی از معادلات (به صورت ماتریسی) به دست می آید:

(X T X) b = X T y (\ سبک نمایش (X ^ (T) X) b = X ^ (T) y).

در شکل ماتریس رمزگشایی شده، این سیستم معادلات به شکل زیر است:

(∑ xt 1 2 ∑ xt 1 xt 2 ∑ xt 1 xt 3… ∑ xt 1 xtk ∑ xt 2 xt 1 ∑ xt 2 2 ∑ xt 2 xt 3… ∑ xt 2 xtk ∑t 2 xt ∑t ∑ xt 2 xtk ∑ xt 3 2… ∑ xt 3 xtk ⋮ ⋮ ⋮ ⋱ ⋮ ∑ xtkxt 1 ∑ xtkxt 2 ∑ xtkxt 3… ∑ xtk 2) (b 1 b 2 b 3 xt ∑ 2 b 3 xt ∑ yt ⋮ ∑ xtkyt)، (\ displaystyle (\ begin (pmatrix) \ sum x_ (t1) ^ (2) & \ sum x_ (t1) x_ (t2) & \ sum x_ (t1) x_ (t3) & \ ldots & \ جمع x_ (t1) x_ (tk) \\\ مجموع x_ (t2) x_ (t1) & \ مجموع x_ (t2) ^ (2) & \ مجموع x_ (t2) x_ (t3) & \ ldots & \ مجموع x_ (t2) x_ (tk) \\\ مجموع x_ (t3) x_ (t1) & \ مجموع x_ (t3) x_ (t2) & \ مجموع x_ (t3) ^ (2) & \ ldots & \ مجموع x_ (t3) x_ (tk) \\\ vdots & \ vdots & \ vdots & \ ddots & \ vdots \\\ sum x_ (tk) x_ (t1) & \ sum x_ (tk) x_ (t2) & \ جمع x_ (tk) x_ (t3) & \ ldots & \ sum x_ (tk) ^ (2) \\\ end (pmatrix)) (\ begin (pmatrix) b_ (1) \\ b_ (2) \\ b_ (3 ) \\\ vdots \\ b_ (k) \\\ پایان (pmatrix)) = (\ شروع (pmatrix) \ جمع x_ (t1) y_ (t) \\\ جمع x_ (t2) y_ (t) \\ \ جمع x_ (t3) y_ (t) \\\ vdots \\\ جمع x_ (tk) y_ (t) \\\ پایان (pmatrix))که در آن تمام مبالغ بر تمام مقادیر مجاز گرفته می شود t (\ displaystyle t).

اگر یک ثابت در مدل گنجانده شود (طبق معمول)، پس x t 1 = 1 (\ سبک نمایش x_ (t1) = 1)با همه t (\ displaystyle t)بنابراین، در گوشه سمت چپ بالای ماتریس سیستم معادلات، تعداد مشاهدات وجود دارد. n (\ displaystyle n)و در بقیه عناصر ردیف اول و ستون اول - فقط مجموع مقادیر متغیرها: ∑ x t j (\ displaystyle \ مجموع x_ (tj))و اولین عنصر سمت راست سیستم است ∑ y t (\ displaystyle \ جمع y_ (t)).

حل این سیستم معادلات فرمول کلی تخمین OLS را برای مدل خطی به دست می دهد:

b ^ OLS = (XTX) - 1 XT y = (1 n XTX) - 1 1 n XT y = V x - 1 C xy (\ سبک نمایش (\ کلاه (b)) _ (OLS) = (X ^ (T ) X) ^ (- 1) X ^ (T) y = \ چپ ((\ فرک (1) (n)) X ^ (T) X \ راست) ^ (- 1) (\ فرک (1) (n )) X ^ (T) y = V_ (x) ^ (- 1) C_ (xy)).

برای اهداف تحلیلی، آخرین نمایش این فرمول مفید است (در سیستم معادلات وقتی بر n تقسیم می شود، به جای مجموع، میانگین های حسابی ظاهر می شود). اگر در مدل رگرسیون داده ها متمرکز شده است، سپس در این نمایش ماتریس اول به معنای ماتریس کوواریانس نمونه عوامل است و دومی بردار کوواریانس عوامل با متغیر وابسته است. اگر علاوه بر این، داده نیز باشد نرمال شدهبه SKO (یعنی در نهایت استاندارد شده)، سپس ماتریس اول به معنای ماتریس همبستگی انتخابی عوامل است، بردار دوم بردار همبستگی انتخابی عوامل با یک متغیر وابسته است.

ویژگی مهم تخمین OLS برای مدل ها با ثابت- خط رگرسیون ساخته شده از مرکز ثقل داده های نمونه می گذرد، یعنی برابری برآورده می شود:

y ¯ = b 1 ^ + ∑ j = 2 kb ^ jx ¯ j (\ displaystyle (\ bar (y)) = (\ hat (b_ (1))) + \ جمع _ (j = 2) ^ (k) (\ کلاه (ب)) _ (j) (\ نوار (x)) _ (j)).

به طور خاص، در حالت شدید، زمانی که تنها رگرسیون یک ثابت است، متوجه می‌شویم که تخمین OLS تنها پارامتر (خود ثابت) برابر است با میانگین مقدار متغیر توضیح داده شده. یعنی میانگین حسابی که به دلیل خواص خوبش از قوانین اعداد بزرگ شناخته شده است، همچنین یک تخمین OLS است - این معیار حداقل مجموع مجذور انحرافات از آن را برآورده می کند.

ساده ترین موارد خاص

در مورد رگرسیون خطی زوجی y t = a + b x t + ε t (\ نمایش سبک y_ (t) = a + bx_ (t) + \ varepsilon _ (t))، هنگامی که وابستگی خطی یک متغیر به متغیر دیگر تخمین زده می شود، فرمول های محاسباتی ساده می شوند (شما می توانید بدون جبر ماتریسی انجام دهید). سیستم معادلات به صورت زیر است:

(1 x ¯ x ¯ x 2 ¯) (ab) = (y ¯ xy ¯) (\ displaystyle (\ start (pmatrix) 1 & (\ bar (x)) \\ (\ bar (x)) & (\ نوار (x ^ (2))) \\\ پایان (pmatrix)) (\ begin (pmatrix) a \\ b \\\ end (pmatrix)) = (\ شروع (pmatrix) (\ bar (y)) \ \ (\ overline (xy)) \\\ پایان (pmatrix))).

بنابراین، به راحتی می توان ضرایب را تخمین زد:

(b ^ = Cov ⁡ (x, y) Var ⁡ (x) = xy ¯ - x ¯ y ¯ x 2 ¯ - x ¯ 2, a ^ = y ¯ - bx ¯. (\ سبک نمایش (\ شروع (حروف) (\ hat (b)) = (\ frac (\ mathop (\ textrm (Cov)) (x, y)) (\ mathop (\ textrm (Var)) (x))) = (\ frac ((\ overline (xy)) - (\ bar (x)) (\ bar (y))) ((\ overline (x ^ (2))) - (\ overline (x)) ^ (2))), \\ ( \ کلاه (a)) = (\ نوار (y)) - b (\ نوار (x)). \ انتهای (موارد)))

علیرغم اینکه در حالت کلی مدل دارای ثابت ارجح است، در برخی موارد از ملاحظات نظری مشخص می شود که ثابت a (\ displaystyle a)باید صفر باشد به عنوان مثال، در فیزیک، رابطه بین ولتاژ و جریان شکل دارد U = I ⋅ R (\ displaystyle U = I \ cdot R); با اندازه گیری ولتاژ و قدرت جریان، لازم است مقاومت را تخمین بزنیم. در این مورد، ما در مورد مدل صحبت می کنیم y = b x (\ شیوه نمایش y = bx)... در این حالت به جای سیستم معادلات، تنها معادله را داریم

(∑ x t 2) b = ∑ x t y t (\ نمایش سبک \ چپ (\ مجموع x_ (t) ^ (2) \ راست) b = \ جمع x_ (t) y_ (t)).

در نتیجه، فرمول تخمین یک ضریب منفرد شکل دارد

B ^ = ∑ t = 1 nxtyt ∑ t = 1 nxt 2 = xy ¯ x 2 ¯ (\ displaystyle (\ hat (b)) = (\ frac (\ sum _ (t = 1) ^ (n) x_ (t ) y_ (t)) (\ جمع _ (t = 1) ^ (n) x_ (t) ^ (2))) = (\ فراخ (\ روی خط (xy)) (\ روی خط (x ^ (2)) ))).

مورد مدل چند جمله ای

اگر داده ها با یک تابع رگرسیون چند جمله ای منفرد برازش داده شوند f (x) = b 0 + ∑ i = 1 k b i x i (\ displaystyle f (x) = b_ (0) + \ sum \ limits _ (i = 1) ^ (k) b_ (i) x ^ (i))، سپس، درک درجه x i (\ displaystyle x ^ (i))به عنوان عوامل مستقل برای همه i (\ displaystyle i)تخمین پارامترهای مدل بر اساس فرمول کلی برای تخمین پارامترهای یک مدل خطی امکان پذیر است. برای این کار کافی است در فرمول کلی در نظر بگیریم که با چنین تعبیری x t i x t j = x t i x t j = x t i + j (\ displaystyle x_ (ti) x_ (tj) = x_ (t) ^ (i) x_ (t) ^ (j) = x_ (t) ^ (i + j))و x t j y t = x t j y t (\ displaystyle x_ (tj) y_ (t) = x_ (t) ^ (j) y_ (t))... در نتیجه، معادلات ماتریسی در این مورد به شکل زیر خواهد بود:

(n ∑ nxt… ∑ nxtk ∑ nxt ∑ nxt 2… ∑ nxtk + 1 ⋮ ⋮ ⋱ ⋮ ∑ nxtk ∑ nxtk + 1… ∑ nxt 2 k) [b 0 b 1 ⋮ ∑ nxt 1 ⋮ ]. (\ displaystyle (\ start (pmatrix) n & \ sum \ limits _ (n) x_ (t) & \ ldots & \ sum \ limits _ (n) x_ (t) ^ (k) \\\ sum \ limits _ (n) x_ (t) & \ جمع \ محدودیت ها _ (n) x_ (t) ^ (2) & \ ldots & \ sum \ limits _ (n) x_ (t) ^ (k + 1) \\\ vdots & \ vdots & \ ddots & \ vdots \\\ sum \ limits _ (n) x_ (t) ^ (k) & \ sum \ limits _ (n) x_ (t) ^ (k + 1) & \ ldots & \ جمع \ محدود _ (n) x_ (t) ^ (2k) \ پایان (pmatrix)) (\ begin (bmatrix) b_ (0) \\ b_ (1) \\\ vdots \\ b_ (k) \ پایان ( bmatrix)) = (\ start (bmatrix) \ sum \ limits _ (n) y_ (t) \\\ sum \ limits _ (n) x_ (t) y_ (t) \\\ vdots \\\ sum \ محدودیت های _ (n) x_ (t) ^ (k) y_ (t) \ پایان (bmatrix)).)

ویژگی های آماری تخمین OLS

اول از همه، ما متذکر می شویم که برای مدل های خطی، برآوردهای OLS تخمین های خطی هستند، همانطور که از فرمول بالا آمده است. برای بی طرفی تخمین های OLS، انجام مهم ترین شرط تحلیل رگرسیون لازم و کافی است: انتظار ریاضی یک خطای تصادفی، مشروط بر حسب عوامل، باید برابر با صفر باشد. این شرط، به ویژه، برآورده می شود اگر

  1. انتظار ریاضی خطاهای تصادفی صفر است و
  2. عوامل و خطاهای تصادفی متغیرهای تصادفی مستقل هستند.

شرط دوم - شرط عوامل برونزا - اساسی است. اگر این ویژگی برآورده نشود، می توانیم فرض کنیم که تقریباً هر تخمینی بسیار رضایت بخش نخواهد بود: آنها حتی سازگار نخواهند بود (یعنی حتی حجم بسیار زیادی از داده ها اجازه به دست آوردن برآوردهای کیفی را در این مورد نمی دهد). در مورد کلاسیک، فرض قوی تری در مورد جبر عوامل ایجاد می شود، در مقابل خطای تصادفی، که به طور خودکار به معنای تحقق شرایط برون زا است. در حالت کلی، برای سازگاری برآوردها، ارضای شرط برون زایی همراه با همگرایی ماتریس کافی است. V x (\ displaystyle V_ (x))به برخی از ماتریس های غیر منحط با افزایش حجم نمونه تا بی نهایت.

برای اینکه تخمین های حداقل مربعات (معمولی) علاوه بر ثبات و بی طرفی موثر باشند (بهترین در کلاس تخمین های بی طرف خطی)، لازم است ویژگی های اضافی یک خطای تصادفی را برآورده کنیم:

این مفروضات را می توان برای ماتریس کوواریانس بردار خطاهای تصادفی فرموله کرد. V (ε) = σ 2 I (\ displaystyle V (\ varepsilon) = \ sigma ^ (2) I).

یک مدل خطی که این شرایط را برآورده کند نامیده می شود کلاسیک... تخمین‌های OLS برای رگرسیون خطی کلاسیک، بی‌طرفانه، سازگار و مؤثرترین تخمین‌ها در کلاس همه تخمین‌های بی‌طرف خطی هستند (در ادبیات انگلیسی، گاهی اوقات از علامت اختصاری استفاده می‌شود. آبی (بهترین برآوردگر بی طرف خطی) بهترین تخمین بی طرفانه خطی است. در ادبیات داخلی، قضیه گاوس - مارکوف بیشتر مورد استناد قرار می گیرد). همانطور که نشان دادن آسان است، ماتریس کوواریانس بردار برآورد ضرایب برابر با:

V (b ^ OLS) = σ 2 (XTX) - 1 (\ نمایش سبک V ((\ کلاه (b)) _ (OLS)) = \ سیگما ^ (2) (X ^ (T) X) ^ (- 1 )).

کارایی به این معنی است که این ماتریس کوواریانس "حداقل" است (هر ترکیب خطی ضرایب، و به ویژه خود ضرایب، حداقل واریانس را دارند)، یعنی در کلاس تخمین‌های بی‌طرف خطی، تخمین‌های OLS بهترین هستند. عناصر مورب این ماتریس - واریانس های برآورد ضرایب - پارامترهای مهم کیفیت تخمین های به دست آمده هستند. با این حال، محاسبه ماتریس کوواریانس غیرممکن است، زیرا واریانس خطاهای تصادفی ناشناخته است. می توان ثابت کرد که برآورد بی طرفانه و سازگار (برای مدل خطی کلاسیک) از واریانس خطاهای تصادفی مقدار:

S 2 = R S S / (n - k) (\ displaystyle s ^ (2) = RSS / (n-k)).

با جایگزینی این مقدار در فرمول برای ماتریس کوواریانس، تخمینی از ماتریس کوواریانس بدست می آوریم. تخمین های به دست آمده نیز بی طرفانه و سازگار هستند. همچنین مهم است که برآورد واریانس خطاها (و در نتیجه واریانس ضرایب) و تخمین پارامترهای مدل، متغیرهای تصادفی مستقل باشند، که به فرد اجازه می‌دهد تا آمار آزمون را برای آزمایش فرضیه‌های مربوط به ضرایب مدل به دست آورد.

لازم به ذکر است که اگر مفروضات کلاسیک برآورده نشود، برآوردهای OLS پارامترها کارآمدترین نیستند و در جایی که W (\ displaystyle W)- مقداری ماتریس وزن قطعی مثبت متقارن. OLS معمول یک مورد خاص از این رویکرد است، زمانی که ماتریس وزن متناسب با ماتریس هویت باشد. همانطور که مشخص است، برای ماتریس های متقارن (یا عملگرها) تجزیه وجود دارد W = P T P (\ سبک نمایش W = P ^ (T) P)... بنابراین، این تابع را می توان به صورت زیر نشان داد e TPTP e = (P e) TP e = e ∗ T e ∗ (\ displaystyle e ^ (T) P ^ (T) Pe = (Pe) ^ (T) Pe = e _ (*) ​​^ (T ) e_ (*))، یعنی این تابع را می توان به عنوان مجموع مربعات برخی از "باقیمانده های" تبدیل شده نشان داد. بنابراین، ما می توانیم یک کلاس از روش های حداقل مربعات - روش های LS (کمترین مربع) را تشخیص دهیم.

ثابت شده است (قضیه آیتکن) که برای یک مدل رگرسیون خطی تعمیم یافته (که در آن هیچ محدودیتی بر روی ماتریس کوواریانس خطاهای تصادفی اعمال نمی شود)، موثرترین (در کلاس تخمین های بی طرف خطی) تخمین های به اصطلاح هستند. OLS تعمیم یافته (OLS، GLS - حداقل مربعات تعمیم یافته)- روش LS با ماتریس وزنی برابر با ماتریس کوواریانس معکوس خطاهای تصادفی: W = V ε - 1 (\ displaystyle W = V _ (\ varepsilon) ^ (- 1)).

می توان نشان داد که فرمول تخمین OLS برای پارامترهای یک مدل خطی دارای فرم است

B ^ GLS = (XTV - 1 X) - 1 XTV - 1 y (\ displaystyle (\ hat (b)) _ (GLS) = (X ^ (T) V^ (- 1) X) ^ (- 1) X ^ (T) V ^ (- 1) y).

ماتریس کوواریانس این برآوردها بر این اساس برابر خواهد بود

V (b ^ GLS) = (XTV - 1 X) - 1 (\ displaystyle V ((\ hat (b)) _ (GLS)) = (X ^ (T) V ^ (- 1) X) ^ (- یک)).

در واقع، ماهیت OLS یک تبدیل خاص (خطی) (P) از داده های اصلی و استفاده از OLS معمول برای داده های تبدیل شده است. هدف از این تبدیل این است که برای داده های تبدیل شده، خطاهای تصادفی از قبل مفروضات کلاسیک را برآورده می کنند.

OLS وزنی

در مورد ماتریس وزن مورب (و در نتیجه ماتریس کوواریانس خطاهای تصادفی)، به اصطلاح حداقل مربعات وزنی (WLS) را داریم. در این حالت، مجموع وزنی مجذورهای باقیمانده مدل به حداقل می رسد، یعنی هر مشاهده یک "وزن" به طور معکوس متناسب با واریانس خطای تصادفی در این مشاهده دریافت می کند: e TW e = ∑ t = 1 خالص 2 σ t 2 (\ displaystyle e ^ (T) We = \ sum _ (t = 1) ^ (n) (\ frac (e_ (t) ^ (2)) (\ سیگما _ (t) ^ (2))))... در واقع، داده ها با وزن دادن به مشاهدات (تقسیم بر یک مقدار متناسب با انحراف استاندارد تخمینی خطاهای تصادفی) تبدیل می شوند و OLS معمولی برای داده های وزنی اعمال می شود.

شابک 978-5-7749-0473-0.

  • اقتصاد سنجی. کتاب درسی / ویرایش. Eliseeva I.I. - ویرایش دوم. - م.: امور مالی و آمار، 1385 .-- 576 ص. - شابک 5-279-02786-3.
  • الکساندروا N.V.تاریخچه اصطلاحات، مفاهیم، ​​نامگذاری های ریاضی: فرهنگ لغت مرجع. - ویرایش سوم .. - M.: LKI, 2008 .-- 248 p. - شابک 978-5-382-00839-4. I.V. Mitin، Rusakov V.S. تجزیه و تحلیل و پردازش داده های تجربی - ویرایش پنجم - 24s.
  • به طور گسترده ای در اقتصاد سنجی در قالب یک تفسیر اقتصادی روشن از پارامترهای آن استفاده می شود.

    رگرسیون خطی به یافتن معادله شکل کاهش می یابد

    یا

    معادله فرم مقادیر پارامترهای داده شده را اجازه می دهد ایکسدارای مقادیر نظری شاخص موثر و جایگزینی مقادیر واقعی عامل در آن ایکس.

    ساخت رگرسیون خطی به تخمین پارامترهای آن کاهش می یابد - آو vتخمین پارامترهای رگرسیون خطی را می توان با روش های مختلف یافت.

    رویکرد کلاسیک برای برآورد پارامترهای رگرسیون خطی بر اساس است روش حداقل مربعات(OLS).

    OLS به فرد امکان می دهد چنین تخمین های پارامتری را بدست آورد آو vکه در آن مجموع مربعات انحرافات مقادیر واقعی صفت حاصل است (y)از محاسبه شده (نظری) حداقل:

    برای یافتن حداقل تابع، باید مشتقات جزئی را با توجه به هر یک از پارامترها محاسبه کرد. آو بو آنها را صفر کنید.

    نشان می دهیم از طریق S، سپس:

    با تبدیل فرمول، سیستم معادلات عادی زیر را برای تخمین پارامترها به دست می آوریم آو v:

    با حل سیستم معادلات نرمال (3.5) چه به روش حذف متوالی متغیرها و چه به روش تعیین کننده ها، تخمین های مورد نیاز پارامترها را می یابیم. آو v

    پارامتر vضریب رگرسیون نامیده می شود. مقدار آن میانگین تغییر در نتیجه را با تغییر ضریب یک واحد نشان می دهد.

    معادله رگرسیون همیشه با شاخصی از تنگی رابطه تکمیل می شود. هنگامی که از رگرسیون خطی استفاده می شود، ضریب همبستگی خطی به عنوان چنین شاخصی عمل می کند. تغییرات مختلفی در فرمول ضریب همبستگی خطی وجود دارد. برخی از آنها به شرح زیر است:

    همانطور که می دانید ضریب همبستگی خطی در محدوده: -1 است 1.

    برای ارزیابی کیفیت انتخاب یک تابع خطی، مربع محاسبه می شود

    ضریب همبستگی خطی نامیده می شود ضریب تعیینضریب تعیین، نسبت واریانس شاخص مؤثر را مشخص می کند با رگرسیون، در کل واریانس صفت مؤثر توضیح داده می شود:

    بر این اساس، مقدار 1 - نسبت پراکندگی را مشخص می کند ناشی از تأثیر عوامل دیگری است که در مدل در نظر گرفته نشده اند.

    سوالاتی برای خودکنترلی

    1. ماهیت روش حداقل مربعات چیست؟

    2. رگرسیون زوجی چند متغیر ارائه شده است؟

    3. ضریب تعیین کننده تنگی رابطه بین تغییرات چیست؟

    4. ضریب تعیین در چه حدودی تعیین می شود؟

    5. برآورد پارامتر b در تحلیل همبستگی-رگرسیون؟

    1. کریستوفر دوگرتی. مقدمه ای بر اقتصاد سنجی. - M .: INFRA - M، 2001 - 402 p.

    2.S.A. بورودیچ. اقتصاد سنجی. Minsk LLC "دانش جدید" 2001.


    3. R.U. Rakhmetova دوره کوتاهی در اقتصاد سنجی. آموزش. آلماتی 2004. -78s.

    4. I.I. الیزوا، اقتصاد سنجی. - M .: "مالی و آمار"، 2002

    5. ماهنامه اطلاعات و تحلیلی.

    مدل های اقتصادی غیرخطی مدل های رگرسیون غیر خطی تبدیل متغیرها

    مدل های اقتصادی غیرخطی

    تبدیل متغیرها

    ضریب الاستیسیته.

    اگر روابط غیر خطی بین پدیده های اقتصادی وجود داشته باشد، آنها با استفاده از توابع غیر خطی مربوطه بیان می شوند: به عنوان مثال، هذلولی متساوی الاضلاع , سهمی های درجه دوم و غیره.

    دو دسته رگرسیون غیرخطی وجود دارد:

    1. رگرسیون هایی که با توجه به متغیرهای توضیحی موجود در تحلیل غیرخطی هستند، اما با توجه به پارامترهای برآورد شده خطی هستند، به عنوان مثال:

    چند جمله ای درجات مختلف - , ;

    هذلولی متساوی الاضلاع -;

    تابع نیمه لگاریتمی -.

    2. رگرسیون هایی که در پارامترهای تخمین زده شده غیرخطی هستند، به عنوان مثال:

    قدرت -؛

    نشان دهنده -؛

    نمایی -.

    مجموع مجذورات انحرافات مقادیر فردی صفت مؤثر دراز میانگین به دلیل تأثیر دلایل زیادی است. بیایید به طور مشروط کل مجموعه دلایل را به دو گروه تقسیم کنیم: فاکتور x را مطالعه کردو عوامل دیگر

    اگر فاکتور بر نتیجه تأثیری نداشته باشد، خط رگرسیون در نمودار موازی با محور است. اوهو

    سپس کل واریانس صفت مؤثر به دلیل تأثیر عوامل دیگر است و مجموع مجذورات انحرافات با باقیمانده منطبق خواهد شد. اگر عوامل دیگر بر نتیجه تأثیر نمی گذارند، پس گره خوردیبا ایکساز نظر عملکردی و مجموع مربعات باقیمانده صفر است. در این حالت مجموع مجذورات انحرافات توضیح داده شده توسط رگرسیون با مجموع مجموع مجذورات یکسان است.

    از آنجایی که همه نقاط میدان همبستگی روی خط رگرسیون قرار ندارند، بنابراین پراکندگی آنها همیشه به دلیل تأثیر عامل رخ می دهد. ایکس، یعنی رگرسیون دربر ایکس،و علل دیگر (تغییر غیر قابل توضیح). مناسب بودن خط رگرسیون برای پیش بینی بستگی به مقدار کل تغییرات مشخصه دارد دربر روی تغییرات توضیح داده شده قرار می گیرد

    بدیهی است که اگر مجموع مجذور انحرافات ناشی از رگرسیون بیشتر از مجموع مربعات باقیمانده باشد، معادله رگرسیون از نظر آماری معنادار است و عامل ایکستاثیر بسزایی در نتیجه دارد در

    , یعنی با تعداد آزادی تغییرات مستقل ویژگی. تعداد درجات آزادی با تعداد واحدهای جمعیت n و با تعداد ثابت های تعیین شده از آن مرتبط است. در رابطه با مسئله مورد مطالعه، تعداد درجات آزادی باید نشان دهد که چه تعداد انحراف مستقل از آن وجود دارد پ

    برآورد اهمیت معادله رگرسیون به عنوان یک کل با کمک از داده شده است اف-معیار فیشر. در همان زمان، یک فرضیه صفر مطرح می شود که ضریب رگرسیون صفر است، یعنی. b = 0، و از این رو عامل ایکسبر نتیجه تأثیر نمی گذارد در

    محاسبه مستقیم معیار F با تجزیه و تحلیل واریانس انجام می شود. مکان مرکزی در آن با تجزیه مجموع مجموع مربعات انحرافات متغیر اشغال شده است. دراز میانگین دربه دو بخش - "توضیح" و "غیر قابل توضیح":

    - مجموع مجذورات انحرافات؛

    - مجموع مربعات انحراف توضیح داده شده توسط رگرسیون؛

    - مجموع مربعات انحراف باقیمانده.

    هر مجموع مجذور انحرافات مربوط به تعداد درجات آزادی است , یعنی با تعداد آزادی تغییرات مستقل ویژگی. تعداد درجات آزادی با تعداد واحدهای جمعیت مرتبط است nو با تعداد ثابت های تعیین شده از آن. در رابطه با مسئله مورد مطالعه، تعداد درجات آزادی باید نشان دهد که چه تعداد انحراف مستقل از آن وجود دارد پممکن است برای تشکیل مجموع مربعات معینی مورد نیاز است.

    پراکندگی به ازای درجه آزادیدی.

    نسبت های F (معیار F):

    اگر فرضیه صفر درست باشد، سپس واریانس فاکتوریل و باقیمانده با یکدیگر تفاوتی ندارند. برای Н 0، یک ابطال ضروری است به طوری که واریانس فاکتوریل چندین برابر از باقیمانده بیشتر شود. Snedecor آماردان بریتانیایی جداول مقادیر بحرانی را تهیه کرد اف-روابط در سطوح مختلف اهمیت فرضیه صفر و درجات مختلف آزادی. مقدار جدول اف- معیار حداکثر مقدار نسبت واریانس است که می تواند در صورت عدم تطابق تصادفی آنها برای سطح معینی از احتمال وجود یک فرضیه صفر رخ دهد. مقدار محاسبه شده اف-رابطه در صورتی قابل اعتماد شناخته می شود که بیش از جدولی باشد.

    در این صورت، فرضیه صفر مبنی بر عدم وجود ارتباط بین نشانه ها رد می شود و در مورد اهمیت این ارتباط نتیجه گیری می شود: F fact> تب F H 0 رد می شود.

    اگر مقدار کمتر از جدول باشد F fact ‹، برگه F، پس احتمال فرضیه صفر بالاتر از سطح معین است و نمی توان آن را بدون خطر جدی نتیجه گیری نادرست در مورد وجود اتصال رد کرد. در این حالت معادله رگرسیون از نظر آماری ناچیز در نظر گرفته می شود. اما منحرف نمی شود.

    خطای استاندارد ضریب رگرسیون

    برای ارزیابی اهمیت ضریب رگرسیون، مقدار آن با خطای استاندارد آن مقایسه می شود، یعنی مقدار واقعی تعیین می شود. تی-معیار دانش آموزی: که سپس با مقدار جدول در سطح معینی از اهمیت و تعداد درجات آزادی مقایسه می شود ( n- 2).

    خطای استاندارد پارامتر آ:

    اهمیت ضریب همبستگی خطی بر اساس بزرگی خطا بررسی می شود. ضریب همبستگی t r:

    واریانس کل یک صفت ایکس:

    رگرسیون خطی چندگانه

    ساخت مدل

    رگرسیون چندگانهرگرسیون یک صفت مؤثر با دو یا چند عامل، یعنی مدلی از فرم است

    در صورتی که بتوان از تأثیر سایر عوامل مؤثر بر موضوع تحقیق چشم پوشی کرد، رگرسیون می تواند نتیجه خوبی در مدل سازی به همراه داشته باشد. رفتار متغیرهای اقتصادی منفرد قابل کنترل نیست، یعنی نمی توان از برابری سایر شرایط برای ارزیابی تأثیر یک عامل مورد بررسی اطمینان حاصل کرد. در این مورد، باید سعی کرد با وارد کردن عوامل دیگر به مدل، یعنی ساخت یک معادله رگرسیون چندگانه، تأثیر عوامل دیگر را شناسایی کرد: y = a + b 1 x 1 + b 2 +… + b p x p + .

    هدف اصلی رگرسیون چندگانه ساخت مدلی با تعداد زیادی فاکتور است و در عین حال تأثیر هر یک از آنها به طور جداگانه و همچنین تأثیر تجمعی آنها بر شاخص مدل شده را تعیین می کند. مشخصات مدل شامل دو حوزه است: انتخاب عوامل و انتخاب نوع معادله رگرسیون

    © 2021. hometi.ru... ما خانه خود را می سازیم و بازسازی می کنیم.