رگرسیون چند جمله ای یا Polynomial Regression یکی از الگوریتمهای یادگیری ماشین است که برای پیشبینی استفاده میشود. به طور مثال از این رگرسیون به شکلی گسترده برای پیشبینی بیماری کووید ۱۹یا دیگر بیماریهای واگیردار استفاده میشود. این مفهوم از مفاهیمی است که درک آن در حرفههایی مثل هوش تجاری که با علم داده سر و کار دارند، بسیار کارآمد است. اگر میخواهید با این موضوع بیشتر آشنا شوید با ما همراه باشید.
تجزیه و تحلیل رگرسیون یا Regression Analysis چیست؟
تجزیه و تحلیل رگرسیون، یک ابزار آماری برای مطالعه همبستگی بین دو مجموعه رویداد یا بررسی آماری بین متغیر وابسته (Dependent Variable) و یک یا چند متغیر مستقل (Independent Variables) است. به طور مثال کاهش وزن شما (متغیر وابسته) به این بستگی دارد که چند ساعت در باشگاه ورزش کرده باشید (متغیر مستقل). انواع مختلفی از مدلهای رگرسیون آماری وجود دارد.
رگرسیون خطی ساده (Simple Linear Regression)
این مدل از رگرسیون مشابه مثال بالا، به شما امکان تخمین همبستگی خطی بین دو متغیر را میدهد. معمولا وقتی شما زمان بیشتری را برای فعالیتهای فیزیکی میگذارید، به مراتب وزن بیشتری از دست میدهید؛ با توجه به موارد گفته شده در اینجا همبستگی خطی وجود دارد.
رگرسیون خطی چندگانه (Multiple Linear Regression)
رگرسیون خطی چندگانه به رگرسیون خطی ساده مربوط میشود؛ اما به جای نشان دادن همبستگی بین یک متغیر مستقل و یک متغیر وابسته، شما میتوانید چندین متغیر مستقل را در نظر بگیرید. به طور مثال برای کاهش وزن، علاوه بر ساعتهایی که در باشگاه ورزش میکنید، میتوانید میزان مصرف روزانه شکر و میزان کالری دریافتی را هم در نظر بگیرید.
رگرسیون چند جملهای (Polynomial Regression)
از رگرسیون چند جملهای زمانی استفاده میشود که هیچ همبستگیای میان متغیرها وجود نداشته باشد؛ بنابراین به جای اینکه شبیه یک خط باشد، مانند یک تابع غیر خطی به نظر میرسد. در ادامه عمیقتر به این نوع رگرسیون میپردازیم.
رگرسیون چند جملهای در یادگیری ماشین به چه معنی است؟
مانند بسیاری از موارد دیگر در یادگیری ماشین، مفهوم رگرسیون چند جملهای از علم آمار سرچشمه میگیرد. متخصصهای علم آمار زمانی از رگرسیون چند جملهای برای تجزیه و تحلیل استفاده میکنند که رابطه غیر خطی بین متغیر x و میانگین شرطی متناظر برای میانگین y وجود نداشته باشد.
تصور کنید میخواهید پیشبینی کنید که پست جدید شما در رسانههای اجتماعی در هر شبکه به خصوص، چه تعداد لایک پس از انتشار دریافت میکند. در این مورد هیچ همبستگی خطی (Linear Correlation) بین تعداد لایکها و زمانی که از انتشار پست گذشته وجود ندارد. پست شما ممکن است در ۲۴ ساعت اول لایکهای زیادی دریافت کند، اما به تدریج از تعداد لایکها کم شود.
ریاضیات پشت رگرسیون چند جملهای
در اینجا معادله کلی رگرسیون چند جملهای را مشاهده میکنید:
y=b0+b1x1+b2x12+b2x13+…bnx1n
در این معادله y متغیر وابسته، x متغیر مستقل و b0-bn پارامترهایی هستند که شما میتوانید بهینه کنید.
از آنجایی که رگرسیون در پارامترها به صورت خطی است، میتوانید نمودار منحنی را با استفاده از همان روشی که برای رگرسیون خطی استفاده کردید با داده های خود مطابقت دهید. در حقیقت به عنوان یک متخصص تیز بین در زمینه ریاضی و آمار احتمالا متوجه شدهاید که این فقط یک مورد به خصوص از رگرسیون خطی چندگانه multiple linear regression است. دوباره به مثال کاهش وزن اشاره میکنیم.
در این مورد از رگرسیون خطی چندگانه، شما علاقه مند هستید که بدانید چگونه چندین متغیر مختلف بر کاهش وزن تاثیر می گذارند؛ مثلاساعت های سپری شده در باشگاه، مقدار شکر مصرف شده در روز و مواردی از این دست. اما در مدل رگرسیون چند جمله ای، شما میخواهید بدانید چگونه چندین قدرت مختلف یک متغیر تاثیر گذار خواهد بود (x,x2,x3 که x مقدار مقدار شکر مصرف شده در طول روز است). حتی اگر منحنی در حالت دوم خم شود، مشکل برآورد آماری در هر دو مورد یکسان است.
چرا در یادگیری ماشین به رگرسیون چند جمله ای نیاز داریم؟
رگرسیون چند جمله ای در بسیاری از موارد مفید است. از آنجا که رابطه بین متغیر های وابسته و مستقل نیازی به خطی بودن ندارد، شما آزادی بیشتری برای انتخاب مجموعه داده و موقعیت هایی که میتوانید با آنها کار کنید، دارید؛ بنابراین زمانی که رگرسیون خطی ساده مناسب داده های شما نباشد، این روش میتواند مورد استفاده قرار گیرد.
مزایای رگرسیون چند جمله ای
در ادامه مزایای رگرسیون چند جمله ای برای مدل بعدی شما در یادگیری ماشین آورده شده است.
- شما میتوانید روابط غیر خطی بین متغیرها را مدل کنید.
- توابع زیادی برای فیلتر کردن داده شما وجود دارد.
- برای اهداف اکتشافی بسیار مناسب است؛ بنابراین میتوانید وجود انحنا و مقدار خمیدگی منحنی را تست کنید.
در مجموع ابزار قابل انعطافی است که میتواند برای مقادیر مختلفی از داده ها مناسب باشد.
معایب رگرسیون چند جمله ای
مانند رگرسیون خطی، رگرسیون چند جمله ای ابزار جهانی و جامعی نیست. از معایب آن میتوان به موارد زیر اشاره کرد:
- حتی یک نقطه پرت یا داده outlier میتواند نتیجه را به به طور جدی خراب کند.
- مدل های PR آماده تناسب بیش از حد هستند. اگر از پارامترها کافی استفاده کنید میتوانید هر چیزی را در آن fit کنید.
- با توجه به موارد گذشته، مدل های PR ممکن است در خارج از دیتا استفاده و بهره وری خوبی نداشته باشند.
رگرسیون چند جمله ای در کدام بخش یادگیری ماشین استفاده میشود؟
در ادامه چند مثال کاربردی از اینکه Polynomial Regression در کدام حوزه ها مورد استفاده قرار گرفته است میپردازیم.
پیش بینی میزان مرگ و میر
وقتی حادثه هایی مانند: بیماری اپیدمیک، آتشسوزی یا سونامی اتفاق میافتد، برآورد میزان زخمی ها و تعداد فوتی ها برای تیم های مدیریت بحران بسیار مهم و حیاتی است؛ زیرا مدیریت کردن در این شرایط کاری حساس، مهم و حیاتی است. کاهش عواقب این اتفاق ها ممکن است روزها و ماه ها طول بکشد. بنابراین تیم ها باید آمادگی کامل داشته باشند.
مطالعه بیشتر: بازار کار دیتا ماینینگ Data Mining در ایران
رگرسیون چند جمله ای به ما امکان ساخت مدل های انعطافپذیر یادگیری ماشین را میدهد. این مدل ها با استفاده از آنالیز فاکتور های مختلف، قابلیت تجزیه و تحلیل و ارائه گزارش از میزان مرگ و میر را را میدهد. به طور مثال، در بیماری همه گیری کرونا عوامل میتواند این باشد که آیا سابقه بیماری پیش زمینه ای داشته اید یا خیر؟ هر چند وقت یکبار در معرض گروهی از افراد قرار میگیرید؟ آیا به تجهیزات پزشکی دسترسی دارید یا خیر؟
پیشبینی نرخ رشد بافت
پیشبینی نرخ رشد بافت در موارد مختلفی استفاده میشود. رگرسیون چند جمله ای اغلب برای نظارت بر بیماران انکولوژی و تشخیص گسترش تومورهای آنها استفاده میشود. این نوع از رگرسیون به توسعه و ساختن مدلی که بتواند ویژگی غیر خطی را در نظر بگیرد کمک میکند.
همچنین پیشبینی نرخ رشد بافت برای تشخیص و نظارت رشد آنتوژنیک نیز استفاده میشود. به بیان دیگر، به پزشکان این امکان را میدهد که رشد ارگان ها را در رحم از مراحل اولیه بررسی کنند.
نرمافزار تنظیم سرعت
امروزه بسیاری از نرمافزار های تنظیم سرعت با استفاده از یادگیری ماشین و با هدف بهبود رفتار مردم و جلوگیری از رفتار های نادرست در رانندگی طراحی شده است. مدل های پیش بینی با کمک رگرسیون چند جمله ای به شما امکان جستجو برای رفتار های رانندگی را میدهند؛ به علاوه لزوم رعایت قوانین و اعلان آن حتی قبل از سبقت گرفتن از سرعت مجاز را ممکن میسازد.
تفاوت رگرسیون و همبستگی
همبستگی و رگرسیون دو روش آماری هستند که برای تحلیل رابطه بین دو متغیر مورد استفاده قرار می گیرند. تفاوت اصلی بین همبستگی و رگرسیون این است که از همبستگی برای نشان دادن رابطه خطی بین دو متغیر استفاده می شود، در حالی که رگرسیون رابطه را در قالب یک معادله بیان می کند.
همبستگی یک آماره یا نقطه داده واحد است که قدرت رابطه خطی بین دو متغیر را اندازه میگیرد، در حالی که از رگرسیون عمدتاً برای ساخت مدلها/معادلات برای پیشبینی پاسخ کلیدی (از مجموعهای از متغیرهای پیشبینیکننده (X)) استفاده میشود. علاوه بر این، رگرسیون مشخص میکند که چگونه یک متغیر باعث تغییر متغیر دیگر میشود. از طرفی همبستگی علیت را نشان نمی دهد، در حالی که از رگرسیون میتوان برای استنتاج علیت استفاده کرد.
از آنجایی که این مقاله در رابطه با رگرسیون است، در ادامه انواع مختلف رگرسیون را بررسی میکنیم و از همبستگی میگذریم.
انواع رگرسیون
انواع مختلفی از تحلیل رگرسیون در یادگیری ماشین و علم داده استفاده میشود:
- از جمله رگرسیون خطی (linear regression)
- رگرسیون لجستیک (logistic regression)
- رگرسیون ریج (ridge regression)، رگرسیون لاسو (lasso regression)
- رگرسیون چند جملهای (polynomial regression)
- رگرسیون خطی بیزی (Bayesian linear regression)
- رگرسیون خطی ساده (simple linear regression)
- رگرسیون خطی چندگانه (multiple linear regression)
در میان این همه انواع رگرسیون، بسته به تعداد عوامل موجود، نوع مورد نظر برای استفاده انتخاب میشود. این عوامل شامل نوع متغیر هدف، شکل خط رگرسیون و تعداد متغیرهای مستقل است. در این مقاله از وبلاگ آسا، قصد داریم در مورد رگرسیونهای خطی ساده، خطی چندگانه و چند جملهای صحبت کنیم.
تحلیل رگرسیون چند متغیره
رگرسیون چند متغیره (Multivariate regression) تکنیکی است که برای اندازهگیری میزان ارتباط چند متغیر مستقل (پیشبینیکنندهها) و چند متغیر وابسته (خروجیها) استفاده میشود.
این نوع رگرسیون از رگرسیون خطی بسط داده شده است که رابطه بین یک متغیر مستقل و یک متغیر وابسته را مدل میکند.
مراحل انجام تحلیل رگرسیون چند متغیره شامل تعیین مدل، تخمین پارامترها، آزمایش مفروضات مدل و تفسیر نتایج است. مدل با تعریف متغیرهای پیش بینی کننده و متغیرهای نتیجه و همچنین هرگونه تعامل بین آنها مشخص میشود. پارامترها هم با استفاده از روشهای آماری مانند برآورد حداکثر درستنمایی یا برآورد حداقل مربعها برآورد میشوند. نکته قابل توجه این است که مفروضات مدل باید برای اطمینان از معتبر بودن آنها قبل از تفسیر نتایج آزمایش شوند. پس از تکمیل این مراحل، میتوانیم نتایج را بر حسب اینکه چگونه هر متغیر پیشبینیکننده بر هر متغیر نتیجه تأثیر میگذارد، تفسیر کنیم.
جمعبندی
رگرسیون چند جمله ای ابزاری ساده و قدرتمندی برای پیش بینی و تحلیل است که به شما امکان در نظر گرفتن روابط غیر خطی بین متغیرها و رسیدن به نتیجه مطلوب را میدهد. این نوع رگرسیون میتواند به شما در پیشبینی میزان شیوع بیماری، محاسبه غرامت یا پیادهسازی یک نرمافزار مقررات پیشگیرانه برای حفظ ایمنی جاده کمک کند.
دیدگاهتان را بنویسید