داشتن شهود در مورد نحوه عملکرد الگوریتمهای یادگیری ماشین – حتی در کلیترین مفهوم – به یک مهارت تجاری مهم تبدیل شده است. همانطور که Andrew Ng نوشته است: ” تقریباً تمام پیشرفتهای اخیر اتفاق افتاده در هوش مصنوعی (AI) از الگویی پیروی میکند، که در آن از برخی دادههای ورودی (A) برای ایجاد پاسخ سریع و ساده (B) استفاده میشود.”
اما این کار چگونه انجام میشود؟
همانطور که میتوانید تصور کنید، بسیاری از مشکلات یادگیری ماشین هیجانانگیز را نمیتوان به یک معادله ساده مانند y = mx + b کاهش داد. اما در اصل، الگوریتمٰهای یادگیری ماشین نظارت شده (supervised machine learning algorithms) برای نسخههای پیچیده m، براساس مقادیر برچسبگذاری شده با x و y حل میشوند؛ به طوری که میتوانند yهای آینده را از روی xهای آینده پیشبینی کنند.
اگر تا به حال یک دوره آمار گذرانده باشید یا با تجزیه و تحلیل پیشبینی کار کرده باشید، همه اینها باید آشنا به نظر برسند: ایده پشت رگرسیون خطی، یکی از اشکال سادهتر یادگیری نظارت شده است.
هوش مصنوعی دیگر تنها یک حوزه فرعی از علوم کامپیوتر نیست. غولهای فنآوری سالهاست که از AI استفاده میکنند؛ الگوریتمهای یادگیری ماشینی قدرتمندی مثل توصیههای محصول آمازون، نقشههای گوگل، و محتوایی که فیسبوک، اینستاگرام، و توییتر در فیدهای رسانههای اجتماعی نمایش میدهند مثالهایی از این موضوع هستند.
ضربالمثل ویلیام گیبسون در مورد پذیرش هوش مصنوعی به خوبی صدق میکند: آینده همین جاست؛ ، فقط به طور مساوی توزیع نشده است.
یک شرکت متوسط در شروع یادگیری ماشینی با چالشهای زیادی از جمله کمبود دانشمندان داده مواجه است. اما کمبود مدیران اجرایی و کارمندان غیر فنی که قادر به شناسایی فرصتها در حوزه AI باشند نیز به همان اندازه مهم است. شناسایی این فرصت ها نیازی به مدرک دکترای آمار یا حتی توانایی نوشتن کد ندارد. (فقط لازم است سفر کوتاهی به درس جبر در دبیرستان داشته باشیم.)
دانشمندان یادگیری ماشینی نمیتوانند در خلاء کار کنند. افراد ذینفع کسبوکار باید در شناسایی مشکلاتی که ارزش حل کردن دارند و تخصیص متخصصان موضوعی به آنها کمک کنند تا از دانش خود برای برچسبگذاری روی مجموعه دادهها، ارائه بازخورد روی خروجی و تنظیم اهداف برای موفقیت الگوریتمی کمک بگیرند.
همانطور که اندرو نگ نوشته است: ” تقریباً تمام پیشرفتهای اخیر اتفاق افتاده در هوش مصنوعی (AI) از الگویی پیروی میکند، که در آن از برخی دادههای ورودی (A) برای ایجاد پاسخ سریع و ساده (B) استفاده میشود.”
اما این موضوع چگونه کار میکند؟ به ریاضیات دبیرستان فکر کنید. زمانی که برای اولین بار معادله را یک خط مستقیم یاد گرفتید: y = mx + b.
معادلات جبری مانند این نشاندهنده رابطه بین دو متغیر x و y است. در دبیرستان، به شما می گویند m و b چیست، یک مقدار ورودی برای x به شما داده میشود و سپس از شما میخواهند که آنها را به معادله متصل کنید تا مقدار y را پیدا کنید.
یادگیری تحت نظارت، این فرآیند را معکوس میکند و m و b را با مجموعهای از x و y حل میکند. در یادگیری نظارت شده، شما با بسیاری از جزئیات (یا هماندادهها) شروع میکنید و معادله کلی را استنباط میکنید؛ بخش یادگیری به این معنی است که میتوانید با مشاهده x و y بیشتر، معادله را بروزرسانی کنید و شیب خط را برای تطبیق بهتر دادهها تغییر دهید.
این معادله هرگز رابطه بین x و y را با دقت ۱۰۰ % مشخص نمیکند، اما تعمیم آن قدرتمند است. زیرا بعدا میتوانید از آن برای انجام عملیات ریاضی روی دادههای جدید استفاده کنید. هنگامی که یک شیب پیدا کردید که رابطه بین x و y را به طور قابل اطمینانی ثبت کند، اگر یک مقدار x جدید به شما داده شود، میتوانید یک حدس آگاهانه در مورد مقدار متناظر y بزنید.
همانطور که ممکن است تصور کنید، بسیاری از مشکلات یادگیری ماشین هیجانانگیز را نمیتوان به یک معادله ساده مانند y = mx + b کاهش داد. اما الگوریتمهای یادگیری ماشین نظارت شده برای نسخههای پیچیده m براساس مقادیر برچسبگذاری شده برای x و y حل میشوند تا بتوانند yهای آینده را از xهای آینده پیشبینی کنند.
برای بازگشت به فرمولاسیون Ng، یادگیری نظارت شده مستلزم آن است که شما مثالهایی از دادههای ورودی و پاسخ، هم برای x و هم y، داشته باشید. اگر هر دوی اینها را دارید، یادگیری تحت نظارت به شما امکان میدهد به معادلهای دست پیدا کنید که با رابطه را تقریب میزند؛ بنابراین در آینده میتوانید مقادیر y را برای هر مقدار جدید x حدس بزنید.
بنابراین سوال در مورد چگونگی شناسایی فرصتهای AI با این پرسش شروع میشود: برخی از نتایجی که ارزش حدس زدن دارند چه هستند؟ و آیا ما دادههای لازم برای انجام یادگیری تحت نظارت را داریم؟
به عنوان مثال، فرض کنید یک دانشمند داده وظیفه دارد قیمت املاک و مستغلات را برای یک محله پیشبینی کند. پس از تجزیه و تحلیل دادهها، او متوجه میشود که قیمت مسکن (y) به شدت با اندازه خانه (x) همبستگی دارد. بنابراین، او از نقاط داده بسیاری که شامل اندازه و قیمت خانه میشود استفاده و از آمار برای تخمین شیب (m) استفاده میکند. پس از آن از معادله y = mx + b برای پیشبینی قیمت یک خانه معین بر اساس اندازه آن استفاده میکند. این یک نمونه از رگرسیون خطی است و فوقالعاده قدرتمند باقی میماند.
سازمانها از تکنیکهای مشابهی برای پیشبینی فروش محصولات آتی، ریسک سبد سرمایهگذاری یا ریزش مشتری استفاده میکنند. باز هم، آمار پشت الگوریتمهای مختلف از نظر پیچیدگی متفاوت است. برخی از آنها تکنیکهای پیشبینیهای نقطهای ساده (ما فکر میکنیم y اتفاق میافتد!) و برخی دیگر طیفی از پیشبینیهای ممکن را، با نرخهای اطمینان وابسته ارائه میدهند (۷۰٪ احتمال y وجود دارد، اما اگر یک فرض را تغییر دهیم، اطمینان ما به ۶۰٪ کاهش مییابد.)
اینها همه مثالهایی از مشکلات پیشبینی هستند، ولی یادگیری نظارت شده برای دستهبندی هم استفاده میشود.
تسکهای مرتبط با دستهبندی، دادهها را در دستههای مختلف جمع میکنند. در اینجا یک دانشمند داده به دنبال ویژگیهایی در دادهها میگردد که نمایندههای قابل اعتمادی برای دستههایی هستند که او میخواهد آنها را جدا کند: اگر دادهها دارای ویژگی x باشند، به سطل یک میروند. اگر نه، به سطل دو می رود. شما هنوز هم میتوانید این را به عنوان استفاده از x برای پیشبینی y در نظر بگیرید، اما در این مورد y یک عدد نیست بلکه یک نوع است.
سازمانها برای فیلتر کردن اسپم، تشخیص ناهنجاریهای اشعه ایکس، شناسایی اسناد مربوط به یک پرونده حقوقی، دستهبندی رزومهها برای یک شغل یا بخشبندی مشتریان از الگوریتم های دستهبندی استفاده میکنند.
دستهبندی را میتوان فراتر از انتخابهای دوگزینهای مانند ” آیا اسپم است یا نه؟” گسترش داد که شامل تعداد زیادی دسته میشوند.
تسکهای ادراکی مانند آموزش یک کامپیوتر برای تشخیص اشیا در تصاویر نیز جزو وظایف طبقهبندی هستند. آنها فقط به جای باکت ۱ و باکت ۲، کلاسهای خروجی زیادی دارند (برای مثال، نامهای گونههای مختلف حیوانات). این موضوع، باعث میشود سیستمهای یادگیری نظارت شده، هوشمندتر به نظر برسند. چرا که ما فرض میکنیم توانایی آنها در یادگیری مفاهیم، بازتابی از توانایی خود ماست. در واقع، آنها فقط دادهها را در باکت های ۱، ۲، ۳ … n با توجه به “m” یاد گرفته شده برای تابع قرار میدهند.
تا کنون، همه موارد گفته شده، به نسبت انتزاعی به نظر میرسند. چگونه میتوانید AI را از حالت انتزاعی خارج کنید و یاد بگیرید چگونه این ساختارهای ریاضی را در کارهای روزمره خود شناسایی کنید؟
چند راه وجود دارد که میتوانید تعیین کنید آیا یک کار فرصت یادگیری تحت نظارت خوبی را ارائه میدهد یا خیر.
اول از همه، بنویسید که در شغلتان چه کاری میکنید؟ فعالیتهای خود را به بخشهای مختلف تقسیم کنید: کارهایی که به صورت روزانه و یا منظم انجام میدهید در مقابل کارهایی که به صورت پراکنده انجام میدهید؛ چیزهایی که به ماهیت دوم تبدیل شدهاند، در مقابل چیزهایی که نیاز به مشورت صبورانه یا تفکر زیاد دارند.
برای آن دسته از وظایفی که به طور منظم و به تنهایی انجام میدهید و به نظر خودکار میآیند، مشخص کنید که چند نفر دیگر در سازمان شما تسکهای مشابهی را انجام میدهند و چند نفر در طول تاریخ این کار را انجام دادهاند. آیا شامل پیشبینی چیزی یا دستهبندی آنها به باکتها میشود؟
از خود بپرسید: اگر ۱۰ همکار در سازمان شما این تسک را انجام دهند، آیا همه آنها در مورد پاسخ موافق هستند؟ اگر انسانها نتوانند در درست یا نادرست بودن چیزی به توافق برسند، کامپیوترها هم نمیتوانند به صورت قابل اعتمادی، قضاوت را به الگوهای آماری تبدیل کنند.
چه مدت است که افراد در سازمان کاری مشابه این تسک را انجام میدهند؟ اگر مدت زیادی از آن گذشته باشد، آیا سازمان سابقهای از انجام موفق این تسکها را حفظ کرده است؟ اگر پاسخ بله است، این اطلاعات میتواند به عنوان یک مجموعه داده آموزشی برای الگوریتم یادگیری نظارت شده شما استفاده شود.
اگر نه، ممکن است لازم باشد که امروز شروع به جمعآوری این دادهها کنید و بعد از آن میتوانید یک انسان را برای آموزش الگوریتم در طی زمان، در چرخه نگه دارید.
بعد، با یک تیم علم داده بنشینید و درباره تسکها به آنها توضیح دهید. آنها را درباره فرآیند فکری خود راهنمایی کنید و به آنها بگویید هنگام تکمیل کار خود روی چه جنبههایی از اطلاعات تمرکز میکنید. این کار به آنها کمک خواهد کرد تا تعیین کنند که آیا اتوماسیون امکانپذیر است یا نه و جنبههای مختلف دادههایی که بیشترین پیشبینی را از خروجی مطلوب خواهند داشت بررسی کنند.
از خود بپرسید، اگر این کار، خودکار باشد، چگونه ممکن است محصولاتی که به مشتریان خود ارائه میدهیم را تغییر دهد؟ بپرسید بدترین چیزی که ممکن است برای کسب و کار اتفاق بیفتد، در صورت خودکار شدن چیست؟ و در نهایت بپرسید بدترین چیزی که میتواند برای کسبوکار اتفاق بیفتد، اگر الگوریتم جواب اشتباه یا جوابی با نرخ دقت ۶۵ % یا ۷۰ % بدهد چیست؟ آستانه دقت و صحتی که کسبوکار برای پیشبرد و خودکار کردن فرایند نیاز دارد، چقدر است؟
موفقیت در یادگیری تحت نظارت، مستلزم تغییر دیدگاه در مورد چگونگی انجام کار است. این امر مستلزم استفاده از تجارب گذشته شامل همه آن قضاوتهای انسانی و تخصصی در موضوع، برای ایجاد الگوریتمی است که آن تخصص را برای کارها در آینده اعمال کند. هنگامی که به خوبی از آن استفاده شود، کارمندان بازده بیشتری خواهند داشت و ارزش جدیدی ایجاد میکند. اما این کار با شناسایی مشکلاتی شروع میشود که ارزش حل کردن دارند و در مورد آنها به عنوان ورودیها و خروجیها، مانند x و y فکر میکنند.
How to Spot a Machine Learning Opportunity, Even If You Aren’t a Data Scientist منتشر شده در وبسایت HBR.
دیدگاهتان را بنویسید