چطور فرصت‌های یادگیری ماشین را پیدا کنید؛ حتی وقتی که دانشمند داده نیستید.

داشتن شهود در مورد نحوه عملکرد الگوریتم‌های یادگیری ماشین – حتی در کلی‌ترین مفهوم – به یک مهارت تجاری مهم تبدیل شده است. همانطور که Andrew Ng نوشته است: ” تقریباً تمام پیشرفت‌های اخیر اتفاق افتاده در هوش مصنوعی (AI) از الگویی پیروی می‌کند، که در آن از برخی داده‌های ورودی (A) برای ایجاد پاسخ سریع و ساده (B) استفاده می‌شود.”

اما این کار چگونه انجام می‌شود؟

همان‌طور که می‌توانید تصور کنید، بسیاری از مشکلات یادگیری ماشین هیجان‌انگیز را نمی‌توان به یک معادله ساده مانند y = mx + b کاهش داد. اما در اصل، الگوریتمٰ‌های یادگیری ماشین نظارت شده (supervised machine learning algorithms) برای نسخه‌های پیچیده m، براساس مقادیر برچسب‌گذاری شده با x و y حل می‌شوند؛ به طوری که می‌توانند yهای آینده را از روی xهای آینده پیش‌بینی کنند.

اگر تا به حال یک دوره آمار گذرانده باشید یا با تجزیه و تحلیل پیش‌بینی کار کرده باشید، همه این‌ها باید آشنا به نظر برسند: ایده پشت رگرسیون خطی، یکی از اشکال ساده‌تر یادگیری نظارت شده است.

هوش مصنوعی دیگر تنها یک حوزه فرعی از علوم کامپیوتر نیست. غول‌های فن‌آوری سال‌هاست که از AI استفاده می‌کنند؛ الگوریتم‌های یادگیری ماشینی قدرتمندی مثل توصیه‌های محصول آمازون، نقشه‌های گوگل، و محتوایی که فیس‌بوک، اینستاگرام، و توییتر در فیدهای رسانه‌های اجتماعی نمایش می‌دهند مثال‌هایی از این موضوع هستند.

ضرب‌المثل ویلیام گیبسون در مورد پذیرش هوش مصنوعی به خوبی صدق می‌کند: آینده همین جاست؛ ، فقط به طور مساوی توزیع نشده است.

یک شرکت متوسط در شروع یادگیری ماشینی با چالش‌های زیادی از جمله کمبود دانشمندان داده مواجه است. اما کمبود مدیران اجرایی و کارمندان غیر فنی که قادر به شناسایی فرصت‌ها در حوزه AI باشند نیز به همان اندازه مهم است. شناسایی این فرصت ها نیازی به مدرک دکترای آمار یا حتی توانایی نوشتن کد ندارد. (فقط لازم است سفر کوتاهی به درس جبر در دبیرستان داشته باشیم.)

دانشمندان یادگیری ماشینی نمی‌توانند در خلاء کار کنند. افراد ذی‌نفع کسب‌وکار باید در شناسایی مشکلاتی که ارزش حل کردن دارند و تخصیص متخصصان موضوعی به آن‌ها کمک کنند تا از دانش خود برای برچسب‌گذاری روی مجموعه داده‌ها، ارائه بازخورد روی خروجی و تنظیم اهداف برای موفقیت الگوریتمی کمک بگیرند.

همانطور که اندرو نگ نوشته است: ” تقریباً تمام پیشرفت‌های اخیر اتفاق افتاده در هوش مصنوعی (AI) از الگویی پیروی می‌کند، که در آن از برخی داده‌های ورودی (A) برای ایجاد پاسخ سریع و ساده (B) استفاده می‌شود.”

اما این موضوع چگونه کار می‌کند؟ به ریاضیات دبیرستان فکر کنید. زمانی که برای اولین بار معادله را یک خط مستقیم یاد گرفتید: y = mx + b.

معادلات جبری مانند این نشان‌دهنده رابطه بین دو متغیر x و y است. در دبیرستان، به شما می گویند m و b چیست، یک مقدار ورودی برای x به شما داده می‌شود و سپس از شما می‌خواهند که آنها را به معادله متصل کنید تا مقدار y را پیدا کنید.

یادگیری تحت نظارت، این فرآیند را معکوس می‌کند و m و b را با مجموعه‌ای از x و y حل می‌کند. در یادگیری نظارت شده، شما با بسیاری از جزئیات (یا همانداده‌ها) شروع می‌کنید و معادله کلی را استنباط می‌کنید؛ بخش یادگیری به این معنی است که می‌توانید با مشاهده x و y بیشتر، معادله را بروزرسانی کنید و شیب خط را برای تطبیق بهتر داده‌ها تغییر دهید.

این معادله هرگز رابطه بین x و y را با دقت ۱۰۰ % مشخص نمی‌کند، اما تعمیم آن قدرتمند است. زیرا بعدا می‌توانید از آن برای انجام عملیات ریاضی روی داده‌های جدید استفاده کنید. هنگامی که یک شیب پیدا کردید که رابطه بین x و y را به طور قابل اطمینانی ثبت کند، اگر یک مقدار x جدید به شما داده شود، می‌توانید یک حدس آگاهانه در مورد مقدار متناظر y بزنید.

همانطور که ممکن است تصور کنید، بسیاری از مشکلات یادگیری ماشین هیجان‌انگیز را نمی‌توان به یک معادله ساده مانند y = mx + b کاهش داد. اما الگوریتم‌های یادگیری ماشین نظارت شده برای نسخه‌های پیچیده m براساس مقادیر برچسب‌گذاری شده برای x و y حل می‌شوند تا بتوانند yهای آینده را از xهای آینده پیش‌بینی کنند.

برای بازگشت به فرمولاسیون Ng، یادگیری نظارت شده مستلزم آن است که شما مثال‌هایی از داده‌های ورودی و پاسخ، هم برای x و هم y، داشته باشید. اگر هر دوی این‌ها را دارید، یادگیری تحت نظارت به شما امکان می‌دهد به معادله‌ای دست پیدا کنید که با رابطه را تقریب می‌‌زند؛ بنابراین در آینده می‌توانید مقادیر y را برای هر مقدار جدید x حدس بزنید.

بنابراین سوال در مورد چگونگی شناسایی فرصت‌های AI با این پرسش شروع می‌شود: برخی از نتایجی که ارزش حدس زدن دارند چه هستند؟ و آیا ما داده‌های لازم برای انجام یادگیری تحت نظارت را داریم؟

به عنوان مثال، فرض کنید یک دانشمند داده وظیفه دارد قیمت املاک و مستغلات را برای یک محله پیش‌بینی کند. پس از تجزیه و تحلیل داده‌ها، او متوجه می‌شود که قیمت مسکن (‏y) ‏به شدت با اندازه خانه (‏x)‏ همبستگی دارد. بنابراین، او از نقاط داده بسیاری که شامل اندازه و قیمت خانه می‌شود استفاده و از آمار برای تخمین شیب (m) استفاده می‌کند. پس از آن از معادله y = mx + b برای پیش‌بینی قیمت یک خانه معین بر اساس اندازه آن استفاده می‌کند. این یک نمونه از رگرسیون خطی است و فوق‌العاده قدرتمند باقی می‌ماند.

سازمان‌ها از تکنیک‌های مشابهی برای پیش‌بینی فروش محصولات آتی، ریسک سبد سرمایه‌گذاری یا ریزش مشتری استفاده می‌کنند. باز هم، آمار پشت الگوریتم‌های مختلف از نظر پیچیدگی متفاوت است. برخی از آن‌ها تکنیک‌های پیش‌بینی‌های نقطه‌ای ساده (ما فکر می‌کنیم y اتفاق می‌افتد!) و برخی دیگر طیفی از پیش‌بینی‌های ممکن را، با نرخ‌های اطمینان وابسته ارائه می‌دهند (۷۰٪ احتمال y وجود دارد، اما اگر یک فرض را تغییر دهیم، اطمینان ما به ۶۰٪ کاهش می‌یابد.)

اینها همه مثال‌هایی از مشکلات پیش‌بینی هستند، ولی یادگیری نظارت شده برای دسته‌بندی هم استفاده می‌شود.

تسک‌های مرتبط با دسته‌بندی، داده‌ها را در دسته‌های مختلف جمع می‌کنند. در اینجا یک دانشمند داده به دنبال ویژگی‌هایی در داده‌ها می‌گردد که نماینده‌های قابل اعتمادی برای دسته‌هایی هستند که او می‌خواهد آنها را جدا کند: اگر داده‌ها دارای ویژگی x باشند، به سطل یک می‌روند. اگر نه، به سطل دو می رود. شما هنوز هم می‌توانید این را به عنوان استفاده از x برای پیش‌بینی y در نظر بگیرید، اما در این مورد y یک عدد نیست بلکه یک نوع است.

سازمان‌ها برای فیلتر کردن اسپم، تشخیص ناهنجاری‌های اشعه ایکس، شناسایی اسناد مربوط به یک پرونده حقوقی، دسته‌بندی رزومه‌ها برای یک شغل یا بخش‌بندی مشتریان از الگوریتم‌ های دسته‌بندی استفاده می‌کنند.

دسته‌بندی را می‌توان فراتر از انتخاب‌های دوگزینه‌ای مانند ” آیا اسپم است یا نه؟” گسترش داد که شامل تعداد زیادی دسته می‌شوند.

تسک‌های ادراکی مانند آموزش یک کامپیوتر برای تشخیص اشیا در تصاویر نیز جزو وظایف طبقه‌بندی هستند. آن‌ها فقط به جای باکت ۱ و باکت ۲، کلاس‌های خروجی زیادی دارند (‏برای مثال، نام‌های گونه‌های مختلف حیوانات)‏. این موضوع، باعث می‌شود سیستم‌های یادگیری نظارت شده، هوشمندتر به نظر برسند. چرا که ما فرض می‌کنیم توانایی آن‌ها در یادگیری مفاهیم، بازتابی از توانایی خود ماست. در واقع، آن‌ها فقط داده‌ها را در باکت های ۱، ۲، ۳ … n با توجه به “m” یاد گرفته شده‌ برای تابع قرار می‌دهند.

تا کنون، همه موارد گفته شده، به نسبت انتزاعی به نظر می‌رسند. چگونه می‌توانید AI را از حالت انتزاعی خارج کنید و یاد بگیرید چگونه این ساختارهای ریاضی را در کارهای روزمره خود شناسایی کنید؟

چند راه وجود دارد که می‌توانید تعیین کنید آیا یک کار فرصت یادگیری تحت نظارت خوبی را ارائه می‌دهد یا خیر.

اول از همه، بنویسید که در شغلتان چه کاری می‌کنید؟ فعالیت‌های خود را به بخش‌های مختلف تقسیم کنید: کارهایی که به صورت روزانه و یا منظم انجام می‌دهید در مقابل کارهایی که به صورت پراکنده انجام می‌دهید؛ چیزهایی که به ماهیت دوم تبدیل شده‌اند، در مقابل چیزهایی که نیاز به مشورت صبورانه یا تفکر زیاد دارند.

برای آن دسته از وظایفی که به طور منظم و به تنهایی انجام می‌دهید و به نظر خودکار می‌آیند، مشخص کنید که چند نفر دیگر در سازمان شما تسک‌های مشابهی را انجام می‌دهند و چند نفر در طول تاریخ این کار را انجام داده‌اند. آیا شامل پیش‌بینی چیزی یا دسته‌بندی آن‌ها به باکت‌ها می‌شود؟

از خود بپرسید: اگر ۱۰ همکار در سازمان شما این تسک را انجام دهند، آیا همه آنها در مورد پاسخ موافق هستند؟ اگر انسان‌ها نتوانند در درست یا نادرست بودن چیزی به توافق برسند، کامپیوترها هم نمی‌توانند به صورت قابل اعتمادی، قضاوت را به الگوهای آماری تبدیل کنند.

چه مدت است که افراد در سازمان کاری مشابه این تسک را انجام می‌دهند؟ اگر مدت زیادی از آن گذشته باشد، آیا سازمان سابقه‌ای از انجام موفق این تسک‌ها را حفظ کرده است؟ اگر پاسخ بله است، این اطلاعات می‌تواند به عنوان یک مجموعه داده آموزشی برای الگوریتم یادگیری نظارت شده شما استفاده شود.

اگر نه، ممکن است لازم باشد که امروز شروع به جمع‌آوری این داده‌ها کنید و بعد از آن می‌توانید یک انسان را برای آموزش الگوریتم در طی زمان، در چرخه نگه دارید.

بعد، با یک تیم علم داده بنشینید و درباره تسک‌ها به آن‌ها توضیح دهید. آن‌ها را درباره فرآیند فکری خود راهنمایی کنید و به آنها بگویید هنگام تکمیل کار خود روی چه جنبه‌هایی از اطلاعات تمرکز می‌کنید. این کار به آن‌ها کمک خواهد کرد تا تعیین کنند که آیا اتوماسیون امکان‌پذیر است یا نه و جنبه‌های مختلف داده‌هایی که بیش‌ترین پیش‌بینی را از خروجی مطلوب خواهند داشت بررسی کنند.

از خود بپرسید، اگر این کار، خودکار باشد، چگونه ممکن است محصولاتی که به مشتریان خود ارائه می‌دهیم را تغییر دهد؟ بپرسید بدترین چیزی که ممکن است برای کسب و کار اتفاق بیفتد، در صورت خودکار شدن چیست؟ و در نهایت بپرسید بدترین چیزی که می‌تواند برای کسب‌وکار اتفاق بیفتد، اگر الگوریتم جواب اشتباه یا جوابی با نرخ دقت ۶۵ % یا ۷۰ % بدهد چیست؟ آستانه دقت و صحتی که کسب‌وکار برای پیشبرد و خودکار کردن فرایند نیاز دارد، چقدر است؟

موفقیت در یادگیری تحت نظارت، مستلزم تغییر دیدگاه در مورد چگونگی انجام کار است. این امر مستلزم استفاده از تجارب گذشته شامل همه آن قضاوت‌های انسانی و تخصصی در موضوع، برای ایجاد الگوریتمی است که آن تخصص را برای کارها در آینده اعمال کند. هنگامی که به خوبی از آن استفاده شود، کارمندان بازده بیشتری خواهند داشت و ارزش جدیدی ایجاد می‌کند. اما این کار با شناسایی مشکلاتی شروع می‌شود که ارزش حل کردن دارند و در مورد آن‌ها به عنوان ورودی‌ها و خروجی‌ها، مانند x و y فکر می‌کنند.

این پست ترجمه‌ای است از مقاله

How to Spot a Machine Learning Opportunity, Even If You Aren’t a Data Scientist منتشر شده در وب‌سایت HBR.