خلاصه مقاله:
اغلب کسب و کارها برای بهرهوری و کارآمدی ایجاد میشوند. آنها این کار را از طریق تخصصیسازی فعالیتها انجام میدهند. کارگرانی که در یک کار مشخص مهارت بالایی دارند، میتوانند مهارت خود را تکمیل کرده و هنگامی در خط مونتاژ قرار میگیرند، کالاهایی با کارایی بالا تولید کنند. تیمهای علم داده نیز به همین شیوه تشکیل میشوند و وظایف کاملا تخصصی به افراد واگذار میشود و آنها برای ایجاد ظرفیتهای تجاری جدید با یکدیگر همکاری میکنند. اما این روش اشتباهی برای تشکیل یک تیم علم داده است زیرا دانشمندان داده اغلب نمیدانند چه چیزی تولید میکنند تا زمانی که به آن برخورد کنند. هدف آنها باید یادگیری باشد نه کارآمد بودن. برای به حداکثر رساندن یادگیری، تیمها باید بهعنوان گروههایی از متخصصان عمومی سازماندهی شوند که میتوانند بسیاری از وظایف علم داده را انجام دهند. این مساله بسیاری از تنگناهای کلاسیک در علم داده که منجر به نتایج ضعیفی میشوند را کاهش میدهد. تیمی که از متخصصان عمومی و همه فن حریف تشکیل شده باشد، کارایی بهتری داشته و به کسبوکار بیشتر کمک میکند.
در ثروت ملل، آدام اسمیت با استفاده از مثال واضح خط مونتاژ کارخانه پین، نشان میدهد که چگونه تقسیم کار، منبع اصلی افزایش بهرهوری است: «یکی سیم را بیرون میکشد، دیگری آن را صاف میکند، سومی آن را برش میدهد. چهارمی نشانهگذاری میکند، پنجمی آن را میکوبد.» ” با گرایش به سوی تخصصی شدن حول عملکرد، هر کارگر در یک کار محدود که منجر به کارایی میشود مهارت بالایی پیدا میکند. خروجی به ازای هر کارگر چندین برابر افزایش مییابد و در نتیجه کارخانه در تولید پین بسیار کارآمد میشود.
امروزه این تقسیم کار بر اساس عمل چنان در ما ریشه دواندهاست که ما به سرعت تیمهایمان را براساس آن تشکیل میدهیم. علم داده نیز از این قاعده مستثنی نیست.
یک قابلیت در کسبوکار الگوریتمی end-to-end به توابع زیادی نیاز دارد، و بنابراین شرکتها معمولا تیمی با حضور متخصصان مانند دانشمندان پژوهشی (research scientist)، مهندسان داده، مهندسان یادگیری ماشین، دانشمندان استنتاج علّی (causal inference scientists) و … را تشکیل میدهند. کار این متخصصان توسط یک مدیر محصول، با دست به دست شدن بین توابع به شیوهای که شبیه به کارخانه پین است، هماهنگ میشود: “یک شخص داده را تامین میکند، دیگری آن را مدل میکند، سومی آن را اجرا میکند، و چهارمی آن را اندازهگیری میکند” و این فرایند ادامه دارد.
افسوس، ما نباید تیمهای علم داده خود را برای افزایش بهرهوری بهینهسازی کنیم. اقدام برای افزایش بهرهوری زمانی اتفاق میافتد که شما بدانید به دنبال تولید چه چیزی هستید مانند پین. هدف خطوط مونتاژ اجرا است.مانند پین در مثال اسمیت، ما دقیقا میدانیم که چه میخواهیم اما میتوان به هر محصول یا سرویسی فکر کرد که در آن الزامات به طور کامل تمام جنبههای محصول و رفتار آن را توصیف میکنند. سپس نقش کارگران این است که آن الزامات را به بهترین نحو ممکن اجرا کنند.
اما هدف علم داده اجرا کردن نیست. در عوض، هدف یادگیری و توسعه قابلیتهای عمیق تجاری جدید است. محصولات و خدمات الگوریتمی مانند سیستمهای توصیهای، روشهای تعامل مشتری، طبقهبندی سبکهای اولویتبندی، تطبیق اندازه در سیستمهای طراحی مد، بهینهسازهای لجستیک، آشکارسازی روند فصلی و غیره را نمی توان از پیش طراحی کرد. آنها باید یاد گرفته شوند. هیچ برنامه کاری برای دنبال کردن وجود ندارد. این موارد قابلیتهای جدیدی با عدم قطعیت ذاتی هستند. ضرایب، مدلها و انواع آن، پارامترهای بیشتر و تمام عناصری که نیاز دارید باید از طریق آزمایش، آزمون و خطا و تکرار یاد گرفته شوند. با استفاده از پینها، یادگیری و طراحی در ابتدا انجام میشود، قبل از این که شما آن را بسازید. با علم داده، شما همانطور که پیش میروید، یاد میگیرید، نه قبل از شروع آن
در کارخانه پین، وقتی که یادگیری در درجه اول قرار میگیرد، ما نه انتظار داریم و نه میخواهیم که کارگران در هر جنبه از محصول نوآوری داشته باشند، به جز این که باعث تولید محصول موثرتری شوند. در این جا سازماندهی تیم با کمک بررسی عملکرد منطقی به نظر میرسد زیرا تخصصی سازی کار منجر به کارایی فرآیند و سازگاری تولید میشود (هیچ تغییری در محصول نهایی وجود ندارد).
اما زمانی که محصول هنوز در حال تکامل و هدف یادگیری است، تخصصی سازی به روشهای مختلف مانع از رسیدن به اهداف ما میشود:
۱- این کار هزینههای هماهنگی را افزایش میدهد.
اینها هزینههایی هستند که در زمان صرف شدهبرای برقراری ارتباط، بحث، توجیه، و اولویتبندی کارهایی که باید انجام شوند، افزایش مییابند. این هزینهها به صورت خطی با توجه به تعداد افراد درگیر با پروژه مقیاس گذاری میشوند.
(همانطور که جی ریچارد هاکمن به ما آموخت، تعداد روابط (r) به عنوان تابعی از تعداد اعضا (n) در این معادله افزایش می یابد: r = (n^2-n) / 2. و هر رابطه مقداری از هزینههای هماهنگی)
وقتی دانشمندان داده توسط عملکرد سازمان دهی میشوند، بسیاری از تخصصها ممکن است در یک مرحله، یک تغییر و یک جابجایی مورد نیاز باشند و این موضوع هزینههای هماهنگی را بالا میبرند. برای مثال، متخصصان مدلسازی آماری که میخواهند ویژگیهای جدید را امتحان کنند، باید با مهندسان داده هماهنگ شوند که مجموعه دادهها را هر بار که میخواهند چیز جدیدی را امتحان کنند، زیاد میشوند. همین طور، هر مدل جدید آموزش داده به این معنی است که مدلساز برای استقرار به کسی نیاز دارد تا با او هماهنگ شود. هزینههای هماهنگی مثل مالیات در یک اسپرینت عمل کرده و آن را سختتر و پر هزینهتر میکنند و به احتمال زیاد باعث دلسرد شدن افراد در جستوجو میشوند. که می تواند یادگیری را مختل کند.
۲- این کار زمان انتظار را زیاد میکند.
حتی بدتر از هزینههای هماهنگی، زمانی است که بین انجام کارها تلف میشود. به طور معمول هزینههای هماهنگی را میتوان بر حسب ساعت اندازهگیری کرد مثل مدت زمان برگزاری جلسهها، بحثها و بررسی طراحیها. زمان انتظار معمولا در طی روزها یا هفتهها یا حتی ماهها اندازهگیری میشود!
تنظیم برنامههای متخصصان عملکردی کار دشواری است زیرا هر متخصص زمان خود را به چند طرح اختصاص میدهد. یک جلسه یک ساعته برای بحث در مورد تغییرات ممکن است هفتهها طول بکشد. و زمانی که این تغییرات هماهنگ شوند، انجام اصل کار در زمینه پروژههای متعدد دیگری که نیاز به زمان گذاشتن از سوی متخصصان دارند، هم باید برنامهریزی شوند. کارهایی مانند تغییرات کد یا تحقیقاتی که تنها به چند ساعت یا چند روز برای تکمیل نیاز دارند، هنوز هم ممکن است به دلیل در دسترس نبودن منابع، خیلی طولانیتر انجام شوند. تا آن زمان، تکرار و یادگیری به کندی پیش میرفت.
۳- زمینه را محدود می کند.
تقسیم کار میتواند به صورت ساختگی یادگیری را با پاداش دادن به افراد برای ماندن در مسیرشان محدود کند. به عنوان مثال، دانشمند محققی که باید به وظیفه خود پایبند بماند، انرژی خود را روی آزمایش بر انواع الگوریتمها متمرکز میکند: رگرسیون، شبکههای عصبی، جنگل تصادفی (random forest) و … مطمئناً، انتخاب الگوریتم خوب میتواند منجر به بهبود تدریجی شود. اما معمولاً از فعالیتهای دیگر مانند یکپارچهسازی منابع دادههای جدید سود بیشتری میتوان کسب کرد. همچنین ممکن است او مدلی درست کند که هر ذرهای از شرح و توان توضیحی اصلی دادهها را تخلیه کند. با این حال، بزرگترین فرصت او ممکن است در تغییر تابع هدف یا کاهش محدودیتهای خاص باشد. دیدن و یا انجام این کار زمانی که عملکرد شغلی او محدود باشد، سخت است. از آن جایی که این دانشمندان در بهینهسازی الگوریتمها متخصص است، احتمال کمتری دارد که به دنبال هر چیز دیگری بگردد، حتی زمانی که مزایای زیادی به همراه داشته باشد.
زمانی که تیمهای علم داده مانند کارخانههای پین عمل میکنند، علائمی آشکار میشوند، برای مثال در بروزرسانیهای ساده وضعیت: «انتظار برای تغییرات pipeline» و «انتظار در منابع ML Eng» موانع رایجی هستند.
رضایت حاصل از دستیابی به کارایی فرآیند میتواند این حقیقت تلخ را پنهان کند که سازمان از یادگیری و ارزشمندی آن محروم است و کاملا به آن آگاه نیست.
البته راهحل این مشکل خلاص شدن از شر کارخانه پین است. به منظور تشویق یادگیری و تکرار، نقشهای علم داده باید کلیتر شوند، با مسئولیتهای گستردهای که منکر عملکرد فنی هستند. به عبارت دیگر، دانشمندان داده را طوری سازماندهی کنید که برای یادگیری بهینهسازی شوند.
این کار به معنای استخدام “full stack data scientists” است که میتوانند کارهای متنوعی را انجام دهند: از تعریف مفاهیم گرفته تا مدلسازی، اجرا و اندازهگیری. توجه به این نکته مهم است که در نظر داشته باشید :من پیشنهاد نمیکنم که استخدام full stack data scientists در مجموع منجر به استخدام افراد کمتری میشود. در عوض، من صرفاً پیشنهاد میکنم که وقتی بهطور متفاوتی سازماندهی میشوند، انگیزههای آنها برای یادگیری و در ادامه کسب دستاوردهای کارآمد همسو میشوند. به عنوان مثال، بگویید یک تیم سه نفره دارید که سه قابلیت در کسبوکار ایجاد میکنند. در کارخانه پین، یک سوم ظرفیت هر فرد به هر پروژه اختصاص مییابد، زیرا هیچکس دیگری نمیتواند کار او را انجام دهد. در فول استک، هر یک از افراد با دانش عمومی به طور کامل به یک قابلیت تجاری اختصاص داده شدهاند، که این کار معیار و یادگیری را افزایش میدهد.
با توجه به اینکه افراد کمتری در این حلقه باقی میمانند، هزینههای هماهنگی کاهش مییابد. متخصص عمومی راحتتر هماهنگ میشود،pipeline دادهها را برای اضافه کردن دادههای بیشتر، گسترش میدهد، ویژگیهای جدید را در مدل امتحان میکند، نسخههای جدید را برای تولید و سنجش گسترش میدهد، و مراحل را به همان سرعتی که ایدههای جدید به او میرسند، تکرار میکند.
البته، متخصص عمومی کارهای مختلف را به طور متوالی و نه موازی انجام میدهد چون در نهایت او فقط یک نفر است. با این حال، انجام کار به طور معمول زمان انتظار بسیار کم تری را نسبت به یک منبع تخصصی و در دسترس دیگر نیاز دارد. بنابراین، زمان تکرار کاهش پیدا میکند.
ممکن است نیروی عمومی ما به اندازه یک متخصص در هر یک از وظایف مهارت نداشته نباشد. اما ما به دنبال برتری در عملکرد یا بهبود تدریجی جزئی نیستیم. در عوض، ما به دنبال یادگیری و کشف تمام قابلیتهای کسبوکار جدید با تاثیر و تغییر چند مرحلهای هستیم. با داشتن پیش زمینه کامل پیدا کردن یک برای راه حل جامع، فرصتهایی را می بیند که یک متخصص با دید محدود، نمیتواند. او ایدههای بیشتری دارد و چیزهای بیشتری را امتحان میکند و بیشتر هم شکست میخورد. با این حال، هزینه این شکستها کم و مزایای یادگیری آن زیاد است.
لازم به ذکر است که این مقدار استقلال و تنوع در مهارت اعطا شده به full stack data scientist ها تا حد زیادی با فرض وجود پلتفرم داده بستگی دارد که بر روی آن کار کند. پلتفرم دادهای که خوب ساختاربندی شده باشد، دانشمندان داده را از پیچیدگیهای کانتینرسازی، پردازش توزیعشده، شکست خودکار و دیگر مفاهیم پیشرفته علوم کامپیوتر، رها میکند.
این اجزا توسط مهندسان پلتفرم داده طراحی و ساخته میشوند، اما برای روشن شدن، هیچ تبادلی از سمت دانشمند داده با یک تیم پلتفرم داده وجود ندارد. این دانشمند داده است که مسئول تمام کدهایی است که برای اجرا در پلتفرم مستقر شده است.
با جذابیت کارایی فرآیندها، من هم زمانی شیفته روش تقسیم کار مبتنی بر عملکرد شدم. اما، با کمک آزمون و خطا (هیچ راه بهتری برای یادگیری وجود ندارد)، متوجهشدهام که نقشهای کلیتر یادگیری و نوآوری را بیشتر تسهیل میکنند و باعث مقایسه درستتری شامل کشف و ساخت قابلیتهای کسبوکار بیشتری در مقایسه با رویکرد تخصصی، فراهم میکنند.
(یک راه کارآمدتر برای یادگیری در مورد این رویکرد به سازمانها، در مقابل انجام آزمون و خطا خواندن کتاب Amy C. Edmondson “Teaming: How Organizations Learn, Innovate, and Compete in the Knowledge Economy” است).
یکسری شرایط مهم وجود دارند که ممکن است این رویکرد سازمانی را در بعضی از شرکتها کم و بیش قابل دفاع کند. این فرآیند هزینه کم تکرار آزمون و خطا را در نظر میگیرد. اگر هزینه خطا بالا باشد، ممکن است بخواهید درباره آن تجدید نظر کنید (به عنوان مثال، برای موارد استفاده پزشکی یا تولیدی توصیه نمیشود).
از سوی دیگر، اگر با حجم دادهای مانند پتابایت یا اگزابایت سروکار دارید، تخصص در مهندسی داده ممکن است باعث تضمین شود. یا برای مثال، اگر حفظ پایداری و دسترسی یک کسبوکار آنلاین از بهبود آن مهم تر باشد، برتری در عملکرد ممکن است یادگیری را تحتتاثیر قرار دهد. در نهایت، مدل full-stack data science متکی بر مفروضات افراد ماهراست. آنها مثل اسب تکشاخ نایاب نیست. هم میتوان آنها را پیدا کرد و هم ساخت. اما پیشنهادات شغلی زیادی دارند و برای جذب و حفظ آنها پاداشهای رقابتی، وجود ارزشهای مستحکم در شرکت و کار جالب توجه لازم است. دقت کنید که فرهنگ شرکت شما بتواند از این موضوع پشتیبانی کند.
حتی با تمام آنچه گفته شد، من معتقدم که مدل full-stack data science نقطه شروع بهتری را آماده میکند. کار را با آنها شروع کنید. زمانی که کاملا ضروری باشد و آگاهانه به سمت تقسیم کار مبتنی بر عملکرد حرکت کنید.
تخصصی کردن عملکرد جنبههای منفی دیگری هم دارد. این کار میتواند باعث از دست رفتن مسئولیتپذیری و شور و شوق کارکنان شود. اسمیت خود تقسیم کار را مورد انتقاد قرار میدهد و اشاره میکند که این تقسیم کار منجر به بیحوصلگی افراد مستعد میشود و آنها را به کارگرانی نادان و منزوی تبدیل میکند، چون نقشآنها به چند کار تکراری محدود میشود. تخصصی سازی ممکن است بازده فرآیند را افزایش دهد، اما احتمال الهام بخشی کمتر برای کارکنان دارد.
در مقابل، نقشهای عمومی همه چیزهایی را فراهم میکنند که باعث رضایت شغلی میشوند: استقلال، تسلط و هدف. استقلال از این جهت که برای موفقیت به شخص دیگری وابسته نیستند. تسلط به این دلیل که به آنها ظرفیت کسب و کار را از ابتدا به انتها میدانند. و هدف از این جهت است که با کسب و کاری در جریان ارتباط مستقیمی دارند و بر آن با تأثیر میگذارند. اگر ما موفق شویم که مردم را نسبت به کارشان مشتاق کنیم و تاثیر بزرگی را که بر شرکت دارند،مشخص کنیم، بقیه موارد به صورت طبیعی سر جای خود قرار میگیرند.
این مقاله ترجمه شده Why Data Science Teams Need Generalists, Not Specialists از وبسایت HRB است.
دیدگاهتان را بنویسید