شنبه ۲۵ فروردین ۱۴۰۳ ساعت ۲۰:۰۰

پنل گفتگو؛ کار در حوزه علوم داده در ایران و خارج از کشور

توضیحات
علم داده:

علم داده (به انگلیسی: Data science)، دانشی میان‌رشته‌ای است که به استخراج دانش و آگاهی از مجموعه‌ای داده و اطلاعات می‌پردازد. این علم از ترکیب مباحث مختلفی به وجود آمده و بر مبانی و روش‌های موجود در حوزه‌های مختلف علمی بنا شده‌است. برخی از این حوزه‌ها عبارتند از: ریاضیات، آمار، علوم کامپیوتر، مهندسی داده، بازشناخت الگو و… هدف اصلی علم داده، استخراج مفهوم از داده‌ها و تولید محصولات داده‌محور است.

آقایان توماس دونپورت و دی جی پاتیل در سال ۲۰۱۲ در مقاله‌ای به نام «علم داده: جذاب‌ترین شغل قرن بیست و یکم»، متخصصین علم داده را به این شکل تعریف می‌کنند: کسانی که می‌دانند چگونه می‌توانند از انبوه اطلاعات بدون ساختار، پاسخ‌های سؤال‌های کسب‌وکار را پیدا کنند. همچنین، استنتون در سال ۲۰۱۳ علم داده را به این صورت تعریف می‌کند: علم داده، رشته‌ای در حال ظهور است که به جمع‌آوری، آماده‌سازی، تحلیل، بصری‌سازی، مدیریت و نگهداشت اطلاعات در حجم بالا می‌پردازد. همچنین، دریسکول در سال ۲۰۱۴ علم داده را به عنوان مهندسی عمران داده‌ها تعریف می‌کند. متخصص علم داده دانشی کاربردی از داده‌ها و ابزارها دارد و همچنین درک تئوریکی دارد که مشخص می‌کند چه چیزی از نظر علمی ممکن است.

دانشمند داده کیست؟
دانشمند داده (به انگلیسی: data scientist)، به شاغلین در حوزهٔ علم داده گفته می‌شود. این اصطلاح توسط دی جی پاتیل و جف همربارکر ابداع شده‌است. قبل از آن که آن‌ها از این اصطلاح به‌طور عمومی استفاده کنند، سال‌ها پیش از آن استفاده شده‌است. چن فو جف وو در سال ۱۹۹۸ برای اولین بار در یک سخنرانی از واژهٔ “متخصص علم داده” استفاده کرد. متخصصین علم داده با عمق در چندین رشتهٔ علمی، مسائل پیچیدهٔ مطرح شده در حوزهٔ داده را حل می‌کنند. به‌طور کلی، انتظار می‌رود که متخصصین علم داده قادر باشند در بخش‌هایی از علوم ریاضیات، آمار، و علوم کامپیوتر کار کنند. یک متخصص علم داده باید در یک یا دو رشته تخصص داشته باشد و در دیگر حوزه‌ها نیز دارای مهارت کافی باشد. نتایج نظرسنجی‌ها حاکی از این موضوع است که برای متخصص علم داده شدن، ۵ تا ۸ سال زمان لازم است.
دانشمندان داده می‌توانند مهارت‌هایشان را برای دست‌یابی به طیف وسیعی از نتایج نهایی به کار گیرند. تعدادی از این مهارت‌ها به شرح زیرند:
  • استخراج و تفسیر منابع داده
  • مدیریت حجم زیاد اطلاعات با سخت‌افزار
  • محدودیت‌های نرم‌افزاری و پهنای باند
  • ادغام منابع داده با یکدیگر
  • تضمین پایداری مجموعه‌های داده
  • مصورسازی داده برای فهم آن
  • ساخت مدل‌های ریاضی با استفاده از داده، مانند مدل‌های رگرسیون و طبقه‌بندی
  • مقایسه آماری مدل‌های ریاضی گوناگون و انتخاب مدل برتر، فی المثل توسط آزمون A/B
  • به اشتراک گذاری یافته‌ها و دیدگاه‌ها در حوزه داده با متخصصان دیگر یا مخاطب عام