
علم داده چیست؟
«علم داده» (data science)، یک زمینه میان رشتهای است که از روشها، فرآیندها، الگوریتمها و سیستمهای علمی برای استخراج دانش و بینش از دادهها در اشکال گوناگون (ساختار یافته و ساختار نیافته) استفاده میکند. چیزی مشابه دادهکاوی! علم داده مفهومی برای یکپارچهسازی آمار، تحلیل داده، یادگیری ماشین و دیگر مفاهیم مرتبط تحت یک عنوان واحد است. این کار به منظور درک و تحلیل پدیدهها با استفاده از دادهها انجام میشود.
در این دانش از روشها و نظریههای علوم گوناگون از جمله ریاضیات، آمار، علم اطلاعات و علوم کامپیوتر استفاده میشود. «جیم گری» (Jim Gray) برنده جایزه تورینگ، علم داده را به عنوان پارادایم چهارم علم (پژوهشهای تجربی، بنیادی، محاسباتی و اکنون دادهمحور ) تصور کرده و چنین ارزیابی میکند که: «کلیه موارد مربوط به علم تحت تاثیر فناوری اطلاعات در حال تغییر است».
بهطور کلی میتوان گفت علم داده، مطالعه محلی که دادهها از آن میآیند، نشانگر چه چیزی هستند و چگونگی مبدل ساختن آنها به منبعی ارزشمند برای کسبوکار و استراتژیهای فناوری اطلاعات سازمان است. کاوش حجم بالایی از دادههای ساختار یافته و ساختار نیافته بهمنظور شناسایی الگوهایی انجام میشود که میتوانند به سازمانها جهت صرفهجویی در هزینهها، افزایش کارایی، شناسایی فرصتهای جدید در بازار و افزایش مزایای رقابتی کمک کنند. در علم داده، ریاضیات، آمار، علوم کامپیوتر و دیگر روشها مانند یادگیری ماشین، کاوش داده و بصریسازی داده مورد استفاده قرار میگیرد.
در مجله «بررسی کسبوکار هاروارد» (Harvard Business Review)، از شغل «دانشمند داده» (data scientist) با عنوان جذابترین شغل قرن ۲۱ یاد شده است. اصطلاح علم داده یکی از واژگان باب روز است که بر تحلیلهای کسبوکار، هوش تجاری، مدلسازی پیشبینی یا هر گونه استفاده اختیاری از دادهها اعمال شده و به عنوان واژهای پر زرق و برق برای آمار استفاده میشود. در بسیاری از موارد، رویکردها و راهکارهای موجود در حوزههای گوناگون با عنوان «علم داده» برندسازی مجدد شدهاند تا جذابتر باشند. کاربرد این اصطلاح بیش از آنکه مفید باشد، توسط متخصصین غیر مرتبط بسیاری به شکلی گسترده اما غیر صحیح به کار برده میشود.
در حالیکه در بسیاری از دانشگاههای مطرح دنیا این رشته به عنوان یک زمینه دانشگاهی تدریس میشود، هیچ توافقی در رابطه با محتوای دوره یا سرفصلهای آن تاکنون ایجاد نشده و هر موسسه و دانشگاهی به سبک خود عمل میکند. با وجود مفید و کارآمد بودن علم داده، بسیاری از پروژههای کلان داده (مِه داده) و علم داده به دلیل مدیریت ضعیف و بهکارگیری نامناسب منابع، در انتقال نتایج مفید با شکست مواجه میشوند.