علم داده چیست؟

«علم داده» (data science)، یک زمینه میان رشته‌ای است که از روش‌ها، فرآیندها، الگوریتم‌ها و سیستم‌های علمی برای استخراج دانش و بینش از داده‌ها در اشکال گوناگون (ساختار یافته و ساختار نیافته) استفاده می‌کند. چیزی مشابه داده‌کاوی! علم داده مفهومی برای یکپارچه‌سازی آمار، تحلیل داده، یادگیری ماشین و دیگر مفاهیم مرتبط تحت یک عنوان واحد است. این کار به منظور درک و تحلیل پدیده‌ها با استفاده از داده‌ها انجام می‌شود.

در این دانش از روش‌ها و نظریه‌های علوم گوناگون از جمله ریاضیات، آمار، علم اطلاعات و علوم کامپیوتر استفاده می‌شود. «جیم گری» (Jim Gray) برنده جایزه تورینگ، علم داده را به عنوان پارادایم چهارم علم (پژوهش‌های تجربی، بنیادی، محاسباتی و اکنون داده‌محور ) تصور کرده و چنین ارزیابی می‌کند که: «کلیه موارد مربوط به علم تحت تاثیر فناوری اطلاعات در حال تغییر است».

به‌طور کلی می‌توان گفت علم داده، مطالعه محلی که داده‌ها از آن می‌آیند، نشانگر چه چیزی هستند و چگونگی مبدل ساختن آن‌ها به منبعی ارزشمند برای کسب‌و‌کار و استراتژی‌های فناوری اطلاعات سازمان است. کاوش حجم بالایی از داده‌های ساختار یافته و ساختار نیافته به‌منظور شناسایی الگوهایی انجام می‌شود که می‌توانند به سازمان‌ها جهت صرفه‌جویی در هزینه‌ها، افزایش کارایی، شناسایی فرصت‌های جدید در بازار و افزایش مزایای رقابتی کمک کنند. در علم داده، ریاضیات، آمار، علوم کامپیوتر و دیگر روش‌ها مانند یادگیری ماشین، کاوش داده و بصری‌سازی داده مورد استفاده قرار می‌گیرد.

در مجله «بررسی کسب‌و‌کار هاروارد» (Harvard Business Review)، از شغل «دانشمند داده» (data scientist) با عنوان جذاب‌ترین شغل قرن ۲۱ یاد شده است. اصطلاح علم داده یکی از واژگان باب روز است که بر تحلیل‌های کسب‌و‌کار، هوش تجاری، مدل‌سازی پیش‌بینی یا هر گونه استفاده اختیاری از داده‌ها اعمال شده و به عنوان واژه‌ای پر زرق و برق برای آمار استفاده می‌شود. در بسیاری از موارد، رویکردها و راهکارهای موجود در حوزه‌های گوناگون با عنوان «علم داده» برندسازی مجدد شده‌اند تا جذاب‌تر باشند. کاربرد این اصطلاح بیش از آنکه مفید باشد، توسط متخصصین غیر مرتبط بسیاری به شکلی گسترده اما غیر صحیح به کار برده می‌شود.

در حالیکه در بسیاری از دانشگاه‌های مطرح دنیا این رشته به عنوان یک زمینه دانشگاهی تدریس می‌شود، هیچ توافقی در رابطه با محتوای دوره یا سرفصل‌های آن تاکنون ایجاد نشده و هر موسسه و دانشگاهی به سبک خود عمل می‌کند. با وجود مفید و کارآمد بودن علم داده، بسیاری از پروژه‌های کلان داده (مِه داده) و علم داده به دلیل مدیریت ضعیف و به‌کارگیری نامناسب منابع، در انتقال نتایج مفید با شکست مواجه می‌شوند.