علم داده یک مبحث تئوری و عملی است به طوری که تحولات داده محور را امروزه در صنعت و جامعه شاهد هستیم.

 

از هوش مصنوعی گرفته تا اتومبیل های خودران و تجزیه و تحلیل پیش بینی قیمت سهام، تنها از معدود پیشرفت هایی است که به لطف توانایی روزافزون انسان در جمع آوری و تجزیه و تحلیل داده ها انجام شده است.

درست مانند Big Data و هوش مصنوعی، حوزه علم داده نیز دیکشنری خود را داد به طوری که در ابتدا برای مبتدیان گیج کننده است. درک اصطلاحات اساسی و مورد استفاده برای هر کسی که در مورد نحوه استفاده از این فناوری فکر می کند ضروری است. بنابراین در این مقاله برخی از فناوری ها، عبارات و کلماتی که احتمالاً با آنها روبرو می شوید را مرور می کنیم.

همچنین بخوانید چگونه UBER با فروش داده کسب درآمد می کند

الگوریتم

مجموعه دستورالعمل های تکراری که افراد یا ماشین ها می توانند از آنها برای پردازش داده ها استفاده کنند، الگوریتم نام دارد. به طور کلی، الگوریتم ها با داده ها و تنظیم متغیرها تا رسیدن به نتیجه دلخواه ساخته می شوند. به لطف پیشرفت های انجام شده در هوش مصنوعی مانند یادگیری ماشینی و شبکه های عصبی، ماشین ها به طور کلی این کار را انجام می دهند، چرا که می توانند این کار را بسیار سریعتر از هر انسانی انجام دهند.

هوش مصنوعی

اصطلاح هوش مصنوعی بر مبنای مفاهیمی است که از طریق مطالعه و کاربرد علم داده توسعه یافته است. یکی از روش های دسته بندی آخرین نسل ماشین های “هوشمند”، ماشین هایی هستند که قادر به انجام علم داده به صورت خودکار هستند. به طور مثال Google Translate در درک زبان بهتر می شود و خودروهای بدون سرنشین به راحتی در مناطقی حرکت می کنند که قبلاً ندیده اند.

قضیه بیز

یک فرمول ریاضی برای پیش بینی احتمال وقوع یک رویداد به شرط وقوع یا عدم وقوع رویداد دیگر. این یک روش متداول است که در علم داده برای ایجاد احتمالات و نتایج وابسته به متغیرهای ناشناخته استفاده می شود و برای ایجاد شبکه های بیزی، که در مجموعه داده های بزرگ، استفاده می شود.

تجزیه و تحلیل رفتاری

استفاده از داده های مربوط به رفتار یک شخص یا شی برای پیش بینی نحوه تغییر آن در آینده.

BIG DATA

اصطلاحی است که نشان دهنده افزایش حجم داده هایی است که در سال های اخیر در دسترس قرار گرفته است، به ویژه هنگامی که جهان به طور فزاینده آنلاین شده و از طریق اینترنت به هم متصل شده است. این داده ها نه تنها از نظر اندازه بلکه از نظر سرعت تولید و تغییرات زیاد در اشکال مختلف، از داده هایی که قبلاً در دسترس بودند متمایز می شود.

پایتون

پایتون یک زبان برنامه نویسی است که در سالهای اخیر به دلیل سهولت استفاده در بین مهندسین داده بسیار محبوب شده است. منبع باز (هر کس می تواند به آن اضافه کند یا آن را تغییر دهد)

R

یکی دیگر از زبان های برنامه نویسی که قبل از پایتون وجود داشته و به طور سنتی برای آمارشناسان با مجموعه داده های بزرگ انتخاب می شد

جنگل تصادفی

جنگل تصادفی یک روش تجزیه و تحلیل آماری است که شامل خروجی تعداد زیادی از درختان تصمیم برای ارائه پیچیده تر و دقیق تر یا طبقه بندی داده ها است.