Ці з'яўляюцца навука дадзеных і вялікія Hadoop дадзеныя аднолькавымі? Ці ёсць розніца паміж імі, альбо абазначаюць тое ж самае?


адказ 1:

Не, дакладна няма.

Давайце разбярэм гэтую праблему на тры часткі:

Data Science - гэта спецыялізацыя для вырашэння розных задач рознымі метадамі: ад статыстыкі, камбінаторыкі, матэматыкі і інфарматыкі і г.д.)

Вялікія дадзеныя: вялікія дадзеныя ў шырокім сэнсе - гэта паняцце для барацьбы з вялікай колькасцю дадзеных (тэрмін "велізарны адносна") па-за традыцыйнымі метадамі.

Hadoop: Hadoop - гэта аснова або асяроддзе, у якой вялікія аб'ёмы дадзеных можна кіраваць і аналізаваць з дапамогай розных інструментаў (PIG, HIVE, Scoop, Fume і г.д.).

Літаратура:

Падручнік Hadoop

Навука дадзеных

Вялікія дадзеныя


адказ 2:

Я мяркую, вы думалі, што "Science Science" і "Big Data Hadoop" - гэта розныя рэчы, але на самой справе тры. Навука дадзеных, вялікія дадзеныя і Hadoop маюць розныя значэнні.

Дапусцім, вы вучань 10 класа. Вам прадастаўлена задача параўноўваць адзнакі, атрыманыя вашымі аднакласнікамі па кожным прадмеце. У вас у класе 50 вучняў, кожны вывучае 5 прадметаў. Пошук сярэдняга не з'яўляецца ракетнай навукай, таму рабіце ўсё ў адным лісце Excel. Цяпер ваш настаўнік папросіць зрабіць аднолькавы разлік для ўсіх раздзелаў A, B і C прыблізна 150 вучняў. Табліцу Excel зноў дастаткова. Цяпер вы хочаце ведаць, якія сярэднія ацэнкі прыродазнаўства для вучняў 10-га класа па ўсёй краіне. Гэта прыкладна 14,31,861 студэнта ў 2016 г. Вы, магчыма, не зможаце захаваць столькі дадзеных на адным лісце Excel, каб вы захавалі яго ў базе дадзеных, напрыклад MySQL або Oracle. Вы запускаеце запыт SQL, каб знайсці сярэдняе значэнне. Цяпер вам цікава паглядзець, як сярэднія паказчыкі па навуцы для 10 класа рухаюцца на працягу 20 гадоў, што адпавядае прыблізна 3000000 запісаў. Калі вы знайшлі ў сярэднім усе 5 прадметаў, а не толькі навуку, вы апрацавалі б 30 000 000 х 5 запісаў. Зараз дадзеныя вялікія, якія таксама вядомыя як "вялікія дадзеныя".

Вялікія дадзеныя - надзвычай вялікая колькасць дадзеных, якія можна прааналізаваць матэматычна, каб выявіць заканамернасці, тэндэнцыі і асацыяцыі, асабліва ў дачыненні да паводзін чалавека і ўзаемадзеянняў. - З Вікіпедыі

Магчыма, вы не павінны захоўваць так шмат дадзеных у MySQL ці Oracle і не запускаць запыт SQL на мільёны запісаў. Я ніколі не апрацоўваў так шмат дадзеных у базе дадзеных SQL, таму не стаў каментаваць яго прадукцыйнасць, але я выкарыстаў Hadoop для апрацоўкі вялікай колькасці запісаў, значна большых за базу дадзеных студэнтаў, пра якую мы гаворым. Hadoop - гэта аснова, якая распаўсюджвае дадзеныя ў некалькі сістэм, каб усе сістэмы маглі паралельна разлічваць, што павялічвае агульную хуткасць вылічэння, званую таксама размеркаванымі вылічэннямі. Hadoop мае ўласную файлавую сістэму, якая ўяўляе сабой сістэму захоўвання дадзеных для вялікіх дадзеных.

Навука дадзеных у простых словах - гэта навука разумення таго, што трэба рабіць з вялікімі ці малымі дадзенымі. Пакуль мы толькі спрабавалі ацаніць балы, але вучоны па дадзеных таксама разгледзеў спосабы высветліць, чаго можна дасягнуць з сярэднім. Для арганізацыі ён дапамагае ім прымаць бізнес-рашэнні і знаходзіць шаблоны, якія дапамагаюць кіраўнікам прымаць лепшыя рашэнні і размяркоўваць рэсурсы для павелічэння прыбытку. Большасць навукоўцаў можа нават не выкарыстоўваць Hadoop, калі яны не звязаныя з вялікімі дадзенымі. Звычайна яны выкарыстоўваюць R lang або Python для сваіх разлікаў.

Вялікія дадзеныя - гэта паняцце. Hadoop - гэта інструмент. Навука дадзеных - гэта поле інфарматыкі.


адказ 3:

Я мяркую, вы думалі, што "Science Science" і "Big Data Hadoop" - гэта розныя рэчы, але на самой справе тры. Навука дадзеных, вялікія дадзеныя і Hadoop маюць розныя значэнні.

Дапусцім, вы вучань 10 класа. Вам прадастаўлена задача параўноўваць адзнакі, атрыманыя вашымі аднакласнікамі па кожным прадмеце. У вас у класе 50 вучняў, кожны вывучае 5 прадметаў. Пошук сярэдняга не з'яўляецца ракетнай навукай, таму рабіце ўсё ў адным лісце Excel. Цяпер ваш настаўнік папросіць зрабіць аднолькавы разлік для ўсіх раздзелаў A, B і C прыблізна 150 вучняў. Табліцу Excel зноў дастаткова. Цяпер вы хочаце ведаць, якія сярэднія ацэнкі прыродазнаўства для вучняў 10-га класа па ўсёй краіне. Гэта прыкладна 14,31,861 студэнта ў 2016 г. Вы, магчыма, не зможаце захаваць столькі дадзеных на адным лісце Excel, каб вы захавалі яго ў базе дадзеных, напрыклад MySQL або Oracle. Вы запускаеце запыт SQL, каб знайсці сярэдняе значэнне. Цяпер вам цікава паглядзець, як сярэднія паказчыкі па навуцы для 10 класа рухаюцца на працягу 20 гадоў, што адпавядае прыблізна 3000000 запісаў. Калі вы знайшлі ў сярэднім усе 5 прадметаў, а не толькі навуку, вы апрацавалі б 30 000 000 х 5 запісаў. Зараз дадзеныя вялікія, якія таксама вядомыя як "вялікія дадзеныя".

Вялікія дадзеныя - надзвычай вялікая колькасць дадзеных, якія можна прааналізаваць матэматычна, каб выявіць заканамернасці, тэндэнцыі і асацыяцыі, асабліва ў дачыненні да паводзін чалавека і ўзаемадзеянняў. - З Вікіпедыі

Магчыма, вы не павінны захоўваць так шмат дадзеных у MySQL ці Oracle і не запускаць запыт SQL на мільёны запісаў. Я ніколі не апрацоўваў так шмат дадзеных у базе дадзеных SQL, таму не стаў каментаваць яго прадукцыйнасць, але я выкарыстаў Hadoop для апрацоўкі вялікай колькасці запісаў, значна большых за базу дадзеных студэнтаў, пра якую мы гаворым. Hadoop - гэта аснова, якая распаўсюджвае дадзеныя ў некалькі сістэм, каб усе сістэмы маглі паралельна разлічваць, што павялічвае агульную хуткасць вылічэння, званую таксама размеркаванымі вылічэннямі. Hadoop мае ўласную файлавую сістэму, якая ўяўляе сабой сістэму захоўвання дадзеных для вялікіх дадзеных.

Навука дадзеных у простых словах - гэта навука разумення таго, што трэба рабіць з вялікімі ці малымі дадзенымі. Пакуль мы толькі спрабавалі ацаніць балы, але вучоны па дадзеных таксама разгледзеў спосабы высветліць, чаго можна дасягнуць з сярэднім. Для арганізацыі ён дапамагае ім прымаць бізнес-рашэнні і знаходзіць шаблоны, якія дапамагаюць кіраўнікам прымаць лепшыя рашэнні і размяркоўваць рэсурсы для павелічэння прыбытку. Большасць навукоўцаў можа нават не выкарыстоўваць Hadoop, калі яны не звязаныя з вялікімі дадзенымі. Звычайна яны выкарыстоўваюць R lang або Python для сваіх разлікаў.

Вялікія дадзеныя - гэта паняцце. Hadoop - гэта інструмент. Навука дадзеных - гэта поле інфарматыкі.