Деректер туралы ғылым және Big Data Hadoop бірдей ме? Олардың арасында айырмашылық бар ма немесе екеуі де бірдей нәрсені білдіре ме?


жауап 1:

Жоқ, сөз жоқ.

Бұл мәселені үш бөлікке бөлейік:

Дата ғылымы - статистика, комбинаторика, математика және информатика және т.б. әртүрлі әдістермен әртүрлі мәселелерді шешуге мамандану.

Үлкен деректер: Үлкен деректер кең мағынада дәстүрлі әдістерден тыс үлкен көлемдегі мәліметтермен («үлкен салыстырмалы» ұғымы) жұмыс істейтін ұғым болып табылады.

Hadoop: Hadoop - бұл әртүрлі құралдармен (PIG, HIVE, Scoop, Fume, т.б.) көптеген деректерді басқаруға және талдауға болатын жақтау немесе орта.

Әдебиеттер:

Hadoop оқулығы

Деректер туралы ғылым

Үлкен деректер


жауап 2:

Менің ойымша, сіз «Дата туралы ғылым» мен «Үлкен деректер Hadoop» екі түрлі нәрсе деп ойладыңыз, бірақ үшеуі бар. Деректер туралы ғылым, үлкен деректер және Hadoop әртүрлі мағынаға ие.

Сіз 10-сынып оқушысысыз делік. Сізге әр пән бойынша сыныптастарының алған бағаларының орташа мәні туралы тапсырма берілді. Сіздің сыныбыңызда 50 оқушы бар, әрқайсысы 5 пәнді оқиды. Орташа мәнді табу зымыран туралы ғылым емес, сондықтан бәрін бір Excel парағында жасаңыз. Енді мұғалім сізден шамамен 150 оқушыдан тұратын барлық А, В және С секциялары үшін бірдей есептеуді сұрайды. Excel кестесі қайтадан жеткілікті. Енді сіз бүкіл республика бойынша 10-сынып оқушыларына арналған орташа ғылыми бағалар деген не екенін білгіңіз келеді. Бұл 2016 жылы шамамен 14,381,861 студент. Сіз бұл мәліметтерді бір Excel парағында сақтай алмауыңыз мүмкін, сондықтан оны MySQL немесе Oracle сияқты дерекқорда сақтай аласыз. Орташа мәнді табу үшін SQL сұрауын іске қосасыз. Енді сіз 10-сыныптағы ғылымдағы орташа көрсеткіштердің 20 жыл ішінде қалай өзгергенін білгіңіз келеді, бұл шамамен 3000000 жазбаларға сәйкес келеді. Егер сіз тек ғылым емес, барлық 5 пәннің орташа мәнін тапсаңыз, сіз 30,000,000 x 5 жазбаларын өңдейсіз. Қазір деректер үлкен, оны «үлкен деректер» деп те атайды.

Үлкен деректер - заңдылықтарды, тенденциялар мен ассоциацияларды, әсіресе адамның мінез-құлқы мен өзара әрекеттесуіне қатысты математикалық түрде талданатын өте үлкен мәліметтер. - Википедиядан

Сіз бұл деректерді MySQL немесе Oracle-да сақтамауыңыз керек және SQL сұрауыңызды миллиондаған жазбаларда іске қосуға болмайды. Мен ешқашан SQL дерекқорында онша көп деректерді өңдемегенмін, сондықтан оның жұмысына түсініктеме бермеймін, бірақ мен Hadoop-ті біз айтып отырған студенттік мәліметтер базасынан әлдеқайда үлкен болатын жазбаларды өңдеуде қолдандым. Hadoop - бұл барлық жүйелер параллель есептей алатындай етіп мәліметтерді бірнеше жүйелерге тарататын, бұл есептеудің жалпы жылдамдығын арттыратын, сонымен бірге таратылған есептеу деп аталатын негіз. Hadoop-тың жеке файлдық жүйесі бар, ол үлкен деректерді сақтау жүйесі болып табылады.

Лайман терминдеріндегі мәліметтер туралы ғылым - үлкен немесе кіші деректермен не істеу керектігін түсіну туралы ғылым. Осы уақытқа дейін біз тек ұпайларды ортаға салуға тырыстық, бірақ деректерді зерттеуші ғалым орташа деңгейге жету жолын табудың жолдарын қарастырды. Ұйым үшін ол бизнес-шешімдер қабылдауға және менеджерлерге тиімді шешімдер қабылдауға және пайданы ұлғайту үшін ресурстар бөлуге көмектесетін үлгіні табуға көмектеседі. Деректерді зерттеушілердің көпшілігі егер олар үлкен мәліметтерге алаңдамаса, Hadoop бағдарламасын да қолданбауы мүмкін. Олар әдетте есептеулер үшін R lang немесе Python пайдаланады.

Үлкен деректер - бұл ұғым. Hadoop - бұл құрал. Деректер туралы ғылым - информатика саласы.


жауап 3:

Менің ойымша, сіз «Дата туралы ғылым» мен «Үлкен деректер Hadoop» екі түрлі нәрсе деп ойладыңыз, бірақ үшеуі бар. Деректер туралы ғылым, үлкен деректер және Hadoop әртүрлі мағынаға ие.

Сіз 10-сынып оқушысысыз делік. Сізге әр пән бойынша сыныптастарының алған бағаларының орташа мәні туралы тапсырма берілді. Сіздің сыныбыңызда 50 оқушы бар, әрқайсысы 5 пәнді оқиды. Орташа мәнді табу зымыран туралы ғылым емес, сондықтан бәрін бір Excel парағында жасаңыз. Енді мұғалім сізден шамамен 150 оқушыдан тұратын барлық А, В және С секциялары үшін бірдей есептеуді сұрайды. Excel кестесі қайтадан жеткілікті. Енді сіз бүкіл республика бойынша 10-сынып оқушыларына арналған орташа ғылыми бағалар деген не екенін білгіңіз келеді. Бұл 2016 жылы шамамен 14,381,861 студент. Сіз бұл мәліметтерді бір Excel парағында сақтай алмауыңыз мүмкін, сондықтан оны MySQL немесе Oracle сияқты дерекқорда сақтай аласыз. Орташа мәнді табу үшін SQL сұрауын іске қосасыз. Енді сіз 10-сыныптағы ғылымдағы орташа көрсеткіштердің 20 жыл ішінде қалай өзгергенін білгіңіз келеді, бұл шамамен 3000000 жазбаларға сәйкес келеді. Егер сіз тек ғылым емес, барлық 5 пәннің орташа мәнін тапсаңыз, сіз 30,000,000 x 5 жазбаларын өңдейсіз. Қазір деректер үлкен, оны «үлкен деректер» деп те атайды.

Үлкен деректер - заңдылықтарды, тенденциялар мен ассоциацияларды, әсіресе адамның мінез-құлқы мен өзара әрекеттесуіне қатысты математикалық түрде талданатын өте үлкен мәліметтер. - Википедиядан

Сіз бұл деректерді MySQL немесе Oracle-да сақтамауыңыз керек және SQL сұрауыңызды миллиондаған жазбаларда іске қосуға болмайды. Мен ешқашан SQL дерекқорында онша көп деректерді өңдемегенмін, сондықтан оның жұмысына түсініктеме бермеймін, бірақ мен Hadoop-ті біз айтып отырған студенттік мәліметтер базасынан әлдеқайда үлкен болатын жазбаларды өңдеуде қолдандым. Hadoop - бұл барлық жүйелер параллель есептей алатындай етіп мәліметтерді бірнеше жүйелерге тарататын, бұл есептеудің жалпы жылдамдығын арттыратын, сонымен бірге таратылған есептеу деп аталатын негіз. Hadoop-тың жеке файлдық жүйесі бар, ол үлкен деректерді сақтау жүйесі болып табылады.

Лайман терминдеріндегі мәліметтер туралы ғылым - үлкен немесе кіші деректермен не істеу керектігін түсіну туралы ғылым. Осы уақытқа дейін біз тек ұпайларды ортаға салуға тырыстық, бірақ деректерді зерттеуші ғалым орташа деңгейге жету жолын табудың жолдарын қарастырды. Ұйым үшін ол бизнес-шешімдер қабылдауға және менеджерлерге тиімді шешімдер қабылдауға және пайданы ұлғайту үшін ресурстар бөлуге көмектесетін үлгіні табуға көмектеседі. Деректерді зерттеушілердің көпшілігі егер олар үлкен мәліметтерге алаңдамаса, Hadoop бағдарламасын да қолданбауы мүмкін. Олар әдетте есептеулер үшін R lang немесе Python пайдаланады.

Үлкен деректер - бұл ұғым. Hadoop - бұл құрал. Деректер туралы ғылым - информатика саласы.