Big data

Vyučujúci

Zaradený v študijných programoch

Výsledky vzdelávania

Po absolvovaní predmetu, by mali byť študenti schopní:
A. definovať základné koncepty riadenia a analýzy big data,
B. rozpoznať výzvy, ktorým organizácie čelia v súvislosti s big data
C. porozumieť big data ako ovplyvňujú podnikanie, vedecký pokrok a náš každodenný život.
D. schopnosť navrhovať škálovateľné riešenia pre organizácie rôznych typov
E. Analyzovať a riešiť problémy súvisiace so spracovaním a používaním big data koncepčne aj prakticky pre rôzne odvetvia, ako sú štátne organizácie, výroba, maloobchod, vzdelávanie, bankovníctvo / financie, zdravotníctvo a farmaceutický priemysel a ďalšie.

Stručná osnova predmetu

1. Úvod do problému big data.
2. Aktuálne výzvy, trendy a aplikácie big data
3. Dátové typy a dátové formáty big data.
4. Úvod do Hadoop, fungovanie Hadoop
5. Ekosystému Hadoop
6. Princípy HDFS
7. Technológie pre správu big data
8. YARN, HBase, Hive, Pig
9. Základné princípy a spracovanie údajov s MapReduce
10. Princípy HBase
11. Technológie pre správu big data
12. Algoritmy na analýzu big data
13. Perspektíva aplikácie big data a problémy s implementáciou big data

Odporúčaná literatúra

1. Hendl, J.:Big data - Věda o datech, základy a aplikace (česky), Grada 2021
2. Holubová I., Kosek j., Minařík k., Novák D.: Big Data a NoSQL databáze. Grada, 2015, ISBN 9788024754666
3. Matthew J. Salganik. (2017). Bit by Bit: Social Research in the Digital Age. Princeton University Press.
4. Cathy O’Neil. (2016). Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy. Penguin Books.
5. Rob Kitchin. (2014). The Data Revolution: Big Data, Open Data, Data Infrastructures and Their Consequences. SAGE Publications
6. Lockwood, Glenn. (2014). Conceptual Overview of Map-Reduce and Hadoop. Blog Post (http://www.glennklockwood.com/data-intensive/hadoop/overview.html)
7. Lazer, David, Ryan Kennedy, Gary King, and Alessandro Vespignani. (2014). The Parable of Google Flu: Traps in Big Data Analysis. Science 343(6176): 1203-1205.
8. Lazer, David. (2015). The Rise of the Social Algorithm. Science 348(6239): 1090-1091.
9. Anand Rajaraman and Jeffrey David Ullman (2011) Mining of Massive Datasets ISBN-10: 1107015359
ISBN-13: 978-1107015357
10. Murugesan, San; Bojanova, Irena, (2016) Encyclopedia of cloud computing. Wiley-IEEE Press. ISBN: 9781118821954

Sylabus predmetu

V rámci predmetu bude obsah zameraný na nasledujúce tri oblasti: • Úvod do problému rozsiahlych súborov údajov. Súčasné výzvy, trendy a aplikácie. Zahŕňa tiež také témy ako história veľkých údajov, ich prvky, typy, výhody, nevýhody a pod. Definícia rozsiahlych súborov údajov, podnikové / štruktúrované dáta, sociálne / neštruktúrované dáta, neštruktúrované dáta pre analytické služby, čo sú rozsiahle súbory údajov, zdroje rozsiahlych súborov údajov, odvetvia využívajúce rozsiahle súbory údajov, výzvy, ktorým čelíme v oblasti rozsiahlych súborov údajov. Využívanie rozsiahlych súborov údajov v podnikoch a podnikaní. Perspektíva aplikácií Big Data, ktorá pokrýva témy, ako napríklad využitie rozsiahlych súborov údajov v oblasti marketingu, analytík, maloobchodu, zdravotnej starostlivosti, spotrebného tovaru, obrany, štátnej a verejnej správy atď. • Algoritmy pre analýzu rozsiahlych súborov údajov. Algoritmy dolovania poznatkov a UI, ktoré boli vyvinuté špeciálne na riešenie problémov spracovania veľkých súborov údajov. Algoritmy na dolovanie dát pre rozsiahle množiny údajov a streamovaných dátových tokov. • Technológie pre správu veľkých súborov údajov. Big Data technológie a nástroje, s osobitným dôrazom na paradigma Map-Reduce a ekosystém Hadoop. Táto oblasť pokrýva také témy ako úvod do Hadoop, fungovanie Hadoop, Cloud computing (funkcie, výhody, aplikácie). Pochopenie ekosystému Hadoop a jeho ekosystém, ktorý zahŕňa HDFS, MapReduce, YARN, HBase, Hive, Pig, Sqoop, Zookeeper, Flume, Oozie atď. Základy MapReduce a HBase kladie dôraz na vytvorenie jednoduchého mapreduce rámca a koncepcií, ktoré sa naň uplatňujú. Táto oblasť tiež pokrýva zásobník rozsiahlych súborov údajov, t.j. vrstvu zdroja údajov, vrstvu pre príjem, zdrojovú vrstvu, bezpečnostnú vrstvu, vizualizačnú vrstvu, vizualizačné prístupy atď. Táto oblasť tiež pokrýva informácie o NoSQL systémoch riadenia dát, vrátane databáz dokumentov, vzťahov, databáz grafov, databáz bez schém a pod.

Podmienky na absolvovanie predmetu

Cvičenia 40% Náplňou cvičení je vypracovanie a obhájenie projektov, na ktorom študenti pracujú na cvičeniach počas semestra. Každý odovzdaný projekt sa hodnotí samostatne a študent musí dosiahnuť aspoň 51% úspešnosť po zosumarizovaní výsledkov. Overuje sadosiahnutá úroveň výsledkov vzdelávania D., E.
Skúška 60% hodnotenia. Skúška pozostáva z dvoch častí: testu a konkrétnej problémovej úlohy na riešenie. Testom sa overuje dosiahnutá úroveň výsledkov vzdelávania A.,B., C.

Pracovné zaťaženie študenta

Celková záťaž štúdia (v hodinách): 6 kreditov x 26 hodín = 156 hodín
Rozdelenie študijného zaťaženia:
Účasť na prednáškach a seminároch: 52 hodín
Príprava na semináre: 13 hodín
Písomné úlohy: 31 hodín
Príprava na záverečnú skúšku: 60 hodín

Jazyk, ktorého znalosť je potrebná na absolvovanie predmetu

slovenský

Dátum schválenia: 11.03.2024

Dátum poslednej zmeny: 18.05.2022

Dátum schválenia: 11.03.2024

Dátum poslednej zmeny: 18.05.2022