Základy data science

Vyučujúci

Zaradený v študijných programoch

Výsledky vzdelávania

Vedomosti a kompetencie:
Po absolvovaní predmetu je študent schopný logicky uchopiť proces získavania, spracovania a využitia dát. Predmet ponúka študentovi možnosť osvojiť si základné koncepty a techniky efektívnej práce s dátami a ich analýzy. Študent pochopí ako konceptuálne pristupovať k získavaniu znalosti z komplexných, viac-rozmerných dát a nadobudne intuíciu aké otázky je schopný zodpovedať hĺbkovou analýzou. Dôraz je kladený na predspracovanie, prieskumnú analýzu (EDA) a jasnú vizualizáciu dát.
Zručnosti:
V procese výučby sa študent stretne primárne s dvoma programovacími jazykmi PostgreSQL a Python a inými nástrojmi na vizualizáciu.

Stručná osnova predmetu

1. Úvod do problematiky dát a práce s nimi - „veľké dáta“, viac-rozmerné dáta, štruktúrované a neštruktúrované dáta, Diskusia na tému dát v praxi.
2. Skladovanie dát v relačných databázach - samostatná tvorba tabuliek s PostgreSQL a pochopenie dátových typov, jednoduché dopytovanie jedného a/alebo viacerých stĺpcov z SQL tabuľky, použitie aliasov a zložené dopyty, filtrácia riadov pomocou WHERE a logických operátorov
3. Spájanie a agregovanie dát v relačných databázach - praktické uchopenie konceptu vlastného a cudzieho kľúča, zoradenie a zoskupenie dát a využitie HAVING , JOIN na spájanie tabuliek praktizáciou INNER, LEFT a RIGHT spojení. Využitie UNION.
4. Vnorené dopytovanie dát v relačných databázach - vnorené dopyty v SELECT, FROM a WHERE klauzulách a aritmetické operácia vnorenými dopytmi.
5. Reportovanie a prieskumná analýza (EDA) v relačných databázach - praktické aplikovanie nadobudnutých vedomosti z PostgreSQL v snahe realizovať prieskumnú analýzu (EDA), komplexné kalkulácie
6. Skriptovací jazyk Python a jeho ekosystém - vývoj Python skriptov v základných integrovaných programátorských prostrediach, definícia premennej, základné príkazy v Pythone, práca so vstupom od užívateľa, logické operácie, základná aritmetika a formátovanie reťazca, kontrolovaný tok kódu pomocou podmienok
7. Základy programovania v Pythone - práca s dátovými skladmi a využitie preddefinovaných metód a funkcií na ich manipuláciu, cykly s kontrolovaným behom a využitím kľúčových slov, optimalizácia cyklov
8. Úvod do dátovej vedy (data science) -práca s objektmi knižnice a princíp vektorizácie v snahe optimalizovať výkon, precvičenie aritmetických operácií v NumPy.
9. Dátová veda s vyžitím Pandas - pochopenie základných objektov v Pandas a ich špecifiká, dopytovanie hodnôt (loc, iloc) a zvládanie problémov v dátach – chýbajúce hodnoty, extrémne hodnoty, dopočítavanie nových hodnôt a podmienené operácie s údajmi, prepojenie externých zdrojov dát a Pythonu
10. Dátová veda s vyžitím Pandas II. - funkcie zoskupenia a zoradenia dát s využitím jednej/viacerých preddefinovaných agregačných funkcií a tvorba vlastných, prepájanie tabuliek v Pandas, pochopenie multiindexingu.
11. Vizualizácia dát v Pythone - vizualizácia vzťahovou pomocou rôznych grafovvyužitím knižníc a interaktívne grafy, úprava parametrov grafu a grafiky, spojené vizuály (subplots).
12. Získavanie údajov - pripojenie sa na API knižnicou requests, interakcia s aplikačným rozhraním a formátovanie získaných údajov, extrakcia dát z webu knižnicou beautifulsoup, formátovanie získaných html dát, tvorba Spider aplikácie určenej komplexne prehľadanie webovej stránky.
13. Aplikácia nadobudnutých vedomostí – Ekonomická analýza - komplexne využitie prednášaných konceptov pri súhrnnej analýze.

Odporúčaná literatúra

- VANDERPLAS, J. Python Data Science Handbook: Essential Tools for Working with Data. O’Reilly Media, 2016. 541 s. ISBN 978-1-4919-1205-8.
- MOLINARO, A. SQL Cookbook: Query Solutions and Techniques for All SQL Users 2nd Edition, Kindle Edition. O’Reilly Media, 2020. 806 p. ASIN: B08P3XYBM1
- LUTZ, M. Learning Python, 5th Edition. O’Reilly Media, 2016. 1648 s. ISBN 978-1-4493-5573-9.
- NELSON, D. Data Visualization in Python. Kindle Edition, 2020. 405 s. ASIN: B08QVJJFG8.

Podmienky na absolvovanie predmetu

20% - priebežné hodnotenie vo forme zápočtovej skúšky
20% - vypracovanie projektu
60% - záverečná skúška

Pracovné zaťaženie študenta

- účasť na prednáškach 26 hodín
- účasť na seminároch 26 hodín
- príprava na zápočtovú písomku 26 hodín
- spracovanie semestrálneho projektu 26 hodín
- príprava na skúšku 52 hodín

Jazyk, ktorého znalosť je potrebná na absolvovanie predmetu

slovenský, anglický

Dátum schválenia: 09.02.2023

Dátum poslednej zmeny: 28.12.2021

Dátum schválenia: 09.02.2023

Dátum poslednej zmeny: 28.12.2021