Data Science v jazyku R

Vyučujúci

Zaradený v študijných programoch

Výsledky vzdelávania

Študenti nadobudnú v prípade úspešného zvládnutia predmetu najmä nasledovné vedomosti:
- základné vedomosti o spracovaní a vizualizácii dát v R,
- základné vedomosti v oblasti programovania v R,
- základné vedomosti o tvorbe projektov v R,
- základné vedomosti o možnostiach práce s veľkými databázami pomocou využitia programu R.
Študenti nadobudnú v prípade úspešného zvládnutia predmetu najmä nasledovné zručnosti:
- schopnosť využívať základné nástroje k spracovaniu, vizualizácii a analýze dát v R,
- ovládanie programu R a RStudia.

Študenti nadobudnú v prípade úspešného zvládnutia predmetu najmä nasledovné kompetencie:
- praktické zručnosti a kompetencie s aplikáciou metód slúžiacich ku analýze dát a riešenia ekonomických, ale aj iných problémov.

Stručná osnova predmetu

Cieľom tohto predmetu je poskytnúť vedomosti v oblasti analýzy dát v softvéri R a nástrojov na ich aplikáciu pri riešení konkrétnych empirických problémov. Dôraz sa kladie na problematiku spracovania, selekcie, modelovania a vizualizácie dát. Tento kurz tiež obsahuje základné informácie o možnostiach práce s veľkými databázami využitím programu R.
1. Matematické operácie v R, logické operátory a operátory porovnávania, typy dát v R, definovanie premenných a vektorov, indexovanie vektorov a operácie s vektormi, zoznamy.
2. Tvorba matíc, operácie s maticami, indexovanie matíc, tvorba tabuľkových štruktúr pomocou dátových rámcov (data frames), selekcia a indexovanie dátových rámcov a operácie s dátovými rámcami, import a export dát.
3. Základy programovania v R, podmienka if else, funkcia ifelse, využitie cyklov – for, while, tvorba vlastných funkcií.
4. Základné informácie o skupine knižníc tidyverse určenej k importovaniu, manipulácii dát, modelovaniu a vizualizácii dát (knižnice ako napr. readr, tibble, tidyr, dplyr, ggplot2, forcat, modelr…).
5. Manipulácia s dátami, využitie knižnice dplyr, výber premenných, filtrovanie premenných, výpočet sumárných štatistík, pipe operátor (%>%).
6. Príprava a čistenie dát k dátovej analýze (knižnica tidyr), zoskupenie dát podľa konkrétnych premenných, práca s kategorickými dátami, práca s časovými formátmi.
7. Práca s tabuľkovými štruktúrami (knižnica tibble), práca s relačnými dátami, spájanie dát z viacerých tabuliek na základe kľúčov, filtrovanie využitím viacerých tabuliek.
8. Využitie knižnice ggplot2 k tvorbe rôznych typov grafov (stĺpcový graf, koláčový graf, čiarový graf, histogram, bodový graf, Boxplot…) a nastavenie vybraných parametrov jednotlivých grafov.
9. Práca s nástrojom Markdown R slúžiacemu k spájaniu textu, kódu a výsledkov.
10. Pripojenie a práca s databázou SQL pomocou knižnice dbplyr. Práca s veľkými databázami a pripojenie k iným typom databáz (knižnica dtplyr, data.table).
11. Formulácia a zodpovedanie výskumnej otázky pomocou konštrukcie regresného modelu a jeho testovania (knižnice tidymodels, modelr).
12. Úvod do strojového učenia, prehľad možností využitia strojového učenia v R, aplikácia strojového učenia s využitím regresie.
13. Základné informácie o možnostiach extrakcii dát z webu (knižnice import.io, rvest…).

Odporúčaná literatúra

1. H. Wickham – G. Grolemund (2017). R for Data Science – visualize, model, transform, tidy and import data. https://r4ds.had.co.nz/index.html
2. J. Bryan – STAT545. https://stat545.com/
3. P. L. de Micheaux, R. Drouilhet, B. Liquet (2013). The R Software – Fundamentals of Programming and Statistical Analysis, Springer.

Podmienky na absolvovanie predmetu

10 % aktívna účasť
20% testy
70 % semestrálny projekt + záverečná skúška

Pracovné zaťaženie študenta

Celkové: pracovná záťaž 6 kreditov x 26 h = 156 h.
Samostatne zaťaženie pre jednotlivé vzdelávacie činnosti:
Účasť na seminároch: 26 hodín
Účasť na prednáškach: 26 hodín
príprava na semináre: 13 hodín
príprava na testy: 13 hodín
Spracovanie semestrálneho projektu: 52 hodín
Príprava na skúšku: 26 hodín

Jazyk, ktorého znalosť je potrebná na absolvovanie predmetu

Slovenský

Dátum schválenia: 11.03.2024

Dátum poslednej zmeny: 16.05.2022

Dátum schválenia: 11.03.2024

Dátum poslednej zmeny: 16.05.2022