Ak niektoré z týchto pokynov predstavujú pre váš projekt problém, konzultujte možné riešenia s vyučujúcimi.

Ciele projektu

Projekt je kľúčovou časťou predmetu

  • Na rozdiel od zadaní, kde máte presne danú úlohu a často aj rady k postupu, pri projekte si precvičíte samostatnejšiu prácu na analýze dát, kde si budete vymýšľať ciele aj postupy ako ich splniť.
  • Budete ale pracovať v skupinách, takže sa môžete učiť aj jeden od druhého.
  • Precvičíte si aj ďalšie aspekty práce v tímoch, ako komunikácia a koordinácia, tvorba dokumentácie a podobne.
  • Dôležitým aspektom projektu je aj komunikácia výsledkov vo forme prezentácie aj vo forme písomnej správy a technického dokumentu (notebooku), čo sú tiež dôležité zručnosti.
  • Váš pokrok na projekte budú monitorovať cvičiaci, ktorí vám radi poradia v prípade problémov.

Témy projektov

Nižšie ponúkame štyri témy projektov. Môžete si vybrať jednu z nich, alebo navrhnúť vlastnú. K témam sú uvedené otázky, ktoré môžete skúmať. Sú to len námety, nemusíte skúmať všetky a môžete si vymyslieť aj iné. Spojenie dát z uvedených stránok s ďalšími zdrojmi dát je veľmi vítané, ale zamerajte sa primárne na uvedené tabuľky.

Migrácia

Eurostat zverejňuje údaje o obyvateľoch jednotlivých krajín EU podľa ich občianstva. Toto zahŕňa imigrantov z mimoeurópskych krajín, ale tiež presúvanie obyvateľov medzi jednotlivými krajinami EÚ. Vidíte nejaké zmeny trendov? Ktoré krajiny sa správajú podobne vzhľadom na imigráciu a emigráciu? Ako sa porovná Slovensko so susednými krajinami? Ako závisí počet migrujúcich ľudí od ekonomickej situácie v pôvodnej a cieľovej krajine? Závisí počet migrujúcich od vzdialeností krajín? Ako sa v dátach prejavila vojna na Ukrajine, prípadne iné udalosti? Na stránke s dátami nájdete linku Download data ako aj popis dát v časti Access metadata.

Voľby

V roku 2022 sa na Slovensku uskutočnili komunálne voľby, kde občania volili poslancov miestnych zastupiteľstiev, starostov a primátorov. Vo voľbách kandidovali desaťtisíce ľudí. K dispozícii sú zoznamy kandidátov aj výsledky volieb. Pre jednotlivých kandidátov poznáme ich meno a priezvisko, vek aj zamestnanie. Viete nájsť nejaké zaujímavé trendy v týchto údajoch v rôznych regiónoch Slovenska alebo v závislosti od veľkosti obce a podobne? Ktoré krstné mená sú časté? Aký je typický vek kandidáta? Čo sú časté zamestnania? Ako sa tieto vlastnosti líšia medzi úspešnými a neúspešnými kandidátmi? Výsledky sa dajú prípadne porovnať aj so staršími komunálnymi voľbami. Na stránke s dátami nájdete zoznam kandidátov v tabuľke OSO2022_SK_tab0bd, k tomu môžete pridať aj tabuľky pre starostov, špeciálne tabuľky pre Bratislavu a Košice, číselník kódov obcí OSO2022_SK_tab0dd, výsledky volieb atď.

Psy

Fínski vedci vykonali rozsiahly dotazníkový prieskum u chovateľov psov, ktorých sa pýtali na rôzne aspeky správania ich psa. Výsledky a ich analýzu publikovali v roku 2023 (článok) a k dispozícii sú aj ich dáta. Skúste spraviť vlastnú analýzu týchto dát a hľadať súvislosti medzi rôznymi vlastnosťami jednotlivých psov. V článku autori používajú zložitejšie štatistické modely, vy sa zamerajte skôr na priamočiarejšie spracovanie dát a ich vizualizáciu, aby ste rozumeli použitým metódam. Ak to bude relevantné, môžete porovnať vaše pozorovania s tými v článku.

Evolúcia

Proteíny sú reťazce aminokyselín, ktoré vykonávajú v bunkách veľa kľúčových funkcií. Počas evolúcie sa proteíny menia kvôli mutáciám v DNA, ale napriek tomu vieme ľudským proteínom často nájsť náprotivky v iných organizmoch a skúmať ako sa jednotlivé proteíny menia počas evolúcie. Základné dáta v tomto projekte sú tabuľky, ktoré pre cca 13 tisíc ľudských proteínov udávajú mieru ako veľmi sa líšia od proteínov v 5 iných cicavcoch. Cieľom bude preskúmať trendy v týchto dátach a ich súvislosti s ďalšími zdrojmi dát o proteínoch. Dáta a ďalšie podrobnosti nájdete na zvláštnej stránke. Téma je vhodná pre BIN aj DAV študentov.

Fázy projektu

  • Vytvorenie skupín: Dohodnite sa na skupinách veľkosti 4-5 do pondelka 24.3. 13:00. Jeden člen skupiny uvedie členov skupiny a názov skupiny do tabuľky zverejnenej v Moodli. Názov by mal byť krátky a ľahko zapamätateľný, môže to byť napríklad skratka obsahujúca prvé písmená vašich mien. Nezaradení študenti budú rozdelení do skupín vyučujúcimi.
  • Voľba témy: Každá skupina si zvolí tému najneskôr do utorka 25.3. 16:20. Jeden člen skupiny zapíše názov témy do tabuľky so skupinami. Najviac 4 skupiny môžu robiť tú istú tému, takže ak si už 4 iné skupiny vybrali a zapísali vašu najobľúbenejšiu tému, musíte si zvoliť inú (preto zapisujte tému čím skôr). Ak chcete navrhnúť vlastnú tému, musíte stručný popis témy a dostupných dát poslať emailom B. Brejovej najneskôr do pondelka 24.3., čím skôr vám potom dáme vedieť, či je téma vhodná.
  • Organizácia skupiny: Dohodnite sa, ako budete v skupine komunikovať, rozdeľovať úlohy, zdieľať súbory a podobne. Založte si denník a linku, ktorá umožňuje do denníku vkladať komentáre, zapíšte do príslušnej úlohy v Moodle (budeme vám tam zapisovať priebežné hodnotenie).
  • Priebežná kontrola: Na každom cvičení od 1.4. do 6.5. sa uskutoční krátke stretnutie skupiny s vyučujúcimi ohľadom pokroku na projekte. Bližšie detaily viď nižšie. Skupinové zadania už po 25.3. nebudú, zvyšok času cvičení odporúčame prácu na projekte.
  • Prvé kroky: Sťahovanie dát, ich úprava do vhodného formátu, zisťovanie základných charakteristík, opravovanie alebo odstraňovanie nesprávnych položiek. Na cvičení 1.4. by ste mali už mať tieto činnosti rozbehnuté alebo hotové.
  • Ďalšie etapy: Stanovte si otázku, ktorá by sa vo vašich dátach dala analyzovať a pokúste sa ju odpovedať vhodnými grafmi a tabuľkami. Snažte sa nájsť čo najvhodnejšiu vizualizáciu a preskúmať trendy alebo ich výnimky, ktoré nájdete. Postupne preskúmajte niekoľko takých otázok. Jednotliví členovia skupiny alebo podskupinky môžu paralelne pracovať na rôznych otázkach. Postupne zostavujte aj materiály, ktoré budete odovzdávať.
  • Prezentácie projektov: Prezentácie budú v týždni 12.-18.5. semestra počas prednášky a cvičení alebo v inom dohodnutom čase.
  • Odovzdanie projektu: Termín je v pondelok 19.5. 22:00.

Kontrolné stretnutia

  • Na každom cvičení od 1.4. do 6.5. sa uskutoční stretnutie skupiny s vyučujúcimi ohľadom pokroku na projekte.
  • Skupina má v denníku nachystané stručné poznámky ohľadom aktuálneho stavu (kto čo spravil, aké sú ďalšie plány a či sú prípadne nejaké problémy).
  • Na začiatku stretnutia otvorte túto časť denníka a veľmi stručne ju odreferujte. Môže referovať jeden alebo viacerí členovia skupiny.
  • Nasleduje diskusia s vyučujúcimi.
  • Majte prichystané aj ďalšie súbory, aby ste vedeli rýchlo ukázať dokončené alebo rozrobené vizualizácie a tabuľky.
  • Na stretnutie buďte pripravení, aby sme nestrácali čas čakaním, kým nájdete a otvoríte príslušné súbory.
  • Cieľom stretnutia je monitorovať a hodnotiť stupeň vášho pokroku, motivovať vás k priebežnej práci na projekte ale hlavne poradiť vám v prípade problémov.

Technické pokyny

  • Projekt by mal byť v jazyku Python, spustiteľný v prostredí Colab a pracujúci prevažne s knižnicami preberanými na prednáške, hoci v menšej miere môžete použiť aj iné.
  • Spravte si svoju kópiu spracovávaných dát, aby vás neohrozilo, ak dáta zo zdrojovej stránky zmiznú alebo sa zmenia. Ak dáta vyžadujú rozsiahle predspracovanie, uložte si aj predspracované dáta a ďalej robte s nimi.
  • Dáta sa vám budú dobre načítavať, ak si ich dáte na web, napríklad na fakultný server daVinci (návod) alebo na GitHub.
  • Do dát robte čo najmenej manuálnych zásahov.
  • Opakujúce sa časti kódu presuňte do funkcií, ktoré viackrát použijete s rôznymi parametrami. Takisto zložitejšie výpočty je vhodné presunúť do funkcie. Nie je ideálne, ak viacerí členovia skupiny píšu podobný kód a ten aj zostane vo výslednom projekte. Mali by ste spolu komunikovať a takýmto duplicitám predísť alebo ich odstrániť.
  • Colab nefuguje ideálne, ak naraz ten istý notebook edituje viacero používateľov, môže vtedy dochádzať k strate dát. Môžete skúsiť použiť inú platformu alebo pracujte na svojich dočasných kópiách notebooku a hotové časti kódu presúvajte do spoločného notebooku na Colabe.

Používanie zdrojov

  • Ukladajte si použité zdroje (webstránky, články, knihy a pod.) a citujte ich vo výslednom projekte. Môžete sa inšpirovať existujúcimi analýzami vašich dát a replikovať alebo rozšíriť tieto analýzy, je však potrebné priznať zdroje svojej inšpirácie. Takisto jasne vyznačte, ak ste z nejakého zdroja prebrali väčší kus kódu.
  • Na projekte je povolené používať editory podporujúce automatické generovanie kódu pomocou umelej inteligencie. Avšak automaticky generovaný kód musíte podrobne preštudovať, pochopiť, skontrolovať a opraviť v ňom prípadné chyby. Ste zodpovední za jeho kvalitu a správnosť. Navyše na ústnej skúške budeme overovať, či viete vysvetliť a modifikovať váš kód aj bez použitia umelej inteligencie. Ak využívate nástroje umelej inteligencie, uveďte to v denníku a medzi zdrojmi v notebooku.

Odovzdávanie finálneho projektu

Ako finálny projekt odovzdáva jeden člen skupiny dva súbory uvedené nižšie a naďalej nám dávajte k dispozícii aj denník, ktorý už po dátume odovzdania nemeňte.

Správa

Správa (report) je dokument, ktorý by ste odovzdali “zákazníkovi”, t.j. zadávateľovi projektu, vysvetľujúci vaše výsledky. Mal by obsahovať nasledujúce časti:

  • Hlavičku s názvom projektu, zoznamom autorov a dátumom
  • Obsah so zoznamom kapitol a linkami alebo číslami strán (pokiaľ možno vygenerovaný automaticky)
  • Úvod stručne predstavujúci tému projektu
  • Popis odkiaľ ste získali dáta, ako ste ich spracovali (či ich bolo potrebné nejako filtrovať alebo inak meniť) a základné charakteristiky dát (pre jednotlivé použité tabuľky uveďte význam jednotlivých stĺpcov a počet riadkov, prípadne aj ďalšie sumárne štatistiky). Na základe vášho opisu by mal mať čitateľ dobrú predstavu o tom, ako dané dáta vyzerajú bez toho, aby si ich musel stiahnuť a pozrieť.
  • Výsledky ďalších analýz (rozdelené do viacerých kapitol). Ku každej analýze stručne popíšte, čo ste s dátami spravili, uveďte grafy alebo tabuľky s výsledkami, vysvetlite, aké trendy a iné závery na nich vidno. Pri záveroch pozor, aby ste z korelácie automaticky nepredpokladali kauzalitu. Z textu by malo byť jasné, čo sú skutočné pozorovania a čo vaše dohady. Vaše výsledky môžete porovnať s výsledkami z iných zdrojov (nie je to ale nutné).
  • Záver so stručným zhrnutím hlavných výsledkov a možnosťami ďalšej práce.

Správa by mala byť formálny text bez gramatických chýb, napísaný v slovenskom alebo anglickom jazyku. Obrázky a tabuľky by mali mať popisky vysvetľujúce čo je na grafe alebo v tabuľke zobrazené a mali by byť očíslované (obrázok/figure 1, tabuľka/table 1 atď.) Navyše na každý obrázok a tabuľku sa odvolajte v hlavnom texte (na obrázku 1 vidíme…). Ak ste pri práci využili nejaké zdroje, uveďte ich v zozname literatúry na konci správy (zdroje dát, literatúru k oblasti, v ktorej robíte projekt). V správe neuvádzajte kód ani nepopisujte technické aspekty projektu (ako ste to programovali) a nemusíte tam ani uvádzať odkazy na zdroje, ktoré súvisia priamo s programovaním. Správa sa odovzdáva vo formáte pdf, môžete ju vytvoriť ako Google doc, ale aj v inom systéme (napríklad Latex/Overleaf).

Ak sa chcete inšpirovať, ako vyzerá formálny technický text s číslovanými obrázkami a tabuľkami, môžete si pozrieť zborník zo Študentskej vedeckej konferencie (vaše články asi nebudú mať toľko matematiky a citovať budete asi skôr webstránky než vedecké publikácie, tiež nemusíte správu formátovať do dvoch stĺpcov).

Poskytujeme vám aj ukážkovú kostru správy ako Google doc, z ktorej v prípade záujmu môžete vychádzať.

Text správy by ste mali písať sami, negenerujte text umelou inteligenciou ani neodpisujte z iných zdrojov. Nástroje umelej inteligencie smiete použiť na kontrolu gramatiky a štylistiky. Všetky navrhované úpravy ale starostlivo skontrolujte, či nemenia zamýšľaný význam textu.

Zdrojový kód

K projektu by ste mali odovzdať zdrojový kód vo forme Jupyter notebook, v ktorom bude celá analýza od načítania dát, cez ich úpravu a kontrolu až po vykreslenie finálnych grafov použitých v správe, prípadne aj ďalších, ktoré sa do správy nedostali. Celý kód by mal byť spustiteľný v Colabe. Ak časť predspracovania dát nie je praktické robiť v notebooku, uveďte v notebooku analýzu začínajúcu načítaním už predspracovaných dát a proces predspracovania popíšte v notebooku, prípadne odovzdajte v zvláštnom súbore relevantný kód. Notebook by mal obsahovať nadpisy charakterizujúce jednotlivé časti analýzy a stručné popisy jednotlivých častí kódu. Uveďte aj odkazy (URL) na použité zdroje, najmä ak ste z nich kopírovali kód (vrátane nástrojov umelej inteligencie).

Notebook by mal ťahať dáta z nejakej URL, kam ich uložíte buď v pôvodnom alebo v predspracovanom tvare, viď Technické pokyny. Na ústnej skúške bude potrebné, aby ste vedeli notebook spustiť aj modifikovať na počítači v I-H6 alebo inej učebni.

Denník

Denník vypĺňajte do kostry poskytnutej v Moodli, z ktorej si spravíte kópiu.

Na začiatku denníka uveďte názov skupiny, zoznam členov a tému projektu.

Denník by mal vznikať priebežne a mal by byť členený na kapitoly, ktoré majú v nadpise uvedený stručný popis cieľa, kto sa na príslušnej časti podieľal a dátumy, kedy ste príslušnú analýzu robili. V tele kapitoly stručne popíšte čo ste robili, ako ste to robili, aké vznikli problémy, či sa ich podarilo vyriešiť. V denníku nechajte aj popis práce, ktorá napokon neviedla k úspešným grafom použitým v správe.

Denník by mal tiež obsahovať prípravu na kontrolné stretnutie s vyučujúcimi, ktoré sa budú konať na cvičeniach a tiež závery z takéhoto stretnutia. Takisto si píšte poznámky z ďalších prípadných skupinových stretnutí - aký ďalší postup a delenie úloh sa dohodlo.

Denník slúži pre vyučujúcich na monitorovanie pokroku. Ale slúži aj pre vás. Pomôže vám udržať sa v obraze, čo sa v skupine deje, čo sa dohodlo na stretnutiach a občerstviť si pamäť pri písaní záverečnej správy.

Pri väčších projektoch analýzy dát je dobré udržiavať si takéto poznámky, lebo na konci projektu si už nemusíte pamätať niektoré detaily zo začiatku. Takisto to pomáha koordinácii v rámci skupiny.

Na záver do denníku dopíšte stručný prehľad pre každého člena skupiny, na ktorých častiach projektu pracoval a dajte nám vedieť, či chcete projekt zdieľať.

Prezentácie

  • Každá skupina spraví jednu spoločnú prezentáciu, ktorá má trvať 10-15 minút.
  • V rozprávaní sa vystriedajú všetci členovia skupiny. Každý člen rozpráva aspoň 2 minúty.
  • Vaša prezentácia by mala mať nasledujúce časti:
    • Úvod do témy, popis dát
    • Sumár hlavných výsledkov ako pre zákazníka (ukážky grafov a ich popis)
    • Ukážky zaujímavých technických aspektov projektu ako pre kolegov programátorov, čo ste sa naučili, čo bolo ťažké.
  • Prezentáciu si vopred precvičte, hlavne nadväznosti častí a celkové trvanie.
  • Celá prezentácia má byť v jednom pdf súbore, jeden člen skupiny ju odovzdá do Moodlu do 9:00 v deň prezentácie, odtiaľ ju vyučujúci nahrajú na prezentovací počítač.
    • Ak by ste veľmi v prezentácii potrebovali animácie a iné prvky, ktoré nefungujú v pdf, môžete prezentovať z vlastného počítača. V tom prípade musíte splniť nasledovné podmienky:
      • Celá skupina musí prezentovať z jedného súboru a počítača, aby sa eliminovali prestoje.
      • Zapojenie počítača do projektora si vopred skontrolujte v príslušnej učebni (F1-328 alebo I-H6).
      • Do Moodlu odovzdajte pdf s aspoň čiastočnou funkcionalitou ako zálohu pre prípad technických problémov.
  • Každá skupina sa zúčastní aj ako publikum na aspoň jednej ďalšej prezentácii podľa rozpisu, môžete sa ale prísť pozrieť aj na viac skupín.
  • Po každej prezentácii bude krátka diskusia, uvítame aj vaše otázky.

Rozpis prezentácií

Uvedieme neskôr

Hodnotenie

Podľa pravidiel predmetu v súvislosti s projektom získate až 55% známky.

  • Po každom kontrolnom stretnutí sa budú dať získať body za priebežnú prácu na projekte, spolu 12%.
    • Každý člen skupiny by sa v priebehu týždňa mal zúčastniť nejakej práce na projekte, aj keď nie je dokončená. V prípade špeciálnych okolností nám dajte vedieť.
  • Finálna prezentácia je 8%.
  • Finálne hodnotenie odovzdaného projektu je 20%.
  • Individuálna ústna skúška súvisiaca s projektom je 15%, treba získať aspoň polovicu bodov.