Motivace a cíle

MOtivace

Ze schůzky koordinační skupiny k Open Science v září 2020 vyplynula jasná potřeba pokročit v ČR s agendou plánování a koordinace správy vědeckých dat a datových repositářů. V návaznosti na to proběhla v říjnu 2020 pracovní schůzka zástupců institucí v této oblasti (např. AV ČR, CESNET, MUNI, NTK, UK, VŠCHT), kde byl Michal Růžička, MUNI/OpenAIRE, pověřen sestavením a vedením pracovní skupiny, která předloží plán práce v této oblasti a začne na jejím rozvoji pracovat.

Primárně jsme pracovní skupina, která řeší aktivity relevantní pro naši práci na našich institucích. Koordinujeme se zejména pro zefektivnění naší práce a posunutí výsledků dále. Výsledky práce pak sekundárně chceme činit viditelnějšími i vně našich institucí, k ostatním zájmových skupinám apod., aby případně využili výsledků činnosti této skupiny, zohlednili je při plánování svých činností apod.

Základní teze

  1. Základní teze: Stejně jako „železo“ (hardware), jsou důležití lidé („software“).

  2. V oblasti lidských zdrojů je zásadní vzdělávání klíčových skupin/kompetencí potřebných pro dobrou praxi v Research Data Management (RDM, správa vědeckých dat):

    • „Data Stewardships“ (= osoby, které rozumí datovému managementu a nástrojům, ale ne samotné materii)

    • „Data Scientists“ (= osoby, typicky vědci nebo studenti, kteří jsou experti v dané vědecké matérii)

    • „Data Curators” (= osoby, typicky knihovníci [1], které budou spravovat uložené datové sady v repositářích)

    • „Open-minded management“ (= management organizací, který si uvědomuje přínosy i rizika a nebojí se v organizaci myšlenky Open Science prosazovat, uvádět ve strategiích a realizovat rozvojovými projekty)

Podpora kvalitní práce s výzkumnými daty klade vyšší nároky spíše na personální zajištění než na zajištění technické.

  1. Základní principy a přístupy v oblasti dobré správy vědeckých dat jsou

    • princip As open as possible, as closed as necessary,

    • princip: Aby Research Data byla FAIR je důležitější, než aby byla pouze Open.

  2. Klademe důraz na standardy, protože užívání standardů je cesta k interoperabilitě a opakovanému využití (reuse).

  3. Persistentní identifikátory (PIDs) jsou velmi důležitou součástí ekosystému FAIR dat.

  4. Nebudujeme centrální repositář. Musíme počítat s distribuovanou (decentralizovanou) infrastrukturou, která musí být kompatibilní (interoperabilní) na úrovni výměny (meta)dat nejen na národní, ale i evropské a celosvětové úrovni. A dále nejen v rámci vědeckého světa, ale i v rámci veřejného a soukromého sektoru.

    • S decentralizací technického řešení se přirozeně pojí alespoň částečná a efektivní centralizace na koncepční a oborové úrovni (standardy a metodiky).

    • Výše uvedené nevylučuje budování sirotčích repositářů, ale nejsou to repositáře „první volby“.

    • Architektura tedy musí v nejobecnější rovině splňovat principy European Data Strategy pro rozvoj Jednotného digitálního trhu EU.

    • Tento přístup je plně v souladu se snahami EOSC, ELIXIR apod.


[1] V tomto případě „knihovníci“ = osoby s přiměřenou znalostí daného oboru a s dostatečným vzděláním, pokud jde o správu datových souborů, jejich opatřování metadaty, principy pořádání, zajištěním dostupnosti, dlouhodobého uchování atd.

Dlouhodobé cíle pracovní skupiny

  1. Data jako (státem i vědeckou komunitou) uznávaný výsledek vědeckého bádání, tj. vědci i hodnotitelé vědy vidí stejný smysl v publikování kvalitních datových sad jako v publikování kvalitních publikací.

  2. Na národní úrovni existuje koordinovaná podpora pro vědce v oblasti správy dat. Tedy:

    • Aby na každé instituci dostal vědec („stejnou“) odpověď na otázky typu:

      • Mám tato výzkumná data, jak mám zařídit, aby byla dohledatelná.

      • Mám tato výzkumná data, jak je mám převést do interoperabilního a opakovaně použitelného formátu.

      • Mám tato výzkumná data, kam je mám uložit.

      • Pod jakou licencí mám různé typy dat publikovat.

      • Vydavatel publikace po mne požaduje publikovaní podkladových dat, jak to mám zařídit.

    • Aby na národní úrovni panovala shoda na minimální sadě popisných metadat pro data.

      • Data z různých oborů zcela jistě budou vyžadovat oborově specifický metadatový popis, který půjde nad rámec tohoto minimálního obecného popisu:

        • Kde to bude mít smysl („běžné obory“), koordinovat doporučení k těmto oborovým metadatům (např. formou odkazu na standard, který je v daném oboru využívaný a uznávaný).

          • Typicky inspirace ve FAIRsharing.org.

        • U specifických oborů „nechat rozhodnutí na mezinárodní komunitě“ – nesnažit se pokrýt vše, ale najít kdekoliv vhodného odborníka/tým z oboru a nechat jej vydávat doporučení.

    • Aby existovaly vzdělávací instituce/kurzy, které poskytují vzdělávání v oboru „Data Stewardship“.

      • Tj. produkují kvalifikované experty, kteří mohou poskytovat výše uvedenou podporu vědcům.

      • Vhodné řešit formou dvouoboru, protože nejcennější je „Data Steward“, který má zároveň hlubokou znalost v nějakém konkrétním vědeckém oboru.

  3. Na národní úrovni fungující agregátor metadat výzkumných dat.

    • Tj. místo, kde bude možné vyhledávat datové sady vytvořené v ČR. A to včetně standardního API, aby bylo možné metadata zpracovávat strojově.

      • Pravděpodobně rozšíření IS VaVaI dle i schválené koncepce rozvoje tohoto IS veřejné správy.

    • Agregátor vhodným způsobem napojený (nebo minimálně připravený na napojení a sdílení dat) s jinými agregátory metadat o výzkumných datech v Evropě a ve světě (v současnosti zejména OpenAIRE a EOSC).

      • A také na „konektory“ na jednotlivých výzkumných a univerzitních centrech. Data institucí uložena v první fázi primárně v rámci jejich perimetru.

  4. Dohlédnout na komplexní registraci datových repositářů v ČR do re3data.org, který bude možné využívat jako první veřejnou referenci o českých datových repositářích – jako mapu s informacemi o tom, kdo repositář provozuje, pro jaká data je určený, a jak jsou dostupná metadata o datech v něm obsažených.

    • Repositáře zapsané v re3data.org s českou proveniencí v maximální možné míře také napojené na národní agregátor metadat. Tj. komunikace pomocí výše zmiňovaných metadatových standardů.

  5. Na národní úrovni fungující a všemi aktéry uznávaný a užívaný systém persistentních identifikátorů kompatibilní s evropským či světovým state-of-the-art.

    • Zejména jde o persistentní identifikátory (PID) pro:

      • digitální objekty (publikace, data, metadata) (např. DOI, Handle, ARK, PURL apod.),

      • popř. instituce a granty (např. Funder ID, GRID ID, ROR ID, DOI, Handle, ARK, PURL apod.),

      • fyzické osoby (např. ORCID, ISNI, ResearcherID, Scopus Author ID).

  6. „Referenční“ implementace datového repositáře splňujícího výše uvedené standardy.

    • Využívána pro případné (oborové) sirotčí repositáře?

    • Využitelná institucemi pro budování institucionálních a oborových repositářů.

  7. Národní úložná e-Infrastruktura připravená sloužit jako storage backend pro výše zmiňovaný referenční datový repositář.

    • Připravená kapacitně absorbovat rozsáhlé datové sady.

    • Připravená poskytovat LTP služby.

      • Pro „rozumně velké“ datové sady?