Motivace a cíle
MOtivace
Ze schůzky koordinační skupiny k Open Science v září 2020 vyplynula jasná potřeba pokročit v ČR s agendou plánování a koordinace správy vědeckých dat a datových repositářů. V návaznosti na to proběhla v říjnu 2020 pracovní schůzka zástupců institucí v této oblasti (např. AV ČR, CESNET, MUNI, NTK, UK, VŠCHT), kde byl Michal Růžička, MUNI/OpenAIRE, pověřen sestavením a vedením pracovní skupiny, která předloží plán práce v této oblasti a začne na jejím rozvoji pracovat.
Primárně jsme pracovní skupina, která řeší aktivity relevantní pro naši práci na našich institucích. Koordinujeme se zejména pro zefektivnění naší práce a posunutí výsledků dále. Výsledky práce pak sekundárně chceme činit viditelnějšími i vně našich institucí, k ostatním zájmových skupinám apod., aby případně využili výsledků činnosti této skupiny, zohlednili je při plánování svých činností apod.
Základní teze
Základní teze: Stejně jako „železo“ (hardware), jsou důležití lidé („software“).
V oblasti lidských zdrojů je zásadní vzdělávání klíčových skupin/kompetencí potřebných pro dobrou praxi v Research Data Management (RDM, správa vědeckých dat):
„Data Stewardships“ (= osoby, které rozumí datovému managementu a nástrojům, ale ne samotné materii)
„Data Scientists“ (= osoby, typicky vědci nebo studenti, kteří jsou experti v dané vědecké matérii)
„Data Curators” (= osoby, typicky knihovníci [1], které budou spravovat uložené datové sady v repositářích)
„Open-minded management“ (= management organizací, který si uvědomuje přínosy i rizika a nebojí se v organizaci myšlenky Open Science prosazovat, uvádět ve strategiích a realizovat rozvojovými projekty)
Podpora kvalitní práce s výzkumnými daty klade vyšší nároky spíše na personální zajištění než na zajištění technické.
Základní principy a přístupy v oblasti dobré správy vědeckých dat jsou
princip As open as possible, as closed as necessary,
princip: Aby Research Data byla FAIR je důležitější, než aby byla pouze Open.
Klademe důraz na standardy, protože užívání standardů je cesta k interoperabilitě a opakovanému využití (reuse).
Persistentní identifikátory (PIDs) jsou velmi důležitou součástí ekosystému FAIR dat.
Nebudujeme centrální repositář. Musíme počítat s distribuovanou (decentralizovanou) infrastrukturou, která musí být kompatibilní (interoperabilní) na úrovni výměny (meta)dat nejen na národní, ale i evropské a celosvětové úrovni. A dále nejen v rámci vědeckého světa, ale i v rámci veřejného a soukromého sektoru.
S decentralizací technického řešení se přirozeně pojí alespoň částečná a efektivní centralizace na koncepční a oborové úrovni (standardy a metodiky).
Výše uvedené nevylučuje budování sirotčích repositářů, ale nejsou to repositáře „první volby“.
Architektura tedy musí v nejobecnější rovině splňovat principy European Data Strategy pro rozvoj Jednotného digitálního trhu EU.
Tento přístup je plně v souladu se snahami EOSC, ELIXIR apod.
[1] V tomto případě „knihovníci“ = osoby s přiměřenou znalostí daného oboru a s dostatečným vzděláním, pokud jde o správu datových souborů, jejich opatřování metadaty, principy pořádání, zajištěním dostupnosti, dlouhodobého uchování atd.
Dlouhodobé cíle pracovní skupiny
Data jako (státem i vědeckou komunitou) uznávaný výsledek vědeckého bádání, tj. vědci i hodnotitelé vědy vidí stejný smysl v publikování kvalitních datových sad jako v publikování kvalitních publikací.
Na národní úrovni existuje koordinovaná podpora pro vědce v oblasti správy dat. Tedy:
Aby na každé instituci dostal vědec („stejnou“) odpověď na otázky typu:
Mám tato výzkumná data, jak mám zařídit, aby byla dohledatelná.
Mám tato výzkumná data, jak je mám převést do interoperabilního a opakovaně použitelného formátu.
Mám tato výzkumná data, kam je mám uložit.
Pod jakou licencí mám různé typy dat publikovat.
Vydavatel publikace po mne požaduje publikovaní podkladových dat, jak to mám zařídit.
Aby na národní úrovni panovala shoda na minimální sadě popisných metadat pro data.
Data z různých oborů zcela jistě budou vyžadovat oborově specifický metadatový popis, který půjde nad rámec tohoto minimálního obecného popisu:
Kde to bude mít smysl („běžné obory“), koordinovat doporučení k těmto oborovým metadatům (např. formou odkazu na standard, který je v daném oboru využívaný a uznávaný).
Typicky inspirace ve FAIRsharing.org.
U specifických oborů „nechat rozhodnutí na mezinárodní komunitě“ – nesnažit se pokrýt vše, ale najít kdekoliv vhodného odborníka/tým z oboru a nechat jej vydávat doporučení.
Aby existovaly vzdělávací instituce/kurzy, které poskytují vzdělávání v oboru „Data Stewardship“.
Tj. produkují kvalifikované experty, kteří mohou poskytovat výše uvedenou podporu vědcům.
Vhodné řešit formou dvouoboru, protože nejcennější je „Data Steward“, který má zároveň hlubokou znalost v nějakém konkrétním vědeckém oboru.
Na národní úrovni fungující agregátor metadat výzkumných dat.
Tj. místo, kde bude možné vyhledávat datové sady vytvořené v ČR. A to včetně standardního API, aby bylo možné metadata zpracovávat strojově.
Pravděpodobně rozšíření IS VaVaI dle i schválené koncepce rozvoje tohoto IS veřejné správy.
Agregátor vhodným způsobem napojený (nebo minimálně připravený na napojení a sdílení dat) s jinými agregátory metadat o výzkumných datech v Evropě a ve světě (v současnosti zejména OpenAIRE a EOSC).
A také na „konektory“ na jednotlivých výzkumných a univerzitních centrech. Data institucí uložena v první fázi primárně v rámci jejich perimetru.
Dohlédnout na komplexní registraci datových repositářů v ČR do re3data.org, který bude možné využívat jako první veřejnou referenci o českých datových repositářích – jako mapu s informacemi o tom, kdo repositář provozuje, pro jaká data je určený, a jak jsou dostupná metadata o datech v něm obsažených.
Repositáře zapsané v re3data.org s českou proveniencí v maximální možné míře také napojené na národní agregátor metadat. Tj. komunikace pomocí výše zmiňovaných metadatových standardů.
Na národní úrovni fungující a všemi aktéry uznávaný a užívaný systém persistentních identifikátorů kompatibilní s evropským či světovým state-of-the-art.
Zejména jde o persistentní identifikátory (PID) pro:
digitální objekty (publikace, data, metadata) (např. DOI, Handle, ARK, PURL apod.),
popř. instituce a granty (např. Funder ID, GRID ID, ROR ID, DOI, Handle, ARK, PURL apod.),
fyzické osoby (např. ORCID, ISNI, ResearcherID, Scopus Author ID).
„Referenční“ implementace datového repositáře splňujícího výše uvedené standardy.
Využívána pro případné (oborové) sirotčí repositáře?
Využitelná institucemi pro budování institucionálních a oborových repositářů.
Národní úložná e-Infrastruktura připravená sloužit jako storage backend pro výše zmiňovaný referenční datový repositář.
Připravená kapacitně absorbovat rozsáhlé datové sady.
Připravená poskytovat LTP služby.
Pro „rozumně velké“ datové sady?