Dane badawcze

Uniwersytet / Struktura Uniwersytetu / Pion Prorektora ds. nauki / Wydawnictwo KUL / Pracownicy / Sekcja Repozytorium i Pozycjonowania Wydawnictw / Repozytorium Instytucjonalne KUL / Deponowanie danych badawczych

Dane badawcze

Czym są otwarte dane badawcze?

Dane badawcze to każdy rodzaj materiałów zebranych w toku badań naukowych, służących do oceny i weryfikacji ich wyników.

Zależnie od dziedziny nauki oraz przyjętej metodologii badań mogą to być:

dokumenty tekstowe, notatki;
dane liczbowe;
kwestionariusze, ankiety, wyniki badań ankietowych;
nagrania audio i video, zdjęcia;
bazy danych (video, audio, teksty, obrazy);
modele matematyczne, algorytmy;
oprogramowanie (skrypty, pliki wejściowe);
wyniki symulacji komputerowych;
protokoły laboratoryjne, opisy metodologiczne;
próbki, artefakty, obiekty.

Dane badawcze mogą być:

surowe, czyli takie, które uzyskano bezpośrednio w wyniku zastosowania narzędzia badawczego,
poddane obróbce (przetworzone),
pierwotne, czyli zebrane bezpośrednio przez badacza specjalnie do konkretnego badania (np. poprzez przeprowadzenie ankiet czy eksperymentów),
wtórne, czyli wykorzystanie już istniejących danych (np. statystyk, raportów, publikacji) do przeprowadzenia własnych analiz naukowych.

Otwarte dane badawcze (Open Research Data) to zarchiwizowane zbiory informacji, które powstały jako rezultat pracy naukowej i zostały udostępnione do bezpłatnego, powtórnego użycia, bez barier prawnych i technicznych. Można je ponownie wykorzystywać, modyfikować, redystrybuować i udostępniać z poszanowaniem prawa. Przy czym można je wykorzystać do celów innych niż te, dla których zostały zgromadzone, a ich twórca nie ponosi odpowiedzialności za cel ich powtórnego wykorzystania.

Udostępnienie danych badawczych jest rekomendowane przez Politykę otwartego dostępu do publikacji naukowych i danych badawczych pracowników, doktorantów i studentów Katolickiego Uniwersytetu Lubelskiego Jana Pawła II, a w przypadku danych pozyskanych w trakcie realizacji projektów finansowanych ze środków publicznych wymóg otwartości jest zazwyczaj wpisany w umowę z instytucją grantodawczą.

Dane powinny być tak otwarte, jak to możliwe i na tyle zamknięte, na ile to jest konieczne. Zamykanie danych badawczych jest możliwe, ale powinno wynikać z uzasadnionych względów, np. może to być znaczny nakład inwestycyjny instytucji lub badacza, ochrona w ramach tajemnicy przedsiębiorstwa czy zamiar opatentowania pomysłu opartego na wynikach badań.

Dane badawcze powinny być opisane, przechowywane i publikowane zgodnie z tzw. zasadami FAIR, które umożliwiają ponowne wykorzystanie danych naukowych zarówno przez ludzi, jak i komputery.

Zasady FAIR data:

Findable – dane można łatwo wyszukać i znaleźć dzięki bogatym metadanym (szczegółowy, sformalizowany opis zawierający informacje o autorze, przedmiocie badań, miejscu i czasie ich przeprowadzenia, grupie badawczej, wykorzystanych narzędziach, parametrach sprzętu, sposobu i celu zebrania danych) oraz unikalnemu elektronicznemu identyfikatorowi (w Repozytorium KUL jest to identyfikator Handle, nadawany automatycznie po zdeponowaniu danych);
Accessible – dane są dostępne dla wszystkich za pomocą standardowego protokołu komunikacyjnego (bezpłatny, otwarty i powszechnie stosowany), metadane są przechowywane nawet jeśli dane już nie są dostępne. Jeśli dane nie mogą być udostępnione ze względów etycznych, bezpieczeństwa itp., należy wskazać warunki dostępu (np. uzyskanie specjalnej zgody od kierującego projektem);
Interoperable – dane są interoperacyjne, czyli można je połączyć z innymi danymi dzięki ich standaryzacji, są zapisane w otwartym formacie plików, zalecane jest stosowanie słowników dostosowanych do standardów obowiązujących w danej dziedzinie, daty należy zapisywać w formacie rok-miesiąc-dzień-czas, należy zamieścić odnośniki do powiązanych zbiorów;
Reusable – dane można wykorzystywać wielokrotnie, należy umieścić informację o licencji jednoznacznie określającej warunki ponownego wykorzystania i przetwarzania danych, szczegółową dokumentację dotyczącą struktury i pochodzenia danych, precyzyjne informacje dotyczące cytowania.

Gdzie udostępnić dane?

Zgodnie z rekomendacjami NCN zalecane są repozytoria dziedzinowe (specjalistyczne), ponieważ gromadzą dane z konkretnej dyscypliny (np. repozytoria nauk społecznych, przyrodniczych). Przy czym warto zwrócić uwagę na „popularność” repozytorium wśród naukowców z danej dyscypliny, co wpływa na większą widzialność. Można też skorzystać z otwartych repozytoriów ogólnych (np. Zenodo czy RepOD) lub instytucjonalnych (ReKUL). Warto sprawdzić, czy wybrane repozytorium znajduje się w rejestrze Register of Research Data Repositories.

Jakie dane udostępnić?

Nie ma konieczności, a czasami nawet możliwości, udostępniania wszystkich zebranych w trakcie trwania projektu danych (np. ze względu na ich wielkość). Należy udostępnić te dane, które są istotne dla zobrazowania przeprowadzonych badań i do których jest się zobowiązanym umową z instytucją finansującą badania. W przypadku artykułów naukowych nie ma konieczności publikowania wszystkich zebranych danych, ale niezbędne jest udostępnienie tych, które są potrzebne do weryfikacji opisywanych wyników badań.

Kiedy udostępniać dane?

Najczęściej wkrótce po zakończeniu projektu lub wtedy, gdy publikowane są wyniki badań w postaci artykułu. Jeśli nie planuje się dalszego wykorzystywania zebranych danych, ale mają one wysoką wartość naukową, należy rozważyć ich udostępnienie choćby ze względu na możliwość pozyskania cytowań.

Zanim dane zostaną udostępnione

Należy zapoznać się z polityką fundatora/instytucji dotyczącą udostępniania danych, sprawdzić zapisy umowy, w tym informację o oczekiwanej licencji, na jakiej mają zostać opublikowane nasze dane. Jeśli dane zawierają informacje wrażliwe koniczna jest ich pseudonimizacja lub anonimizacja. Można skorzystać z gotowych narzędzi do anonimizacji danych badawczych, np. Amnesia OpenAire.

Jeśli wykorzystywane są dane wtórne, należy sprawdzić ich stan prawny (licencję) i bezwzględnie podać cytowanie.

Jak przygotować dane badawcze do udostępnienia?

Plik ReadMe

Oprócz właściwie przygotowanych do deponowania danych, należy utworzyć dodatkowy plik o nazwie „ReadMe”, zawierający podstawowe informacje pozwalające poprawnie zinterpretować, zrozumieć i ponownie wykorzystać udostępnione dane. Plik należy przygotować w języku angielskim lub polskim i angielskim, zapisać w otwartym formacie (np. txt) i dołączyć w momencie deponowania danych w repozytorium, jako pierwszy. Opcjonalnie opisy metodologiczne można zawrzeć bezpośrednio w plikach z danymi.

W pliku ReadMe należy umieścić jak najwięcej informacji:

tytuł zbioru danych;
imię i nazwisko badacza (ORCID), instytucja, dane kontaktowe;
opis i cel badania, opis badanej populacji, liczebność i typ próby;
informacja o metodzie i procedurach zbierania danych;
zakres czasowy i geograficzny (miejsce) badań;
narzędzia badawcze, technika zbierania badań;
oprogramowanie wykorzystywane do gromadzenia i przetwarzania/analizy danych, w tym numery wersji;
formaty plików używane w zbiorze danych i zalecane oprogramowanie;
zastosowane procedury kontroli jakości;
dziennik zmian zestawu danych;
sposób uporządkowania danych, czyli:
struktura folderów;
system nazewnictwa plików (z przykładami);
relacje i zależności między plikami;
inne pliki uzupełniające (notatki, pliki towarzyszące);
przy każdym większym pliku – krótki opis jego zawartości i data utworzenia;
opis systemu wersjonowania plików, jeśli ma to zastosowanie;
wyjaśnienia wszystkich użytych skrótów, najlepiej w formie legendy
licencja, na jakiej dane są udostępniane, ewentualne ograniczenia wykorzystania danych.

Przykładowy szablon pliku ReadMe

Dobrze przygotowany opis może zwiększyć zainteresowanie opublikowanymi danymi badawczymi.

Przygotowanie plików

Przydatne zasady:

Podczas pracy nad plikami można używać formatów zamkniętych, należy jednak pamiętać, aby przekonwertować je do formatów otwartych przed zdeponowaniem danych.
Nie należy przekazywać kluczowych informacji wyłącznie za pomocą kolorów lub formatowania tekstu.
Pliki przeznaczone do zdeponowania można pogrupować.
Redaktor Repozytorium KUL ma prawo do przetwarzania zdeponowanych materiałów na inne formaty.
Domyślny rozmiar pliku w zbiorze danych (dataset) w Repozytorium Instytucjonalnym KUL wynosi 512 MB (maksymalna wielkość pojedynczego pliku).
Dostęp do plików z danymi badawczymi może zostać ograniczony do użytkowników wewnętrznych lub udzielany za zgodą autora. Aby to zrobić, przed zdeponowaniem danych należy zgłosić taką potrzebę do redakcji, a wtedy zostaną nadane stosowne zasady do określonego zbioru. W ReKUL dla wszystkich użytkowników internetu będą widoczne tylko metadane zbioru, zaś sam zbiór danych nie będzie udostępniony w otwartym dostępie.

Ochrona danych wrażliwych

Dane wrażliwe to dane ujawniające pochodzenie rasowe lub etniczne, poglądy polityczne, przekonania religijne lub światopoglądowe, przynależność do związków zawodowych oraz dane genetyczne i dane biometryczne jednoznacznie identyfikujące osoby fizyczne, dane dotyczące zdrowia, seksualności lub orientacji seksualnej danej osoby.
Jeżeli dane badawcze zawierają dane wrażliwe, trzeba je poddać pseudonimizacji lub anonimizacji, uwzględniając rekomendacje instytutowych komisji etyki badań naukowych oraz Inspektora Ochrony Danych, który odpowiada za ochronę danych wrażliwych na KUL.

Jak nazwać pliki:

Odpowiednie nazwy mogą znacząco ułatwić użytkownikowi korzystanie z danych. Nazwy plików powinny być spójne, logiczne, opisowe, krótkie i czytelne. Jeśli przy danych pracuje zespół osób, trzeba ustalić konwencję nazewnictwa i stosować ją konsekwentnie, aby uniknąć błędów.
Elementy opisu należy szeregować od ogółu do szczegółu.
Nie należy stosować spacji, zamiast nich należy używać podkreśleń (_).
Do numerowania plików należy używać wielu cyfr (np. 001 zamiast 1), aby uniknąć problemów z sortowaniem.
Do zapisywania dat należy używać standardu ISO (najpierw rok, potem miesiąc i dzień).
Godziny powinny być zapisywane w schemacie: godzina, minuty, sekundy: GGMMSS.
Nigdy nie należy używać znaków diakrytycznych oraz specjalnych, takich jak: ęć!?*&#.
Nazwa pliku może zawierać:

akronim bieżącego projektu lub eksperymentu (2–5 liter), dzięki czemu wiadomo, czego dotyczy plik;
krótki opis zawartości pliku (1–3 słowa);
informację o lokalizacji lub współrzędne, jeśli są przydatne;
datę;
inicjały badacza (lub podmiotu) albo całe nazwisko i imię, należy zawsze zaczynać od nazwiska, np. KowalskiJ lub Kowalski-Jakub.

Jaki wybrać format plików?

Pliki z danymi powinny mieć format otwarty, czyli taki, który można otworzyć za pomocą otwartego, niekomercyjnego oprogramowania. Przy wyborze formatu warto wziąć pod uwagę rodzaj formatów funkcjonujących w konkretnej dziedzinie badań. Dozwolone jest użycie formatu, który jest powszechnie używanym standardem.

Zalecane formaty plików (przykładowe):

Dane tekstowe: .txt, .xml, .html, .pdf., .csv, .rdf, .LaTeX.odt, .odt, .ods, .odp; akceptowalne: .docx, .rtf, .xlsx, .pptx

Obrazy: .jpeg, .png, .svg, .gif, .psd, .swf

Pliki audio: .ogg, .alac, .flac, .wav, .aac; akceptowalne: .mp3

Pliki video: .avi, .mp4

Inne: .dae (modele 3D), .gdltf (modele 3D), .gedcom (dane genealogiczne)

Metadane

Metadane to informacje ułożone w pewnej strukturze, które opisują, lokalizują i ułatwiają znalezienie zbioru danych oraz określają zasady ich ponownego wykorzystania. O metadanych często mówi się, że są to „dane o danych”. Są one publicznie dostępne, nawet jeśli dane są nieopublikowane, chronione, wycofane lub usunięte.
Standard metadanych określa, jakie informacje muszą zostać ujęte w opisie danych, a także wymagania dotyczące ich struktury. W Repozytorium KUL stosowany jest standard Dublin Core, a metadane wprowadza się w odpowiednio opisane pola.
Nie można opublikować samych danych badawczych, bez metadanych.
Można opublikować metadane bez danych badawczych, umieszczając wyjaśnienie dlaczego nie mogą one być udostępnione (przesłanki prawne lub etyczne, np. gdy dane są wrażliwe).

Metadane mogą zawierać:

tytuł zbioru danych
źródło danych
informacje o twórcach danych [numery identyfikacyjne, (np. Orcid)].
opis danych, rodzaj
datę utworzenia
zakres przestrzenny (krajowy, regionalny, globalny)
zakres czasowy (okres gromadzenia danych)
format
język danych
język metadanych
cyfrowy identyfikator obiektów (doi, handle)
status dostępu i embargo
licencję
instytucję finansującą badania
powiązane publikacje
cytowanie

Prawa autorskie i licencje

W przypadku danych badawczych wytworzonych przez innych badaczy, należy ustalić ich stan prawny i przestrzegać nadanej licencji lub uzyskać zgodę na ich wykorzystanie i opublikowanie w otwartym repozytorium.
Aby zamieścić w repozytorium dane badawcze, które zostały zebrane przez wiele osób, należy uzyskać zgodę od wszystkich twórców.
Przed wyborem licencji określającej zasady ponownego wykorzystania danych badawczych należy sprawdzić, jakie wymogi w tym względzie ma instytucja grantodawcza. Rekomendowane jest korzystanie z otwartych licencji Creative Commons, można również udostępnić dane bez nadawania licencji, na zasadach dozwolonego użytku.

Licencje Creative Commons:

CC0 – zrzeczenie się majątkowych praw autorskich – przekazanie zbioru danych do domeny publicznej, pozwala użytkownikom na korzystanie ze zbioru danych w nieograniczonym zakresie i bez żadnych zobowiązań.
CC BY – uznanie autorstwa – pozwala użytkownikom na kopiowanie, modyfikowanie, rozpowszechnianie i tworzenie nowych utworów bądź zbiorów w oparciu o licencjonowany zbiór danych, pod warunkiem oznaczenia autorstwa tego zbioru danych, zezwala na wykorzystanie zbioru danych w celach komercyjnych.
CC BY-NC – uznanie autorstwa – użycie niekomercyjne – pozwala użytkownikom na kopiowanie, modyfikowanie i rozpowszechnianie licencjonowanego zbioru danych, wyłącznie w celach niekomercyjnych pod warunkiem oznaczenia autorstwa tego zbioru danych.
CC BY-SA – uznanie autorstwa – na tych samych warunkach – pozwala użytkownikom na kopiowanie, modyfikowanie oraz rozpowszechnianie zbioru danych pod warunkiem oznaczenia autorstwa i udostępniania danych oryginalnych oraz zmodyfikowanych na tej samej licencji.
CC BY-NC-SA – uznanie autorstwa – użycie niekomercyjne – na tych samych warunkach – pozwala użytkownikom kopiować, modyfikować i rozpowszechniać zbiory danych przy zastrzeżeniu, że zarówno oryginalne jak i zmodyfikowane dane będą udostępniane na takiej samej licencji i wyłącznie w celach niekomercyjnych.
CC BY-ND – uznanie autorstwa – bez utworów zależnych – umożliwia użytkownikom ponowne wykorzystanie zbioru danych pod warunkiem oznaczenia autorstwa. Licencja nie pozwala jednak na modyfikowanie zbioru. Nie jest wskazana do licencjonowania danych badawczych, gdyż praktycznie uniemożliwia dalsze prace na danych.
CC BY-NC-ND – uznanie autorstwa – użycie niekomercyjne – bez utworów zależnych – pozwala użytkownikom na pobieranie zbioru danych i dzielenie się nim, pod warunkiem określenia autorstwa. Zbiór nie może być modyfikowany ani wykorzystywany komercyjnie. Jest to najbardziej restrykcyjna z licencji. Nie jest wskazana do licencjonowania danych badawczych, gdyż praktycznie uniemożliwia dalsze prace na danych.

Udzielenie licencji nie odbiera twórcy praw autorskich, ale wskazuje, na co zezwala on użytkownikom.

Więcej informacji: M. Bielińska, A. Cybulska-Phelan, W. Fenrich, J. Szprot, Zarządzanie danymi badawczymi. Poradnik dla naukowców i data stewardów. Wersja 2.0.

Deponowanie danych badawczych w ReKUL krok po kroku

Aby rozpocząć deponowanie należy się zarejestrować jako użytkownik ReKUL (zgodnie z procedurą rejestracji) albo zalogować, jeżeli już posiada się konto indywidualne. Następnie należy dodać pozycję do repozytorium w ramach przyznanych uprawnień. Dane badawcze są publikowane w kolekcji „Raporty naukowe i dane badawcze”.

Uzupełnianie kolejnych pól formularza

Autorzy. Nazwisko i imię/imiona autora, oddzielone przecinkiem, np. Radziszewski, Idzi Benedykt. Kolejnego autora dodajemy poprzez przycisk „+dodaj”;
Tytuł. Pełny tytuł zbioru danych, zwięźle opisujący zawartość w języku, w którym publikowane są dane (najczęściej po angielsku). Proszę pamiętać, że tytuł zbioru nie jest tytułem powiązanej publikacji;
Tytuły równoległe. Ewentualny inny wariant tytułu lub jego tłumaczenie na język polski lub angielski;
Data wydania. Pole „rok” jest obowiązkowe, pola „dzień” i „miesiąc” mogą pozostać puste;
Typ dokumentu. Wybieramy „Dataset”;
Język. Język deponowanych danych należy wybrać z rozwijanej listy. Jeśli języka nie ma na liście, należy wybrać "inny". Kolejny język dodajemy poprzez przycisk „+dodaj”;
Słowa kluczowe. Wyrazy lub frazy, które opisują główną tematykę i najważniejsze aspekty zebranych danych. Można je wpisywać pojedynczo, każde zatwierdzając enterem lub przygotować listę słów oddzielonych przecinkami i po wklejeniu zatwierdzić enterem. Zaleca się podawanie słów kluczowych w języku angielskim i polskim;
Abstrakt. Zwięzły opis zbioru danych, zawierający podstawowe informacje o celu przeprowadzenia badań, typie danych, miejscu i czasie przeprowadzenia badań, grupie badawczej czy wykorzystanym sprzęcie laboratoryjnym itp. Zaleca się umieszczanie abstraktu w języku angielskim i polskim;
Instytucja finansująca badania. Nazwa instytucji finansującej badania i programu grantowego oraz tytuł i numer grantu;
Opis. To miejsce na dodatkowy opis lub komentarz, można tu wpisać powiązany zbiór danych lub powiązane publikacje z pełnym opisem bibliograficznym, numerem DOI lub adresem internetowym (URL);
Prześlij pliki. Odpowiednio przygotowane pliki z danymi należy wybrać ze swojego urządzenia i przesłać, korzystając z przycisku umieszczonego na górnej belce formularza „Wyszukaj na swoim urządzeniu” lub przeciągnąć i upuścić w dowolnym miejscu formularza;
Licencja. Do wyboru są licencje Creative Commons lub otwarty dostęp na zasadach dozwolonego użytku zgodnie z art. 23-35 Ustawy z dnia 4 lutego 1994 r. o prawie autorskim i prawach pokrewnych. Licencje CC wybiera się z rozwijanego menu, jeśli nie wybierze się żadnej licencji CC domyślnie pozostaje prawo dozwolonego użytku;
Po sprawdzeniu poprawności wprowadzonych danych należy zaakceptować „Oświadczenie deponenta” i zatwierdzić formularz przyciskiem „Deponuj”.

Zdeponowany zbiór danych podlega sprawdzeniu przez redaktora repozytorium, który weryfikuje poprawność procesu deponowania i koryguje ewentualne ewidentne błędy we wprowadzonych metadanych (np. literówki, błędnie wypełnione pola). W razie konieczności uzyskania dodatkowych informacji redaktor kontaktuje się z deponującym. Redaktor nie sprawdza zawartości zbioru danych i nie ocenia jego wartości merytorycznej ani jakości.

Po pozytywnie zakończonym procesie weryfikacji zbiór danych zostaje zdeponowany w repozytorium i otrzymuje numer identyfikacji cyfrowej Handle. To unikalny trwały identyfikator (PID), który tak jak najbardziej popularny DOI czy URN, spełnia warunki otwartego publikowania wyników badań naukowych wymagane np. w projektach NCN.