Otwarte dane badawcze -- RODBUK

Tak otwarte, jak to możliwe i na tyle zamknięte, na ile to jest konieczne.

To materiały w postaci cyfrowej i analogowej, zaobserwowane, zebrane, przetworzone lub wytworzone w ramach działalności naukowej. Uznawane są one przez społeczność naukową za niezbędne do oceny wyników badań naukowych, a także przydatne do realizacji nowych badań.

abstrakcyjna wizualizacja dużych zbiorów danych, świecące czerwone belki — Designed by GarryKillian / Freepik

Otwarte dane badawcze umożliwiają:

weryfikację wyników badań – pozwalają na sprawdzenie rzetelności i dokładności przedstawionych wyników;
ponowne wykorzystanie danych – dane mogą być używane w nowych badaniach, co przyspiesza postęp naukowy;
wzrost liczby cytowań – publikacje oparte na otwartych danych są częściej cytowane;
obniżenie kosztów badań – dostęp do istniejących danych redukuje potrzebę ich ponownego zbierania;
interdyscyplinarność – możliwość wykorzystania danych w wielu dziedzinach.

Otwartość danych badawczych przynosi wiele korzyści:

przyspiesza rozwój nauki – ułatwia i przyspiesza prowadzenie badań oraz stymuluje dalsze odkrycia i innowacje;
zwiększa transparentność – umożliwia ocenę wiarygodności prowadzonych badań;
wspiera współpracę – ułatwia wymianę informacji między naukowcami;
zwiększa dostępność – dane są dostępne dla wszystkich zainteresowanych.

Otwartość danych sprzyja zwiększeniu rzetelności prowadzenia badań, ponieważ umożliwia niezależną weryfikację wyników. Ułatwia również wielokrotne wykorzystanie danych, także poza pierwotnym kontekstem – co oznacza, że nawet dane pozornie nieistotne mogą okazać się cenne w innym projekcie, innej dyscyplinie czy kraju. Wspiera to rozwój nauki w duchu współpracy, nie rywalizacji.

Rodzaje danych badawczych

surowe – zebrane, ale nie przeanalizowane;
obserwacyjne – przechwytywane w czasie rzeczywistym (np. odczyty czujników, dane telemetryczne, wyniki anonimowych ankiet, badania fokusowe), często unikalne, ponieważ nie można ich „odzyskać”;
eksperymentalne – uzyskane ze sprzętu laboratoryjnego w kontrolowanych warunkach, powtarzalne, ale często bardzo kosztowne (np. sekwencje genów, spektroskopia, odczyty pola magnetycznego);
dane symulacji – zebrane podczas testów badających rzeczywiste lub teoretyczne systemy (np. modele klimatyczne, ekonomiczne, systemy inżynieryjne);
dane pochodne / skompilowane – wyniki analiz danych, albo dane agregowane z różnych źródeł. Powtarzalne, ale ich pozyskanie może być bardzo kosztowne (bazy danych, teksty, modele 3D, dane bibliometryczne);
dane referencyjne – poprawione lub organiczne zbiory danych, zwykle recenzowane, publikowane i selekcjonowane (dane GUS, struktury chemiczne, bazy danych z sekwencjami genów).

5-star Open Data

5-gwiazdkowy schemat wdrażania Otwartych Danych, opracowany przez Tima Berners-Lee, który był jednym z pionierów usługi WWW oraz Linked Data.

* Dane powinny być dostępne w sieci niezależnie od formatu, na dowolnie wybranej otwartej licencji.
** Dane powinny znajdować się w ustrukturyzowanej formie nadającej się do odczytu maszynowego np. plik Excel zamiast zdjęcia tabeli.
*** Dane powinny być udostępnione w otwartym formacie np. plik CSV zamiast .XLS.
**** Do oznaczenia danych powinny być użyte identyfikatory URI, aby mogły być jednoznacznie identyfikowalne.
***** Dane powinny być powiązane z innymi danymi, aby był zapewniony kontekst.

Więcej informacji o 5-star Open Data.

Otwarte dane badawcze

Stopka