Przejdź do treści Przejdź do stopki

Otwarte dane badawcze

Tak otwarte, jak to możliwe i na tyle zamknięte, na ile to jest konieczne.

To materiały w postaci cyfrowej i analogowej, zaobserwowane, zebrane, przetworzone lub wytworzone w ramach działalności naukowej. Uznawane są one przez społeczność naukową za niezbędne do oceny wyników badań naukowych, a także przydatne do realizacji nowych badań.

Otwarte dane badawcze umożliwiają: 

  • weryfikację wyników badań – pozwalają na sprawdzenie rzetelności i dokładności przedstawionych wyników;
  • ponowne wykorzystanie danych – dane mogą być używane w nowych badaniach, co przyspiesza postęp naukowy; 
  • wzrost liczby cytowań – publikacje oparte na otwartych danych są częściej cytowane;
  • obniżenie kosztów badań – dostęp do istniejących danych redukuje potrzebę ich ponownego zbierania;
  • interdyscyplinarność – możliwość wykorzystania danych w wielu dziedzinach.

Otwartość danych badawczych przynosi wiele korzyści: 

  • przyspiesza rozwój nauki – ułatwia i przyspiesza prowadzenie badań oraz stymuluje dalsze odkrycia i innowacje; 
  • zwiększa transparentność – umożliwia ocenę wiarygodności prowadzonych badań;
  • wspiera współpracę – ułatwia wymianę informacji między naukowcami;
  • zwiększa dostępność – dane są dostępne dla wszystkich zainteresowanych. 

Otwartość danych sprzyja zwiększeniu rzetelności prowadzenia badań, ponieważ umożliwia niezależną weryfikację wyników. Ułatwia również wielokrotne wykorzystanie danych, także poza pierwotnym kontekstem – co oznacza, że nawet dane pozornie nieistotne mogą okazać się cenne w innym projekcie, innej dyscyplinie czy kraju. Wspiera to rozwój nauki w duchu współpracy, nie rywalizacji. 

Rodzaje danych badawczych

  • surowe – zebrane, ale nie przeanalizowane;
  • obserwacyjne – przechwytywane w czasie rzeczywistym (np. odczyty czujników, dane telemetryczne, wyniki anonimowych ankiet, badania fokusowe), często unikalne, ponieważ nie można ich „odzyskać”;
  • eksperymentalne – uzyskane ze sprzętu laboratoryjnego w kontrolowanych warunkach, powtarzalne, ale często bardzo kosztowne (np. sekwencje genów, spektroskopia, odczyty pola magnetycznego);
  • dane symulacji – zebrane podczas testów badających rzeczywiste lub teoretyczne systemy (np. modele klimatyczne, ekonomiczne, systemy inżynieryjne);
  • dane pochodne / skompilowane – wyniki analiz danych, albo dane agregowane z różnych źródeł. Powtarzalne, ale ich pozyskanie może być bardzo kosztowne (bazy danych, teksty, modele 3D, dane bibliometryczne);
  • dane referencyjne – poprawione lub organiczne zbiory danych, zwykle recenzowane, publikowane i selekcjonowane (dane GUS, struktury chemiczne, bazy danych z sekwencjami genów).

5-star Open Data

5-gwiazdkowy schemat wdrażania Otwartych Danych, opracowany przez Tima Berners-Lee, który był jednym z pionierów usługi WWW oraz Linked Data.
  1. * Dane powinny być dostępne w sieci niezależnie od formatu, na dowolnie wybranej otwartej licencji.
  2. ** Dane powinny znajdować się w ustrukturyzowanej formie nadającej się do odczytu maszynowego np. plik Excel zamiast zdjęcia tabeli.
  3. *** Dane powinny być udostępnione w otwartym formacie np. plik CSV zamiast .XLS.
  4. **** Do oznaczenia danych powinny być użyte identyfikatory URI, aby mogły być jednoznacznie identyfikowalne.
  5. ***** Dane powinny być powiązane z innymi danymi, aby był zapewniony kontekst.

Więcej informacji o 5-star Open Data.

Stopka