Przejdź do treści Przejdź do stopki

Polityka Przechowywania Danych

Dokument opisuje podejście Repozytorium Otwartych Danych Badawczych Uczelni Krakowskich (RODBUK) do długoterminowego archiwizowania oraz odpowiedzialnego zarządzania zdeponowanymi danymi badawczymi. 

Do głównych celów RODBUK należy: 

  • zapewnienie długoterminowego dostępu do danych badawczych,  
  • utrzymanie stabilności działania repozytorium,  
  • zapewnienie autentyczności, integralności i bezpieczeństwa zdeponowanych zbiorów danych. 

Role w Repozytorium pełnią: 

  • Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie, Akademickie Centrum Komputerowe CYFRONET AGH, ul. Nawojki 11, 30-950 Kraków, NIP: 675-000-19-23, REGON: 000001577-00022 odpowiedzialne za stronę techniczną, bezpieczeństwo przechowywania oraz wdrażanie nowych funkcjonalności. 
  • Jednostki uczelni lub innych instytucji nauki przystępujących do projektu wyznaczone do zapewnienia wsparcia użytkownikom oraz rozwijania funkcjonalności. 

Strategie przechowywania

Repozytorium zapewnia długotrwałą archiwizację zdeponowanych danych badawczych, stosując następujące strategie: 

  1. na wszystkich etapach pracy z danymi badawczymi przestrzegane są zasady FAIR, dzięki czemu dane są łatwe do odnalezienia, dostępne, interoperacyjne oraz umożliwiające wielokrotne wykorzystanie; 
  2. deponujący zobowiązany jest do załączenia dokumentacji umożliwiającej odczytanie i ponowne wykorzystanie publikowanych danych badawczych; 
  3. dane są weryfikowane, walidowane i nadzorowane według zdefiniowanych procedur; 
  4. dane są opisane i wzbogacone o metadane zgodnie ze standardem Dublin Core; 
  5. zbiory danych przechowywane są co najmniej 10 lat a metadane bezterminowo; 
  6. z myślą o ponownym wykorzystaniu danych zachowuje się ich autentyczność i integralność. 

Techniczną stroną procesów długoterminowej archiwizacji zajmuje się zespół ACK CYFRONET AGH. Proces ten obejmuje zadania związane ze: zmianą nośników, konwersją do aktualnych formatów, przeglądem integralności, autentyczności, kontrolą dostępności, odczytu i prezentacji danych. Zadania te odnoszą się zarówno do obiektów cyfrowych, jak i metadanych.  

ACK CYFRONET AGH wdrożył szereg wewnętrznych procedur bezpieczeństwa (Polityka Bezpieczeństwa Informacji, Polityka Zarządzania Ciągłością Działania). Centrum komputerowe ACK CYFRONET AGH posiada wewnętrzny Dział Cyberbezpieczeństwa i Dział Bezpieczeństwa Danych. 

Zgodnie z przyjętą w ACK CYFRONET AGH „Polityką bezpieczeństwa informacji” (dokument wewnętrzny) “bezpieczeństwo informacji oraz systemów, w których są one przetwarzane, jest jednym z kluczowych elementów zapewniających realizację zadań statutowych Centrum. [...] W celu zapewnienia bezpieczeństwa informacji CYFRONET wprowadza spójny “System Zarządzania Bezpieczeństwem Informacji". System [...] służy ochronie oraz udostępnianiu aktywów w taki sposób, aby poufność, dostępność oraz integralność przetwarzanych informacji pozostawały na odpowiednim poziomie”(Polityka Bezpieczeństwa Informacji).

Długoterminowe przechowywanie danych realizowane jest poprzez regularne tworzenie kopii zapasowych danych. Replika danych przechowywana jest w odrębnej lokalizacji geograficznej, co jest dodatkowym czynnikiem zwiększającym bezpieczeństwo. Procedura wykonania kopii zapasowej zapewnia spójność danych źródłowych i zapasowych, zarówno na poziomie pojedynczego pliku jak i całych zbiorów danych. W przypadku nieużywanych danych planowana jest ich archiwizacja w oparciu o rozwiązania wykorzystujące składowanie danych na taśmach magnetycznych. ACK CYFRONET AGH dysponuje aktualnie trzema bibliotekami taśmowymi posiadającymi ponad 9 tysięcy slotów na taśmy magnetyczne standardu LTO oraz 44 napędy generacji 6, 7 i 9. Pojedynczy nośnik magnetyczny LTO-9 posiada pojemność fizyczną 18 TB i pozwala na zapis z prędkością sięgającą 400 MB/s. Celem utworzenia archiwum jest natomiast zapewnienie bezpieczeństwa nieużywanych danych i zwolnienie zajmowanych zasobów pamięci masowej. W odróżnieniu od kopii zapasowej archiwum jest tworzone tylko jeden raz, poprzez migrację danych z lokalizacji źródłowej do docelowej. 

Weryfikacja danych przed publikacją

Weryfikacji zbiorów danych dokonują data stewardzi wyznaczeni przez instytucje posiadające swoje instancje w ramach Repozytorium. W razie potrzeby zbiór danych jest odsyłany do deponującego wraz z wiadomością o zakresie i celu wykonania korekty lub wprowadzenia uzupełnień. Jeśli zbiór danych nie budzi zastrzeżeń, zostaje opublikowany. Data stewardzi wspierają badaczy na wszystkich etapach cyklu życia danych badawczych w zakresie ich zgodności z zasadami FAIR, w tym: stosowania przyjętych standardów metadanych, ulepszania opisów, wersjonowania oraz konwersji danych do nowych formatów w celu zwiększenia potencjału ich ponownego wykorzystania. Data stewardzi są również odpowiedzialni za sprawdzenie pliku readme. 

Przechowywanie danych

RODBUK korzysta z projektu Dataverse, czyli oprogramowania do repozytorium danych badawczych o otwartym kodzie źródłowym. Kod aplikacji jest rozwijany przez społeczność i udostępniany za pośrednictwem repozytorium GitHub3.  

ACK CYFRONET AGH gwarantuje niezawodną dostępność. Zarówno sprzęt, jak i oprogramowanie jest dobrze zarządzane i dostosowane do potrzeb użytkowników oraz funkcjonalności aplikacji. Infrastruktura RODBUK działa na maszynach wirtualnych zasilanych przez OpenStack, wykorzystując obiektową pamięć masową opartą na S3 i działając na systemach Rocky Linux 8. Zasoby fizyczne serwera wirtualnego, takie jak wielkość pamięci RAM, VCPU, dyski i ich wydajność, są dostosowywane do charakteru aplikacji. 

Wszystkie dokumenty przechowywane w RODBUK są archiwizowane i udostępniane przez co najmniej 10 lat, metadane, które je opisują bezterminowo. Wszystkie dokumenty przechowywane w RODBUK są archiwizowane i udostępniane z zachowaniem zasad bezpieczeństwa danych na wszystkich etapach ich cyklu życia (w procesach przyjęcia, wdrożenia do kolekcji i użytkowania). Zdeponowane pliki są automatycznie archiwizowane zaraz po ich wprowadzeniu przez użytkownika do RODBUK, a kopie metadanych wykonywane są raz dziennie. 

Ze względu na zagrożenia fizyczne, które mogą zagrozić integralności danych, ACK CYFRONET AGH działa w dwóch odrębnych centrach danych – DC Nawojki i DC Podole – strategicznie zlokalizowanych w różnych budynkach na terenie Krakowa. Aby zminimalizować ryzyko związane z katastrofami naturalnymi, takimi jak pożary czy powodzie, stosuje się replikację danych. W rezultacie powstają dwa niezależne systemy obiektowej pamięci masowej, z których każdy może służyć jako przełączanie awaryjne dla drugiego.  

Utrzymanie dostępności

Data stewardzi weryfikują zdeponowane dane przed ich publikacją w repozytorium pod kątem zgodności z zasadami FAIR i udzielają deponującym koniecznego wsparcia w tym zakresie. Obejmuje to zarówno poprawianie metadanych, wzbogacanie i standaryzację opisów, jak i pomoc w wersjonowaniu danych oraz konwersję plików do nowych formatów w celu umożliwienia ich ponownego wykorzystania w przyszłości. Ostateczną decyzję co do elementów, z których składa się zbiór danych, jego rozmiaru i formatu podejmuje badacz. 

RODBUK rekomenduje stosowanie otwartych formatów, powszechnie dostępnych i bezpłatnych. Na etapie deponowania plików w repozytorium oprogramowanie Dataverse rozpoznaje rodzaj formatu na podstawie jego rozszerzenia. Zaleca się konwersję plików o nierozpoznanym formacie do innego formatu. Jedynym wyjątkiem jest sytuacja, gdy konwersja plików ze specjalistycznego oprogramowania do otwartego źródła może mieć wpływ na jakość danych. W takich przypadkach w danych dołączonych do pliku README należy opisać oprogramowanie służące do otwierania plików. 

Dla każdego zbioru danych należy wybrać licencję z listy dostępnej w RODBUK. Pliki można udostępniać w formie otwartej lub ograniczać do nich dostęp (embargo, udostępnianie na żądanie).   

Każdemu zdeponowanemu zbiorowi danych przypisany jest numer DOI. Aktywacja numeru DOI następuje po weryfikacji zdeponowanych danych przez data stewarda, w momencie publikacji pierwszej wersji zbioru danych. 

W przypadku stwierdzenia, że dany format danych nie jest już wspierany technicznie administratorzy RODBUK kontaktują się z deponującym z prośbą o dokonanie konwersji zamieszczonych plików. W przypadku, kiedy kontakt z deponującym jest niemożliwy, to administratorzy RODBUK dokonują konwersji tych danych, jeśli uwarunkowania techniczne na to pozwolą. Zbiór danych zostanie opublikowany w RODBUK jako nowa wersja.  

Aby zachować optymalną wydajność i bezpieczeństwo systemów poddawane one są regularnym aktualizacjom - z uwzględnieniem doraźnych aktualizacji w przypadku wykrycia luki w zabezpieczeniach (CVE). Również sama aplikacja Dataverse jest aktualizowana na bieżąco na podstawie nowości przygotowane przez harwardzką grupę deweloperską. Odbywa się to jednak po przetestowaniu w dedykowanych środowiskach, aby zapewnić bezproblemowe aktualizacje i stabilność. Odpowiednie zespoły personelu uzyskują dostęp do maszyn wirtualnych, z których każda ma określone role, za pośrednictwem firmowej sieci VPN w celu zapewnienia bezpiecznej i kontrolowanej łączności. 

Agregator RODBUK przechowuje wszystkie metadane zdeponowanych danych poszczególnych instytucji, nawet jeśli umowa pomiędzy daną instytucją a ACK CYFRONET AGH zostanie rozwiązana. 

Walidacja danych

Wszystkie zbiory danych zdeponowane w Repozytorium podlegają regularnej weryfikacji, polegającej na porównaniu wartości sum kontrolnych obliczonych w danym momencie z sumami kontrolnymi wygenerowanymi w momencie pobrania zbiorów. Taki mechanizm pozwala na identyfikację uszkodzonej lub utraconej treści i przywrócenie prawidłowej wersji z kopii zapasowych. Audyt ten jest przeprowadzany dwa razy do roku.

Zapewnienie bezpieczeństwa

RODBUK posiada wielopoziomowe zabezpieczenia dostępu. Dane badawcze mogą deponować wyłącznie osoby zarejestrowane w repozytorium po zalogowaniu się za pomocą centralnego systemu uwierzytelniania. Procedura odbywa się z wykorzystaniem protokołów OIDC (OpenID Connect) lub SAML2. Każdorazowe logowanie wymaga podania loginu (adresu e-mail) oraz hasła uwierzytelniającego (podawanego przy pierwszym logowaniu). Deponujący posiada wyłącznie uprawnienia do konkretnej kolekcji. Możliwość edycji danych oraz zmian w ich opisie i strukturze została ograniczona deponującemu do momentu przesłania zbioru danych do weryfikacji przez data stewarda. Wszelkie późniejsze zmiany w zbiorach danych muszą zostać zaakceptowane przez data stewarda. 

W celu zapewnienia wysokiego poziomu bezpieczeństwa i stabilności usług regularnie przeprowadzane są kontrole infrastruktury i stabilności usług. ACK CYFRONET AGH, aby zabezpieczyć RODBUK przed potencjalną utratą danych, na różnych poziomach wdrożył procedury tworzenia kopii zapasowych.

Migracja danych z/do RODBUK

Dopuszcza się migrację metadanych danych badawczych pomiędzy repozytoriami uczelni współtworzących RODBUK. Metadane są pobierane w celu zapewnienia pełnej i spójnej reprezentacji danych badawczych danej jednostki. Proces migracji odbywa się w ścisłej współpracy z ACK CYFRONET AGH. 

Plan migracji danych (przekazania opieki nad danymi) obejmuje następujące etapy: 

  1. określenie wymagań migracyjnych: etap ten obejmuje opisanie powodów migracji, wskazanie konkretnych danych do przeniesienia oraz określenie oczekiwanych rezultatów procesu migracji; 
  2. identyfikacja i konfiguracja środowiska docelowego: obejmuje ocenę technologicznych i infrastrukturalnych możliwości nowego środowiska, zapewnienie jego zdolności do efektywnego transferu danych oraz potwierdzenie zgodności prawnej środowiska (np. licencje, umowy); 
  3. ustalenie właściwych formatów metadanych: zapewnienie, że środowisko docelowe obsługuje właściwy format metadanych, minimalizując ryzyko ich utraty podczas migracji; 
  4. inwentaryzacja bieżącego repozytorium: przeprowadzenie dokładnej inwentaryzacji istniejącego repozytorium zgodnie z nowo zdefiniowanymi kryteriami, w tym uzupełnienie brakujących metadanych w środowisku źródłowym; 
  5. planowanie migracji: obejmuje określenie harmonogramu wyłączenia repozytorium, utworzenie kopii zapasowych danych przed migracją, weryfikację procedur przywracania danych oraz poinformowanie użytkowników o planowanej przerwie w działaniu systemu; 
  6. migracja danych i aktualizacja repozytorium: realizacja migracji oraz aktualizacja wszystkich danych i zbiorów danych powiązanych z repozytorium w celu dostosowania ich do nowego środowiska; 
  7. weryfikacja i testowanie: po zakończeniu migracji weryfikacja i testowanie nowego środowiska w celu upewnienia się, że migracja przebiegła pomyślnie. 

Procedury kontrolne/wersjonowanie

Publikowane dane nie podlegają zmianie. Po akceptacji zbioru danych przez data stewarda jego edycja staje się niemożliwa. Autorzy zbioru danych mogą udostępnić zmienione/nowe pliki jedynie poprzez utworzenie nowej wersji zbioru danych. W takim przypadku po uzupełnieniu brakujących danych w opublikowanym zbiorze należy ponownie zgłosić zbiór do weryfikacji: „Wyślij do przeglądu”. Data steward może odesłać je do korekty lub w przypadku braku zastrzeżeń może je opublikować. 

Ważne jest, aby uzgodnić z data stewardem ostateczną wersję zbioru danych – może on opublikować jego kolejną wersję z mniejszymi lub większymi poprawkami. W pierwszym i drugim przypadku numer wersji zbioru danych można sprawdzić w zakładce „Wersje”. Informacje o aktualnej wersji znajdują się na samej górze strony lub pod tytułem zbioru danych. Dodanie kolejnej wersji pliku nie powoduje zmiany identyfikatora DOI. 

W szczególnych przypadkach, takich jak naruszenie praw autorskich i innych praw własności intelektualnej lub podejrzenie plagiatu, istnieje możliwość: 

  1. Wycofania zbioru danych, w tym celu deponujący musi skontaktować się z data stewardem. Usunięcie zbioru danych wiąże się z usunięciem wszystkich jego wersji, jednakże podstawowe informacje o usuniętym zbiorze danych (tzw. tombstone) pozostają publicznie dostępne, np. cytat i przyczyna usunięcia danych. Pełny opis metadanych będzie widoczny tylko dla administratorów systemu (ACK CYFRONET AGH); 
  2. Wycofania dostępnych plików, gdy zachodzą odpowiednie przesłanki prawne, są one poddawane procesowi deakcesji. 

Aktualizacja: 06.02.2025 

Stopka