Przejdź do treści Przejdź do stopki

Przygotowanie danych

Odpowiednia organizacja danych badawczych jest niezwykle ważna, aby uniknąć pomyłek i bałaganu w plikach dotyczących projektu.

Organizacja plików musi być zrozumiała dla autora, całego zespołu badawczego oraz każdej potencjalnej osoby, która będzie miała dostęp do danych.

Organizacja folderów i nazewnictwo 

Podczas pracy w grupie lub przygotowywaniu się do udostępnienia zbioru danych konieczne jest użycie jak najbardziej przejrzystej struktury folderów.

Ponadto: 

  • struktura powinna zostać uzgodniona i przyjęta przez wszystkich uczestników badania;
  • nazwy folderów powinny być krótkie i jednoznaczne tak, aby od razu było wiadomo, jakie dane znajdują się w folderze;
  • jeśli struktura folderów jest złożona ze względu na wieloymiarowość projektu, to do każdego głównego zbioru plików reprezentującego pojedyncze badanie powinien być dołączony osobny plik readme charakteryzujący ten zbiór. Dodatkowo co całego zbioru danych powinien być dołączony główny plik readmeopisujący całość zbioru;
  • hierarchia folderów powinna być spójna i  logiczna (zaczynając od folderu ogólnego, przechodząc do folderów bardziej szczegółowych). Konstrukcja folderów nie powinna być zbyt głęboka ani zbyt płytka. W zależności od wielkości projektu można wykorzystać od 3 do 4 poziomów w strukturze folderów;
  • w ramach strategii przechowywania przydatne może być dodatkowe zdefiniowanie „tymczasowych folderów”, z których można będzie bezpiecznie usunąć dane po użyciu. 

Unikaj: 

  • nazywania folderów ogólnymi sformuowaniami np. „bieżące rzeczy”;
  • nazywania folderów nazwiskiem badacza (nazwy folderów powinny dotyczyć zawartości, a nie autorów); 
  • tworzenia folderów o tych samych nazwach w różnych miejscach; 
  • tworzenia kopii w różnych folderach, jeśli jest taka potrzeba, można użyć skrótów, aby zachować plik referencyjny. 

Organizacja plików

Nazwy plików mogą zawierać wiele informacji o ich zawartości. Powinny być spójne, logiczne, opisowe, krótkie i czytelne. Pracując zespołowo, trzeba ustalić konwencję nazewnictwa w celu uniknięcia błędów. Elementy opisu powinny być uporządkowane od ogółu do szczegółu.

Co może zawierać nazwa pliku

  • akronim bieżącego projektu lub eksperymentu (2-5 liter), dzięki temu wiadomo, czego dotyczy plik; 
  • krótki opis zawartości pliku (1-3 słowa); 
  • informację o lokalizacji lub współrzędne, jeśli byłyby przydatne; 
  • datę;
  • inicjały osoby (badacza lub podmiotu) lub całe nazwisko i imię zaczynając zawsze od nazwiska np. KowalskiJ lub Kowalski-Jakub. 

Wskazówki: 

  • unikaj spacji. Możesz używać innych opcji np.
    - CamelCase (system notacji ciągów tekstowych, w którym kolejne wyrazy pisane są łącznie, rozpoczynając każdy następny wielką literą (prócz pierwszego) np.: foreColor, setConnection, isPaymentPosted),
    - łączniki (-),
    - podkreślenia (_),
  • numerując pliki, zawsze używaj zer wiodących np. 001 zamiast 1, aby uniknąć problemów z sortowaniem; 
  • używając dat, zawsze stosuj standard ISO RRRRMMDD (najpierw rok, potem miesiąc i dzień) np. 20240528 lub 2024-05-28.  Zapis można skrócić do roku lub roku i miesiąca, w zależności od potrzeb i kontekstu; 
  • używając godziny zapisuj ją w schemacie GGMMSS (godzina, minuty, sekundy); 
  • nigdy nie używaj znaków specjalnych oraz znaków diakrytycznych takich jak: ęć!?*&#~ ! @ # $ % ^ & * ( ) ` ; ? , [ ] { } ‘ “

Format pliku

  1. Zgodnie z wytycznymi instytucji finansujących badania naukowe, dane badawcze należy zapisywać w formatach otwartych, powszechnie dostępnych i bezpłatnych z wyjątkiem sytuacji, kiedy konwersja plików z oprogramowania specjalistycznego do otwartego może wpłynąć na jakość danych. 
  2. Format pliku wpływa na możliwość jego otwarcia w późniejszym czasie. Zamknięte formaty wymagają odpowiedniego oprogramowania. Otwarte formaty są bardziej interoperacyjne, oznacza to, że można z nich korzystać przy użyciu różnego sprzętu, systemów operacyjnych i oprogramowania. Zapisywanie danych w otwartych, niezaszyfrowanych i nieskompresowanych formatach sprawia, że są trwalsze i użyteczne przez wiele lat.  
  3. Zbiór danych powinien obowiązkowo zawierać plik 00_readme.txt, w którym zawarte są niezbędne informacje dotyczące udostępnianych danych - przykładowy plik README
  4. W przypadku stosowania programów do kompresji i archiwizacji danych zalecamy ZIP lub 7-Zip, które mają otwartą architekturę i są powszechnie dostępne. 

Rekomendowane formaty plików

Rodzaj danych  Rekomendowane formaty 
Dane tekstowe 

.txt (Plain text) 

.pdf (Portable Document Format) 

.tex (LaTeX documents) 

.html (Hypertext Markup Language) 

.odt (Open Document Format) 

.xml (Extensible Markup Language)  

Tabele, arkusze kalkulacyjne, bazy 

.txt/.tsv/.tab (Tab-separated tables)  

.csv/.txt (Comma-separated tables) 

Standardowe separatory, np. dwukropek, pionowa kreska  
(Other standard delimiter, e.g. colon, pipe) 

Format stałej szerokości (Fixed-width) 

.ods (OpenDocument Spreadsheet) 

.odb (OpenDocument Database) 

Obrazy

.tiff/.tif (TIFF) 

.jpg/.jp2 (JPEG) 

.png (Portable Network Graphics) 

.svg (Scalable Vector Graphics) 

.pdf (Portable Document Format) 

.gif (Graphics Interchange Format) 

.bmp (Microsoft Windows Bitmap Format) 

Pliki audio

.wav (WAVE) 

.flac (FLAC) 

.mp3 (MPEG-3) - zazwyczaj odpowiedni dla rejestru ludzkiego głosu i dźwięku o średniej jakości, ale może być nieodpowiedni dla dźwięku Hi-Fi 

.aiff (Audio Interchange File Format) 

Pliki wideo

.mp4 (MPEG-4) 

.mxf (Material Exchange Format) 

Bazy danych

.xml (Extensible Markup Language) 

.csv (Comma-separated tables) 

Dane geoprzestrzenne

.tiff (Geo-Referenced TIFF) 

.shp, .shx, .dbf (ESRI Shapefile) 

.kml (Keyhole Markup Language) 

.nc (Network Common Data Format) 

Dane internetowe

.json (Javascript Object Notation) 

.xml (Extensible Markup Language) 

.html (Hypertext Markup Language) 

Dane z sieci .warc (WebARChive) 
Wielowymiarowe tablice

.cdf (Common Data Format) 

.nc (Network Common Data Format) 

.hdf/.h5 (Hierarchical Data Format) 

e-book .epub (Electronic Publication) 

Źródło: File Formats - Research Data Management - Best Practices - Research Guides at Ohio State University (Modyfikacja: tłumaczenie)

 

Stopka