CICLUL DE VIAŢĂ A DATELOR
Ciclul de viață al datelor de cercetare reprezintă ansamblul etapelor prin care trec datele pe parcursul activității de cercetare, de la generare până la arhivare sau reutilizare.
Modelul ciclului de viață al datelor de cercetare
Sursa: USGS Science Data Lifecycle Model, 2023.
De obicei, ciclul de viață al datelor de cercetare include următoarele etape:
- Planificarea (definirea obiectivelor cercetării, identificarea tipurilor de date necesare, stabilirea modului de colectare, gestionare și partajare a datelor și elaborarea Planului de Management al Datelor);
- Achiziția (generarea sau colectarea datelor prin diverse metode, cum ar fi experimente, observații, simulări, sondaje sau extragerea din surse existente);
- Procesarea (curățarea, organizarea și transformarea datelor pentru a le face utilizabile în analiză);
- Analiza (constă în interpretarea datelor, aplicarea metodelor statistice, vizualizarea și modelarea acestora pentru a răspunde întrebărilor de cercetare, a obține informații relevante și concluzii);
- Prezervarea (stocarea datelor pe termen lung, într-un mod sigur, cu metadate adecvate, asigurând accesibilitatea și integritatea acestora);
- Publicare/Partajare (distribuirea datelor prin platforme de acces deschis, arhive instituționale sau reviste de date, asigurând respectarea principiilor FAIR).
TIPURILE DE DATE
În cadrul procesului de cercetare, diverse tipuri de date și materiale sunt colectate și utilizate pentru a sprijini analiza și interpretarea rezultatelor, fiecare având rolul său specific în procesul de documentare și verificare a ipotezelor de cercetare.
Tipuri de date:
- observații experimentale;
- măsurători instrumentale;
- fotografii, filme, slide-uri, diafilme;
- documente text;
- foi de calcul;
- baze de date, software de simulare, fișiere de date;
- probe, schițe;
- caiete de laborator, registre;
- planuri, hărți;
- tabele, grafice;
- specimene catalogate;
- note de teren, note de laborator;
- modele, algoritmi, scripturi;
- artefacte, mostre, eșantioane;
- chestionare, stenograme, caiete de coduri;
- colecții de obiecte digitale achiziționate și generate în timpul procesului de cercetare;
- metodologii și fluxuri de lucru;
- proceduri și protocoale standard de operare.
ORGANIZAREA DATELOR
Organizarea datelor de cercetare reprezintă procesul de structurare, denumire, documentare, stocare și gestionare a datelor colectate sau generate în cadrul unui proiect de cercetare cu scopul de a asigura accesibilitatea, integritatea, securitatea și reutilizarea datelor pe termen lung şi a facilita colaborarea, reproducerea rezultatelor și respectarea cerințelor instituționale și de finanțare.
Pentru a gestiona datele într-un mod structurat și coerent, este importantă respectarea următoarelor principii:
- Structurarea fișierelor și denumirea clară (utilizarea unei scheme logice de organizare și a unor convenții standardizate de denumire a fișierelor, pentru a evita confuziile și pentru a facilita identificarea rapidă a informațiilor);
- Documentare și metadate (însoţirea datelor cu descrieri detaliate și metadate, care să permită înțelegerea, interpretarea și reutilizarea acestora în contexte diferite);
- Controlul versiunilor (implementarea unui sistem clar de gestionare a versiunilor, astfel încât modificările și actualizările să poată fi urmărite și administrate eficient);
- Stocare și securitate (salvarea datelor în locații sigure şi realizarea backup-urilor regulate pentru prevenirea pierderii acestora şi protejarea informațiilor sensibile).
Recomandări pentru denumirea fișierelor
Denumirile fișierelor trebuie să ofere context și să distingă clar conținutul acestora de alte fișiere similare. Deoarece fișierele sunt adesea utilizate independent de structura directoarelor, este necesar să includă suficiente informații relevante.
Fișierele trebuie să aibă denumiri descriptive, care să ofere context despre conținutul acestora. Este important ca termenii să fie clari și să se evite ambiguitățile. Lungimea numelui fișierului nu trebuie să depășească 32 de caractere.
Denumirea fișierului ar trebui să includă:
- Identificator unic (ex. numele proiectului, numărul de grant sau alt identificator relevant)
- Denumirea setului de date sau a experimentului
- Condițiile experimentului (ex. instrumente utilizate, temperatură, solvenți)
- Numărul secvențial al experimentului sau al analizei
- Data (de exemplu, anul, luna, ziua în format YYYYMMDD)
Pentru fișierele care fac parte dintr-o serie, este important ca numerotarea să fie realizată cu zerouri la început pentru a păstra ordinea corectă (de exemplu: 01, 02, 03). Astfel, fișierele vor fi ordonate corect chiar și în cazul numerelor mai mari (ex. 001-010-100).
Trebuie de evitat utilizarea caracterelor speciale precum: *&, %#;()!@$^~'{}[]?<>- în denumirile fișierelor, pentru a preveni posibile probleme de compatibilitate între platforme sau sisteme de operare.
Exemple de fișiere care urmează aceste principii:
- 20160104-ProjectA-Ex1-Test1-v01.xlsx
- 20160104-ProjectA-MeetingNotes-SmithE-v02.docx
- ExperimentName-InstrumentName-CaptureTime-ImageID.tif
- Proiect_Instrument_Locație_YYYYMMDD[hhmmss]_TipFișier.ext
În funcție de tipul fișierelor, acestea pot fi organizate:
- cronologic (în ordine temporală, pentru a urmări evoluția proiectului);
- clasificare/codificare (utilizând coduri specifice fiecărui tip de conținut);
- alfabetic (pentru acces rapid la documente).
Structura directoarelor
Fișierele trebuie organizate în directoare și subdirectoare ierarhizate, pe baza unor teme sau categorii clare, cum ar fi:
- proiect
- locație
- tipul fișierului
- data experimentului
Fiecare directoriu trebuie să reflecte conținutul său, iar numele subdirectoarelor trebuie să fie organizate logic și să fie ușor de înțeles. De exemplu:
- docs – pentru documentație și fișiere informative
- data – pentru date brute și metadate (pentru a preveni modificarea acestora, poate fi setat în modul read-only)
- results – pentru fișierele rezultate din procesul de curățare și analiză a datelor
- src/code – pentru sursele de cod și scripturi utilizate.
Este recomandat ca denumirea folderelor să includă informații fundamentale, precum titlul proiectului, data și un identificator unic. De exemplu, un directoriu pentru un proiect ar putea arăta astfel: Proiect_Nume_An.
Este important ca structura directoarelor să fie documentată într-un fișier “Read Me” (sau similar), care să explice tipurile de fișiere stocate în fiecare folder și cum ar trebui utilizate.
Exemple de denumire a fișierelor și directoarelor
Fișier:
Proiect_Instrument_Locație_YYYYMMDD[hhmmss]_TipFișier.ext
Directoriu:
Proiect_Nume_An
Subdirectoare:
- docs
- data
- results
- src/code
Instrumente pentru redenumirea fişierelor
Instrumente pentru controlul versiunilor
STOCAREA ȘI BACKUP-UL DATELOR
Regula 3-2-1 pentru backup-ul datelor de cercetare
Regula 3-2-1 este o strategie de protejare a datelor de cercetare împotriva pierderii accidentale, coruperii fișierelor sau atacurilor cibernetice. Această metodă recomandă:
- păstrarea a cel puțin 3 copii ale datelor (originalul + două copii de rezervă pentru a preveni pierderile cauzate de erori tehnice sau umane);
- utilizarea a cel puțin 2 tipuri diferite de medii de stocare (de exemplu, o copie pe un hard disk extern sau un server local și alta într-un serviciu de stocare în cloud);
- depozitarea a cel puțin 1 copie într-o locație externă (pentru protecție împotriva dezastrelor fizice (incendii, inundații, furturi), una dintre copii trebuie păstrată într-o locație separată sau într-un serviciu cloud securizat.
Opțiuni de stocare
Există mai multe opțiuni de stocare disponibile, inclusiv computere desktop și laptopuri, unități de stocare în rețea, hard disk-uri externe, stocare optică și stocare în cloud. Să analizăm mai îndeaproape aceste opțiuni:
Computere desktop și laptopuri
Pe parcursul cercetării, este probabil să salvați și să lucrați cu datele pe computerul desktop sau pe laptop. Pentru a preveni pierderile cauzate de evenimente nefericite, precum furtul sau defectarea dispozitivului, este important să salvați frecvent munca și să păstrați copii de siguranță într-o altă locație.
Hard disk-uri externe
Hard disk-urile externe reprezintă o modalitate convenabilă de a stoca și face backup datelor. Totuși, ca regulă generală, nu este recomandat să păstrați hard disk-ul extern lângă computer, deoarece în caz de furt, incendiu sau alte dezastre, atât datele originale, cât și copia de rezervă ar putea fi pierdute. De asemenea, este important de reținut că hard disk-urile externe, la fel ca și unitățile flash (USB), nu sunt destinate stocării permanente, deoarece se pot deteriora în timp.
Unități de stocare în rețea
Rețeaua instituțională sau unitățile de stocare în rețea reprezintă o opțiune bună pentru păstrarea unei copii a datelor, deoarece acestea sunt gestionate de universitate, ceea ce le conferă stabilitate și securitate ridicată. Totuși, este important să consultați instituția pentru a clarifica aspecte precum:
- frecvența realizării copiilor de siguranță ale unității de rețea
- nivelul de securitate oferit
- spațiul de stocare disponibil și posibilitatea de recuperare a datelor pierdute
Stocarea în cloud
Stocarea în cloud, prin servicii precum Google Drive și Box oferă avantajul păstrării datelor în afara locației fizice și posibilitatea de sincronizare automată cu fișierele de pe computer, facilitând realizarea copiilor de siguranță. Totuși, trebuie luate în considerare câteva aspecte importante:
- Serviciile de stocare în cloud sunt deținute de companii private, care pot avea dreptul să acceseze datele sau să le utilizeze conform politicilor proprii.
- Nu există garanții privind securitatea pe termen lung, deoarece compania furnizoare poate înceta activitatea.
Stocarea în cloud NU este recomandată pentru date sensibile!
Stocarea optică
Stocarea optică include suporturi precum CD-uri și DVD-uri. La fel ca hard disk-urile externe, acestea nu ar trebui păstrate în apropierea computerului principal, pentru a evita pierderile cauzate de furt sau dezastre. De asemenea, nu reprezintă o soluție de stocare pe termen lung, deoarece CD-urile și DVD-urile se degradează în timp.
LICENȚELE CREATIVE COMMONS PENTRU DATELE DE CERCETARE
Licențele Creative Commons (CC) sunt un set de licențe deschise care permit cercetătorilor să își distribuie și să utilizeze datele de cercetare într-un mod clar, flexibil și juridic protejat, oferind o modalitate standardizată de a acorda permisiuni asupra utilizării datelor, promovând partajarea și reutilizarea responsabilă.
Cele mai comune licențe internaționale pentru partajarea datelor sunt licențele Creative Commons (CC) și licențele Open Data Commons (ODC).
Tipuri de licențe Creative Commons și Open Data Commons pentru datele de cercetare
Licența | Tipul | Descrierea |
|
Licențele Creative Commons | |||
CC BY | Atribuire | Este una dintre cele mai flexibile și frecvent utilizate licențe din setul Creative Commons și permite utilizatorilor să partajeze, să adapteze și să reutilizeze datele de cercetare în orice scop (inclusiv comercial), cu singura condiție de a oferi recunoaștere (atribuite) corespunzătoare autorului original. Este considerată standardul de aur pentru promovarea accesului deschis la date.
| ![]() |
CC BY-SA | Atribuire – Distribuire în condiții identice | Licența CC BY-SA este o licență deschisă care permite utilizatorilor să partajeze, să modifice și să reutilizeze datele, inclusiv în scopuri comerciale, cu condiția să acorde credit autorului original și să distribuie datele derivate sub aceeași licență. Aceasta este cunoscută și sub denumirea de „copyleft”, datorită cerinței ca toate adaptările să fie distribuite în aceleași condiții de licență ca cele originale.
| ![]() |
CC BY-NC | Atribuire – Fără utilizare comercială | Această licență include o clauză specifică de tip Non Commercial, care interzice în mod explicit reutilizarea datelor în scopuri comerciale. Materialul licențiat poate fi partajat, redistribuit, transformat, dezvoltat și adaptat liber în orice scop, cu excepția celor care implică utilizare comercială. Utilizatorii datelor au obligația de a acorda credit autorilor originali și de a indica clar orice modificări realizate asupra datelor inițiale.
| ![]() |
CC BY-ND | Atribuire – Fără derivate | Permite partajarea și redistribuirea liberă a datelor, dar interzice modificarea acestora. Utilizatorii care distribuie datele trebuie să acorde credit autorilor originali. Cu toate acestea, nu este permisă crearea de seturi de date derivate, adică nu se pot modifica, transforma sau adapta datele originale. Această licență protejează datele de orice modificare, permițându-le totodată distribuirea liberă în forma lor originală.
| ![]() |
CC BY-NC-SA | Atribuire – Fără utilizare comercială – Distribuire în aceleași condiții | Permite partajarea, redistribuirea, transformarea și adaptarea datelor doar în scopuri non-comerciale. Utilizatorii trebuie să acorde credit autorilor originali și să indice modificările realizate. De asemenea, orice lucrare derivată trebuie distribuită sub aceeași licență, asigurându-se astfel că utilizarea comercială este interzisă și că termenii licenței sunt respectați în continuare.
| ![]() |
CC BY-NC-ND | Atribuire – Fără utilizare comercială – Fără derivate | Permite partajarea și redistribuirea datelor doar în scopuri non-comerciale, cu condiția ca datele să nu fie modificate în niciun fel. Utilizatorii trebuie să acorde credit autorilor originali și nu au voie să creeze date derivate (adică, nu pot modifica, transforma sau construi pe baza datelor originale). Astfel, datele pot fi distribuite, dar nu pot fi adaptate sau folosite în mod comercial.
| ![]() |
Open Data Commons | |||
ODC PDDL | Open Data Commons Public Domain Dedication and License | Permite deținătorilor de seturi de date să utilizeze un mecanism de licențiere pentru a renunța la drepturile lor asupra unui set de date, în cazul în care, conform legislației aplicabile, nu ar putea altfel să dedice setul de date domeniului public. PDDL oferă o soluție juridică pentru a asigura accesul liber și utilizarea neîngrădită a datelor, eliminând orice restricții legale ce ar putea fi impuse prin drepturile de autor sau alte drepturi similare. Licența este destinată promovării reutilizării și distribuției datelor, contribuind la dezvoltarea colaborativă și accesul deschis la informații și date. | |
ODC-By | Utilizatorii au permisiunea de a accesa, copia, distribui, utiliza, modifica și transforma datele, dar impune condiția ca utilizatorii să ofere atribuirea corespunzătoare autorului sau deținătorului original al datelor. | ||
ODC-ODbL | Permite utilizarea, modificarea și distribuția bazei de date, cu condiția de a atribui sursa originală și de a distribui orice date noi sau modificări sub aceleași termeni. | ||
Creative Commons Zero (CCO) | |||
CC0 1.0 | Dedicare în domeniul public | Permite autorilor să renunțe la toate drepturile de autor asupra setului de date și să îl plaseze în domeniul public. Astfel, datele devin complet libere de orice restricție legată de drepturile de autor și pot fi utilizate de oricine pentru orice scop, inclusiv scopuri comerciale, fără a fi necesar să se acorde credit autorului original. Prin aplicarea licenței CC0 1.0, autorii renunță explicit la drepturile lor asupra datelor, iar acestea pot fi distribuite, modificate, adaptate și reutilizate fără nicio condiție legală. | ![]() |
Adaptat: https://creativecommons.org/share-your-work/cclicenses/
Principii și reguli de aplicare a licențelor
Doar titularul drepturilor de autor sau cineva cu permisiune expresă din partea titularului drepturilor de autor poate aplica o licență CC sau CC0 asupra unei lucrări protejate prin drepturi de autor. Dacă ați creat o lucrare în cadrul locului de muncă, este posibil să nu fiți titularul drepturilor de autor.
Autorii trebuie să selecteze licența care se aliniază cu intențiile lor de utilizare a datelor. De exemplu, dacă doresc ca datele să fie reutilizate liber, fără condiții comerciale, ar putea alege CC-BY-NC.
Licența aplicată trebuie să fie clar marcată pe fișierele de date sau în metadatele lor, astfel încât utilizatorii să știe ce drepturi au și ce condiții trebuie să respecte.
Utilizatorii trebuie să respecte termenii specifici ai licenței, cum ar fi acordarea de credit autorilor originali sau interdicția de a crea lucrări derivate (dacă este cazul). Nerespectarea acestor condiții poate duce la încălcarea drepturilor de autor.
Dacă licența permite modificarea lucrărilor (de exemplu, CC-BY), orice lucrare derivată trebuie să fie clar identificată ca fiind modificată, iar utilizatorii trebuie să indice modificările realizate față de lucrarea originală.
Licențele Creative Commons nu pot fi revocate pentru lucrările deja distribuite. Odată ce lucrarea este distribuită sub o licență, utilizatorii care au obținut-o au drepturile de utilizare conform licenței respective.
Dacă autorii doresc să permită utilizarea datelor și în scopuri comerciale, trebuie să aleagă o licență care permite acest lucru, cum ar fi CC-BY (Atribuire). Pentru a interzice utilizarea comercială, licențele CC-BY-NC (Atribuire – Fără utilizare comercială) sau CC-BY-NC-SA (Atribuire – Fără utilizare comercială – Distribuire în aceleași condiții) sunt mai potrivite.
Atunci când selectați seturile de date pentru a le include într-un set de date adaptat, trebuie să vă asigurați că termenii de utilizare ai seturilor de date alese sunt compatibili între ei. În plus, dacă setul de date adaptat rezultat este protejat de drepturi de autor, licența pe care o alegeți pentru adaptare trebuie să fie compatibilă cu licențele individuale ale seturilor de date originale pe care le-ați utilizat în adaptare.
Un set de date adaptat este format prin combinarea, modificarea și/sau remixarea altor seturi de date protejate de drepturi de autor pentru a produce un set de date semnificativ nou, care este, la rândul său, protejat de drepturi de autor. Setul de date adaptat poate include propriile seturi de date primare, seturi de date cu drepturi de autor pe care ați primit permisiunea să le reutilizați și să le adaptați, seturi de date sub licență CC, seturi de date sub CC0 sau marcate ca aparținând domeniului public sau chiar seturi de date sub licență Open Government.
Suport în selectarea licenţei
Pentru a ajuta autorii să selecteze licența necesară pentru publicațiile și seturile de date în funcție de dorințele și intențiile lor referitoare la drepturile de autor, organizația Creative Commons a dezvoltat instrumentul online License Chooser https://chooser-beta.creativecommons.org/ , care ghidează autorii printr-un set de întrebări pentru a înțelege mai bine modul în care dorește să își partajeze lucrările și ce drepturi vrea să acorde altor persoane.
Atunci când se publică datele în depozitul de date CRIS al Universității Tehnice a Moldovei (UTM), se aplică un acord de licență asupra acestora. Acordul de licență constituie o înțelegere legală între creatorul sau depozitarul setului de date și depozitul CRIS, care definește în mod explicit drepturile utilizatorilor privind utilizarea datelor.
Este important ca utilizatorii să se asigure că dețin datele pe care le arhivează și le publică (sau să aibă permisiunea corespunzătoare pentru a le distribui).
Acest tabel clarifică utilizarea fiecărei licențe și poate ajuta utilizatorii să aleagă licența care se potrivește cel mai bine intențiilor lor legate de distribuirea și reutilizarea lucrărilor și datelor.
Licența | Pot copia și redistribui lucrarea? | Este obligatorie atribuirea autorului? | Pot utiliza lucrarea în scopuri comerciale? | Am voie să adaptez opera? | Pot modifica licența la redistribuire? |
CC0 | da | nu | da | da | da |
CC BY | da | da | da | da | da |
CC BY-SA | da | da | da | da | nu |
CC BY-ND | da | da | da | nu | da |
CC BY-NC | da | da | nu | da | da |
CC BY-NC-SA | da | da | nu | da | nu |
CC BY-NC-ND | da | da | nu | nu | da |
DEPOZITE (REPOZITORII) DE DATE
Depozitele de date sunt platforme destinate stocării, gestionării și conservării pe termen lung a seturilor de date. Un repozitoriu conține atât seturi de date, cât și descrierile acestora (metadate), permițând recuperarea și reutilizarea datelor.
Există mai multe tipuri de depozite de date:
- Instituționale
- Multidisciplinare
- Disciplinare
- Specifice editurilor
- Specifice proiectelor
Depozitele de date instituționale
Depozitele de date instituționale sunt platforme gestionate de universități, institute de cercetare sau alte organizații academice, având scopul de a stoca, conserva și oferi acces la datele produse de cercetătorii instituției respective.
Universitatea Tehnică a Moldovei gestionează depozitul de date UTM CRIS https://cris.utm.md/ , care oferă cercetătorilor posibilitatea de a arhiva, documenta și partaja datele rezultate din activitățile lor științifice.
Depozite de date multidisciplinare
Un depozit de date multidisciplinar conține date din multiple arii de cercetare. Ele reprezintă o opțiune excelentă pentru stocarea datelor, deoarece oferă funcționalități robuste (cum ar fi integrarea simplă cu GitHub) şi sunt indexate de motoare de căutare majore, precum Google și Bing. Depozitele de date cu conţinut universal sunt o soluție accesibilă pentru cercetătorii care nu dispun de un repozitoriu specializat în domeniul lor sau de resurse financiare pentru platforme cu plată, oferind posibilitatea de a depozita și distribui gratuit datele de cercetare în regim de acces deschis, alături de atribuirea unui identificator DOI pentru o citare corespunzătoare.
Câteva exemple de depozite multidisciplinare de date:
Depozite de date disciplinare
Depozitele de date bazate pe discipline sunt foarte specializate și bine cunoscute în cadrul unui anumit domeniu științific. Câteva registre şi directorii ce conţin liste de depozite de date autorizate:
Ce să luați în considerare atunci când alegeți un depozit de date
- Atunci când alegeți un depozit pentru datele dvs., luați în considerare următoarele aspecte:
- Există depozite specifice pentru domeniul dvs. de interes?
- Există cerințe specifice ale finanțatorului sau ale revistei pentru partajarea datelor?
- Depozitul emite un identificator persistent (ex. DOI)?
- Există un plan de păstrare pe termen lung al datelor?
- Există costuri pentru stocarea datelor? Sunt și taxe pentru accesarea seturilor de date?
- Este depozitul certificat sau indexat?
- Este depozitul complet deschis sau există restricții de acces?
- Principiile FAIR sunt respectate, adică datele vor fi găsibile, accesibile, interoperabile și reutilizabile?
Modalități de utilizare Google pentru a găsi seturi de date
Google oferă un instrument dedicat căutării de seturi de date: Google Dataset Search.
Căutarea fișierelor după tip
Puteți căuta în Google seturi de date într-un format specific, cum ar fi fișiere CSV sau Excel. Introducând în bara de căutare filetype:csv, indicați motorului de căutare să afișeze doar fișiere de acest tip. De exemplu:
(populaţia AND moldova) filetype:xls – va returna fișiere Excel (.XLS) care conțin informații despre populaţia din Republica Moldova.
Limitarea rezultatelor la un anumit domeniu web
Pentru a restricționa rezultatele căutării la un anumit tip de site-uri, utilizați comanda site: urmată de domeniul dorit. De exemplu:
site:.gov (SUBIECTUL DORIT) – afișează doar rezultate din domenii guvernamentale.
site:.org (SUBIECTUL DORIT) – oferă rezultate din organizații profesionale și non-profit.
Aceste tehnici vă ajută să găsiți rapid seturi de date relevante, provenite din surse de încredere.
DOCUMENTAREA DATELOR
Documentarea datelor de cercetare reprezintă procesul de înregistrare și organizare a informațiilor despre un set de date, incluzând descrierea contextului de colectare, metodologia utilizată, structura fișierelor, variabilele, unitățile de măsură, transformările aplicate și drepturile de utilizare, astfel încât acestea să fie comprehensibile, reutilizabile și verificabile de către alți cercetători.
Metadatele înseamnă „date despre date” și se referă la informațiile necesare pentru înțelegerea, interpretarea și utilizarea unui set de date. Metadatele sunt importante deoarece permit o organizare eficientă a datelor de cercetare, îmbunătățesc descoperirea acestora, facilitează partajarea, furnizează identificatori digitali și susțin arhivarea și conservarea datelor.
Puteți lua în considerare următoarele elemente pentru a descrie și documenta datele pe care le colectați/generați:
Elemente | Descriere |
Autor (Creator) | numele organizațiilor sau persoanelor care au creat datele; se recomandă formatul „Nume, Prenume” (ex.: Popescu, Maria) |
Titlu | numele setului de date sau al proiectului de cercetare care a generat datele |
Identificator | un număr unic utilizat pentru identificarea dataset-ului, chiar dacă este doar un număr intern de referință al proiectului |
Anul creării | anul în care setul de date sau proiectul de cercetare a fost creat sau publicat |
Tipul resursei | categoria dataset-ului (ex.: imagini, texte, seturi de date numerice) |
Date | datele-cheie asociate dataset-ului, inclusiv: începutul și sfârșitul proiectului, data publicării, perioada acoperită de date și alte repere temporale, cum ar fi ciclul de actualizare, format recomandat: aaaa-ll-zz sau aaaa.ll.zz-aaaa.ll.zz pentru intervale |
Metodologie | modul în care au fost generate datele, incluzând echipamentele și software-ul utilizat (model, versiune), formule, algoritmi, protocoale experimentale și alte detalii relevante |
Sursă | referințe la datele obținute din alte surse, cu detalii despre locația și modul de accesare |
Finanțator | organizațiile sau agențiile care au finanțat cercetarea |
Cuvinte-cheie | Termeni relevanți care descriu conținutul dataset-ului și facilitează identificarea acestuia |
Descrierea tehnică | toate informațiile tehnice relevante, inclusiv o listă a tuturor fișierelor care compun setul de date, cu extensiile și formatele de fișiere relevante și structurile acestora, o explicație a codurilor sau abrevierilor utilizate în denumirile fișierelor, o listă a tuturor variabilelor din fișierele de date, precum și numele și numerele de versiune ale tuturor pachetelor software necesare pentru a utiliza, vizualiza sau analiza datele. |
Acces și drepturi | Orice drepturi de proprietate intelectuală, drepturi legale, licențe sau restricții privind utilizarea datelor, locația și modul în care dataset-ul poate fi accesat de către alți cercetători.
|
Standarde de metadate
Standardele de metadate specifică ce informații trebuie incluse în metadate. Există standarde de metadate destinate utilizării generale, neutre din punct de vedere al disciplinei:
Dublin Core https://www.dublincore.org/
DataCite Metadata Schema https://schema.datacite.org/
Pe lângă acestea, există și standarde de metadate specifice anumitor domenii de cercetare. Pentru a identifica și explora aceste standarde, cercetătorii pot consulta următoarele resurse:
FAIRsharing Registry: Standards
Disciplinary Metadata Digital Curation Centre din Regatul Unit
README
Un set de date de cercetare ar trebui să aibă un fișier Readme care să conțină metadatele despre setul de date. Fișierul Readme poate fi un fișier text simplu (cu extensia .txt) sau o foaie într-un tabel de calcul (cu extensia .csv). Acesta îmbunătățește transparența unui proiect de cercetare și este primul fișier pe care un cercetător ar trebui să îl consulte atunci când lucrează cu un set de date. Dacă există mai multe fișiere într-un set de date, fișierul Readme oferă informații despre relațiile și ierarhia dintre fișiere.
Pentru a crea un fișier README clar și util, puteți consulta resurse, ce oferă ghiduri și exemple pentru structurarea eficientă a acestuia:
PARTAJAREA DATELOR
Beneficiile partajării datelor
Partajarea datelor de cercetare aduce multiple beneficii, atât pentru cercetători, cât și pentru comunitatea științifică și societate în general. Câteva motive pentru care este importantă partajarea datelor de cercetare:
- Partajarea datelor permite altor cercetători să verifice și să reproducă rezultatele cercetării, un aspect important pentru validitatea științifică.
- Atunci când datele sunt accesibile altora, pot apărea noi colaborări și utilizări ale datelor într-un context diferit, ceea ce poate stimula inovația și avansarea cercetării.
- Partajarea datelor contribuie la creșterea profilului academic al cercetătorilor, oferindu-le recunoaștere pentru datele lor ca rezultat de cercetare de sine stătător, ceea ce le permite să beneficieze de credit pentru contribuțiile lor valoroase.
- Prin partajarea datelor, impactul și vizibilitatea cercetării sunt amplificate, oferind cercetătorilor oportunitatea de a ajunge la o audiență mai largă și de a atrage atenția asupra importanței muncii lor.
- Mulți finanțatori și instituții de cercetare cer ca datele să fie partajate pentru a asigura utilizarea responsabilă a resurselor și pentru a sprijini impactul maxim al cercetării publicate.
- Partajarea datelor permite unui număr mai mare de cercetători să le folosească pentru a construi pe baza acestora, ceea ce poate contribui la accelerarea progresului științific în domeniul respectiv.
- Datele de cercetare deschise pot fi utilizate pentru a rezolva provocări globale importante, cum ar fi schimbările climatice, probleme de sănătate publică sau dezvoltarea tehnologică, prin facilitarea accesului la informațiile necesare.
- În multe cazuri, partajarea datelor ajută la respectarea principiilor etice ale cercetării, mai ales în domenii precum științele sociale sau medicale, unde transparența este esențială pentru protecția participanților și pentru utilizarea responsabilă a datelor sensibile.
Modalități de partajare a datelor
- Depuneți datele într-un depozit instituțional, respectând politicile și cerințele universității;
- Depuneți datele într-unul dintre depozitele de date deschise, asigurându-le accesibilitatea și vizibilitatea;
- Publicați datele în reviste științifice ca supliment la articolul dvs., oferind context și detalii suplimentare;
- Includeți setul de date pe pagina personală sau pe profilurile dumneavoastră de cercetare online, facilitând accesul comunității științifice;
- Gândiți-vă la modalități de a face datele mai ușor de descoperit, folosind metadate clare și standardizate;
- Oferiți datele la cerere altor cercetători, promovând colaborarea și reutilizarea.
Recomandări pentru a partaja eficient datele
- Identificați ce puteți și ce nu puteți face cu datele dvs. Este important să înțelegeți drepturile și restricțiile legate de datele pe care le dețineți. Verificați dacă există termeni legali, confidențialitate sau clauze contractuale care limitează utilizarea acestora.
- Citiți mandatele agențiilor, politicile revistelor etc. Dacă lucrați cu finanțări de la agenții guvernamentale sau organizații de cercetare, asigurați-vă că respectați cerințele acestora privind partajarea datelor. De asemenea, consultați politicile revistelor academice sau ale altor platforme relevante cu privire la depozitarea și partajarea datelor.
- Căutați un depozit pentru a vă înregistra datele Identificați un depozit/repozitoriu potrivit pentru domeniul dvs. de cercetare. Există multe depozite (vezi: Depozite de date) specializate, publice sau instituționale, care acceptă diferite tipuri de date științifice.
- Depozitul pe care îl alegeți trebuie să fie adecvat tipului de date și nevoilor dvs. Verificați cerințele tehnice ale depozitului ales, cum ar fi tipurile de fișiere acceptate, capacitatea de stocare, termenii de utilizare și accesibilitatea datelor. Asigurați-vă că depozitul oferă o infrastructură de încredere și este accesibil cercetătorilor din întreaga lume.
- Pregătiți datele. Înainte de a partaja datele, asigurați-vă că sunt complet pregătite: verificați corectitudinea, completitudinea și structura acestora. Asigurați-vă că sunt într-un format care poate fi utilizat ușor de alți cercetători.
- Stabiliți cine are drepturi asupra datelor Clarificați drepturile de autor, permisiunile și accesul la datele respective. Asigurați-vă că orice colaborator sau instituție implicată are drepturile legale de a partaja datele.
- Curățați și documentați datele astfel încât alții să le poată utiliza eficient Este esențial să curățați datele de erori sau informații confidențiale și să le documentați corespunzător. Adăugați metadate, descrierea metodologiei, condițiile de colectare și orice altă informație relevantă pentru a facilita utilizarea corectă a datelor de către alți cercetători.
- Utilizați formate de fișiere standard, deschise și larg acceptate Alegeți formate de fișiere care sunt universal accesibile și care nu depind de programe proprietare. Formatele deschise, cum ar fi CSV pentru date numerice sau XML pentru date structurate, sunt preferabile.
- Atribuiți o licență (vezi: Licențe) pentru a preciza cum pot fi utilizate datele dvs. Specificați un tip de licență pentru datele dvs. (de exemplu, CC BY), astfel încât utilizatorii să știe ce drepturi au asupra acestora, precum utilizarea, modificarea și redistribuirea.
- Depozitați datele (vezi: Depozite de date) După ce ați pregătit și documentat datele, depuneți-le într-un depozit adecvat, asigurându-vă că sunt accesibile publicului sau cercetătorilor autorizați, în funcție de licența aleasă.
- Obțineți un DOI pentru a atribui datelor un identificator unic persistent Obținerea unui DOI (Digital Object Identifier) va asigura că datele dvs. au un identificator unic și persistent, ceea ce facilitează citarea și referințele ulterioare ale acestora în cercetările viitoare.
- Stabiliți o citare pentru datele dvs. Este important să furnizați un mod corect de citare a datelor, conform standardelor academice, astfel încât să fie ușor accesibile și să poată fi corect atribuite în lucrările științifice.
- Includeți ID-ul ORCID al creatorului (creatorilor) setului de date pentru a evidenția legătura dintre setul de date și autorul (autorii) acestuia.
- Scrieți un articol despre datele dvs. pentru a le oferi o vizibilitate mai mare Publicați un articol sau o descriere detaliată a setului de date pentru a atrage atenția asupra acestora.
CITAREA DATELOR
Citarea datelor înseamnă referințe la date, în același mod în care cercetătorii furnizează în mod obișnuit o referință bibliografică la alte resurse științifice.
Citarea seturilor de date îndeplinește mai multe funcții principale:
- Sprijină credibilitatea și reproductibilitatea științifică, oferind acces la sursele originale de date;
- Oferă recunoaștere echitabilă creatorilor de date și responsabililor cu gestionarea acestora;
- Asigură transparența științifică și responsabilitatea privind utilizarea și interpretarea datelor;
- Facilitează urmărirea impactului unui set de date și a arhivei în care este stocat;
- Permite autorilor de date să verifice modul în care datele lor sunt utilizate de alți cercetători;
- Ajută viitorii utilizatori să înțeleagă aplicabilitatea datelor, analizând utilizările anterioare ale acestora.
Pentru a asigura o citare corectă și completă a seturilor de date de cercetare, este necesar să se utilizeze elemente de metadate standardizate. Ordinea recomandată de prezentare în referință include următoarele elemente:
Elemente (în ordine) | Stare / Statut |
Numele creatorului (creatorilor) | Obligatoriu atunci când faceți referire la un anumit context |
Identificatori standard ai identităților publice ale creatorilor | Opțional |
Titlul resursei informaționale | Obligatoriu |
Ediție și versiune | Opțional |
Format și tip de resursă | Obligatoriu |
Cerințe de sistem | Obligatoriu dacă datele sunt specifice |
Numele arhivei gazdă | Obligatoriu, dacă este cazul |
Data publicării | Obligatoriu |
Drepturi de autor | Opțional |
Licență | Opțional |
Sursă de date | Opțional |
Distribuitor sau gazdă online | Obligatoriu, dacă este disponibil |
Instrucțiuni de utilizare | Opțional |
Relații | Obligatoriu pentru relațiile enumerate în standard |
Proveniență | Opțional |
Identificator persistent | Obligatoriu |
Locație și acces la rețea (URL) | Opțional (deoarece este necesar identificatorul persistent) |
Mărime fișier | Obligatoriu dacă datele sunt mari |
Alte informații pot fi adăugate în orice poziție este cea mai potrivită | Opțional |
Sursa: Standardul SM ISO 690:2022. Informare și documentare.
Reguli pentru prezentarea referințelor bibliografice și citarea resurselor de informare
Exemplu de citare conform SM ISO 690:2022
INSTITUTUL DE POLITICI PUBLICE. Barometrului Opiniei Publice în Republica Moldova, 2001-2022. Set de date: grafice și tabele în format SAV. Disponibil: http://bop.ipp.md [accesat 2023-08-15].
INSTITUTUL DE POLITICI PUBLICE; CENTRUL DE STUDII SOCIALE ȘI MARKETING „CBS-RESEARCH”. Calitatea vieții: probleme sociale. Set de date, grafice și tabele în format SAV. Barometrului Opiniei Publice – noiembrie 2022. Disponibil: https://ipp.md/wp-content/uploads/2022/12/Sondajul-BOPnoiembrie-2022.pdf [accesat 2023-08-21].
Stiluri și ghiduri de citare
Pentru o citare corectă a seturilor de date, există mai multe ghiduri și stiluri recunoscute internațional. Următoarele resurse online pot fi utile în procesul de citare:
DMPOnline, dezvoltat de Digital Curation Center (DCC), este un instrument interactiv online utilizat pentru plan managementului datelor. Acesta furnizează șabloane standard și specifice finanțatorilor de cercetare pentru cererile de finanțare, oferind posibilități de salvare, partajare și editare a planurilor de management al datelor, exportul în diverse formate și primirea de feedback din partea experților.
DMPTool este o aplicație online gratuită și open-source, care ajută cercetătorii să elaboreze planuri de management al datelor. Aceasta oferă legături directe către site-urile web ale finanțatorilor, funcționalități de ajutor pentru întrebări, instrucțiuni detaliate și resurse despre cele mai bune practici în gestionarea datelor.
DataCite este principalul furnizor global de DOI-uri (Digital Object Identifier) pentru datele de cercetare.