Планування роботи з даними залежить насамперед від того, будуть використані вторинні дані (вже існуючі бази даних, попередні анкети тощо) чи будуть згенеровані нові дані під час проєкту.
Наприклад,
1) Дані, отримані з загальнодоступних джерел, наприклад, Державної служби статистики України, – відкриті дані.
2) Дані, отримані з комерційних джерел, доступних за контрактом, потребують вирішення правових питань, пов’язаних із авторським правом.
3) Якщо зовнішня агенція набирає респондентів і надає результати дослідження, то треба погодити придбання, правила співпраці мають бути сформульовані в договорі з агентством, а результати ви отримуєте в анонімній формі.
4) Команда самостійно проводить інтерв’ю та опитування. Необхідно подбати про отримання інформованих згод, анонімізацію та захист даних тощо.
Якщо ви зацікавлені саме у відкритих наборах даних, рекомендуємо:
- Пошук наборів даних Google – Google Dataset Search – зручний інструмент для початку пошуку наборів даних у вашій дисципліні, однак він не є вичерпним покажчиком наборів даних, доступних у сховищах.
- Пошукова система re3data.org допомагає обрати серед різних типів сховищ: універсальних, тематичних та інституційних. Сховища даних надають дослідникам можливість завантажувати та публікувати власні дані, роблячи їх доступними для повторного використання іншими науковцями.
Архіви даних виконують подібну функцію — дозволяють депонувати й поширювати дані, проте зазвичай забезпечують вищий рівень контролю за дотриманням стандартів спільноти, містять чіткі інструкції щодо того, які саме дані приймаються на зберігання, та найчастіше пропонують послуги довгострокового збереження. У науковій практиці терміни «сховище даних» і «архів даних» іноді використовуються як синоніми, хоча між ними можуть існувати зазначені відмінності.
Сховище даних або архів надаватиме такі послуги:
- постійний ідентифікатор, такий як ідентифікатор цифрового об’єкта DOI, що полегшує пошук і цитування;
- допомогу з наданням метаданих, наприклад за допомогою шаблону;
- застосування ліцензії до ваших даних;
- допомогу в дотриманні принципів даних FAIR (дані відшукувані, доступні, сумісні та багаторазово використовувані), оскільки дані публікуються в мережі Інтернет з відповідними метаданими та їм присвоюється постійний ідентифікатор;
- завантаження широкого діапазону типів даних;
- тривалий доступ і, в деяких випадках, тривале збереження;
- функції пошуку, навігації та візуалізації;
- охоплення ширшої аудиторії потенційних користувачів.
- Журнали даних – платформи для публікації «статей про дані» або «статей про набори даних», які зазвичай є короткими статтями з технічним описом набору даних.
- Деякі журнали даних також публікують (тобто розміщують) набори даних самостійно. В інших робиться посилання на набори даних, розміщені у спеціальних сховищах даних.
- У традиційних журналах можуть бути посилання на набори даних або ж дослідницькі дані можуть бути вбудовані в структуру наукової статті.