Оганізація файлів
Ретельно спланована структура папок зі зрозумілими назвами та інтуїтивно зрозумілим дизайном є основою для якісної організації даних. Структуроване та послідовне впорядкування файлів і дослідницьких даних може заощадити час на їх пошук у майбутньому.
У цьому розділі ви можете знайти деякі корисні практики, пов’язані зі структурою папок, іменуванням файлів та керуванням версіями.
Ретельно спланована структура папок зі зрозумілими назвами та інтуїтивно зрозумілим дизайном є основою для якісної організації даних. Структуроване та послідовне впорядкування файлів і дослідницьких даних може заощадити час на їх пошук у майбутньому.
У цьому розділі ви можете знайти деякі корисні практики, пов’язані зі структурою папок, іменуванням файлів та керуванням версіями.
Структура папок
Планування структури папок на ранніх етапах дослідницького процесу дозволяє побудувати логічну структуру. Якісна структура папок дозволяє легко знаходити потрібні файли. Ось кілька корисних практик, які слід враховувати під час проєктування структури папок:
Обирайте зрозумілі та унікальні назви папок; уникайте присвоєння однакового імені папці та підпапці. У верхній папці має бути файл «README.txt» з описом структури папки та файлів, які містяться в папках. Цей файл також має містити пояснення правил іменування файлів.
- Ієрархічна структура папок – це систематичний спосіб упорядкування файлів. Зазвичай ми починаємо з папок із широкими темами, а потім у наступній ієрархії йдуть підпапки з більш специфічними темами. Рекомендується не мати понад 4 рівнів, оскільки це може створити труднощі з пошуком файлів. Також рекомендується не мати надмірної кількості елементів у кожній папці.
- Задокументуйте структуру ваших папок – це допоможе і вам, і вашій команді, а також іншим дослідникам, з якими ви ділитеся своїми даними, зрозуміти, як організовані матеріали. Це також допомагає всім членам дослідницької групи відшукувати потрібні файли та послідовно виконувати процес архівування.
- Розмістіть старі версії документів в окремій папці, щоб ви бачили лише найновішу версію в робочій папці. Це допоможе уникнути випадкової роботи із застарілою версією.
- У верхній папці має бути файл «README.txt» з описом структури папки та файлів, які містяться в папках. Цей файл також має містити пояснення правил іменування файлів.
README.txt
Ознайомитися з загальними аспектами ваших даних, які ви повинні задокументувати, незалежно від вашої дисципліни.
Версії файлів
Контроль версій корисний/використовується, щоб відстежити зміни у файлах. Послідовний підхід до керування версіями файлів означає, що ви можете легко визначити останню копію файлу або остаточну версію файлу, не відкриваючи окремі файли.
Іменування файлів
Відповідна назва файлу допоможе вам зрозуміти, яка інформація міститься в ньому. Це також скоротить час, витрачений на пошук файлу в майбутньому. Нижче ви можете знайти кілька корисних порад щодо найменування файлів:
-
- Призначте описові назви
Назви файлів повинні відображати вміст файлів, включаючи такі елементи, як назва проєкту, дослідник, дата, місце знаходження, тип даних, версія, у послідовному порядку. Це допомагає переглядати вміст та логічно впорядковувати файли.
-
- Використовуйте короткі, але змістовні назви
Більшість систем, програмного забезпечення та репозиторіїв мають обмеження на довжину імені файлу. Ви можете використовувати скорочення або кодувати елемент (наприклад, дослідник, тип даних тощо), щоб назви файлів були короткими, але інформативними.
-
- Уникайте проміжків
Деяке програмне забезпечення може не розпізнавати пробіли в іменах файлів. Ви можете використовувати альтернативні способи, такі як підкреслення (research_data), тире (research-data), без розділення (researchdata) або використання регістру літер (ResearchData).
-
- Переконайтеся, що файли розташовані в хронологічному порядку
Використовуйте формат РРРРММДД (наприклад, 20260423 замість 23042026 або 04232026) для імен файлів, що містять елементи дати, та двозначні числа (наприклад, 01, 02, 03 замість 1, 2, 3) для імен файлів з послідовними номерами. Ці методи гарантують правильне сортування файлів.
-
- Уникайте використання небуквенно-цифрових символів
Не використовуйте спеціальні символи, такі як @ ~ \ / < > | ? ! [ ] ” * : ; = + & $ % в іменах файлів. Це може збільшити ймовірність помилки під час відкриття файлів в іншій програмі або операційній системі.
-
- Задокументуйте правила іменування файлів
Зберігання файлу з поясненням формату імені файлу, використаних скорочень та елементів коду допомагає всім, включаючи вас, запам’ятати та зрозуміти назви файлів у майбутньому.
Інструменти пакетного перейменування
Щоб перейменувати файли, імпортовані з іншої системи, програмного забезпечення або пристрою, відповідно до ваших правил іменування файлів використовуйте:
Windows:
- Завантажити Bulk Rename Utility
- Video tutorial Bulk Rename Utility
- Завантажити Ant Renamer
- Video tutorial Ant Renamer
Mac:
- Video tutorial
Керуванням версіями
Надання правильних версій вашим дослідницьким даним і файлам дозволить вам легко отримати певну версію. Це корисно, коли ви хочете переробити або отримати дані з певного етапу вашого проєкту.
-
- Використовуйте послідовну систему нумерації
Додайте порядковий номер (v01, v02, v03) до назви файлу або до правила двокомпонентної нумерації (v1.00, v1.01, v2.00), щоб позначити основні та другорядні зміни за допомогою порядкового та десяткового номерів відповідно. Уникайте використання неоднозначних термінів, таких як редакція, остаточний, остаточний2. Причину дивіться тут.
-
- Зберігати лише версії етапів
Хоча ми не рекомендуємо видаляти будь-які версії під час вашого дослідження, ми рекомендуємо зберігати лише основні версії для довгострокового зберігання через вартість та час, необхідні для управління вашими файлами в довгостроковій перспективі.
-
- Зберігати оригінальні файли як доступні лише для читання
Зберігання версії необроблених даних лише для читання може запобігти будь-якій випадковій зміні ваших цінних даних.
-
- Документуйте свої версії
Записуйте у таблицю контролю версій всі зміни, внесені щоразу, коли створюється нова версія. Це дозволить вам та вашим співробітникам виявляти відмінності між різними версіями, що дозволить знайти правильну версію в майбутньому.
Інструменти контролю версій
Контроль версій – це програмні інструменти, які дозволяють користувачам відстежувати зміни, внесені до файлів у каталозі комп’ютера. Хоча системи контролю версій зазвичай використовуються в галузі розробки програмного забезпечення, вони все частіше використовуються для спільної роботи в академічних та дослідницьких контекстах. Ці системи ідеально підходять для простих текстових файлів, таких як комп’ютерний код та документи. Git — це безплатна розподілена система контролю версій з відкритим кодом, розроблена для ефективного управління проєктами від малих до дуже великих.
Обробка даних
Обробка даних є критично важливим кроком для дослідників, щоб отримати змістовні висновки з зібраних даних. Вона включає такі навички, як визначення походження даних, очищення, аналіз та візуалізація.
Походження даних
Дослідники можуть просто записати походження за допомогою файлу Readme, але багато дослідників зараз фіксують походження даних за допомогою спеціальних інструментів.
-
- Електронні лабораторні зошити (ELN)
програмне забезпечення для заміни традиційних паперових лабораторних зошитів. ELN документують план дослідження, експерименти та процедури, що виконуються в лабораторії, що підтримує контроль доступу та співпрацю. Приклади ELN.
-
- Онлайн-обчислювальні блокноти
інтерактивне обчислювальне середовище, яке дозволяє писати та запускати коди, документувати методи та ділитися аналізом з іншими. Типовими прикладами є Jupyter Notebook та Google Colab
це безплатна відкрита платформа, створена Центром відкритої науки (COS), яка дозволяє дослідникам документувати, співпрацювати, реєструватися та обмінюватися дослідницькими проєктами та даними.
Очищення даних
Це важливий процес перетворення необроблених даних на дані, придатні для аналізу. Щоб забезпечити правильність і повноту набору даних, процес очищення даних включає, серед іншого, виправлення або видалення неповних даних, перехресну перевірку даних з перевіреним набором даних, стандартизацію суперечливих даних. Типові інструменти для очищення даних включають:
- OpenRefine
- MS Excel
- Python
- R
Аналіз даних
Це процес отримання змістовної інформації з необроблених даних. Ви можете знайти цікаві тенденції або закономірності та взаємозв’язки в наборах даних за допомогою різних статистичних методів, таких як статистичне моделювання, аналіз даних та алгоритми машинного навчання. Деякі приклади інструментів аналізу даних:
Візуалізація даних
Допомагає виявляти тенденції, асоціації та закономірності, які інакше неможливо легко визначити. Це також процес ефективного донесення вашого аналізу до аудиторії за допомогою таблиць, діаграм, графіків, карт, хмари слів тощо. Деякі приклади інструментів візуалізації даних:


