Beschreibung des Online-Dienstes RADAR4KIT

Ziele

RADAR4KIT - Research Data Repository for KIT - ist ein disziplinübergreifendes Forschungsdatenrepositorium für die Archivierung und Publikation von Forschungsdaten aus wissenschaftlichen Studien und Projekten von Forschenden des KIT. Unter Forschungsdaten werden in RADAR4KIT digitale Daten verstanden, die im Forschungsprozesses entstehen.

RADAR4KIT speichert Forschungsdaten grundsätzlich in Form von Datensätzen, die aus einer oder mehreren Dateien bestehen können. Diese enthalten die eigentlichen Forschungsdaten sowie beschreibende Metadaten. Im Folgenden wird eine solche Zusammenstellung als „Datenpaket“ bezeichnet.

Betreiber

RADAR4KIT wird vom Karlsruher Institut für Technologie angeboten („Betreiber“) und setzt auf dem von FIZ Karlsruhe angebotenen Dienst RADAR auf. Die Speicherung der Daten findet ausschließlich auf IT-Infrastruktur des KIT am Steinbuch Centre for Computing (SCC) statt. Der Dienst richtet sich primär an Forschende des KIT („Datengeber”), welche ihre Daten archivieren oder publizieren wollen. In RADAR4KIT können Daten für Dritte („Datennutzer“) zugänglich gemacht oder im Internet publiziert werden.

Registrierung und Benutzerprofile

RADAR4KIT ist ein Onlinedienst und kann ausschließlich über das Internet genutzt werden. Alle Forschenden des KIT können sich über Ihren KIT-Account (Shibboleth) bei RADAR4KIT anmelden. Zusätzlich können in besonderen Fällen weitere Accounts für KIT-Externe angelegt werden.

Rollen und Rechte

Der Administrator kann für verschiedene Nutzergruppen (z.B. Forschungsgruppen, Projekte, Institute) voneinander getrennte Arbeitsbereiche einrichten. Folgend kann der Administrator weitere bei RADAR4KIT registrierte Nutzer über den Onlinedienst mit Rechten als Datengeber für einen oder mehrere dieser Arbeitsbereiche versehen („Kurator“). Üblicherweise wird der Administrator dabei Mitarbeiter/innen der eigenen Institution als Kurator bestimmen; bei Bedarf kann er jedoch auch institutionsfremde Personen entsprechend berechtigen. In RADAR4KIT können Kuratoren ausschließlich in die für sie vom Administrator bestimmten Arbeitsbereiche Forschungsdaten hochladen, bearbeiten, archivieren und gegebenenfalls publizieren. Vom Administrator bestimmte Kuratoren können wiederum andere, bei RADAR4KIT registrierte Nutzer als Subkuratoren für ihren Arbeitsbereich berechtigen. Subkuratoren sind ebenfalls Datengeber, haben jedoch nicht die Möglichkeit, Datenpakete zu archivieren bzw. zu publizieren oder andere Nutzer als Subkuratoren zu bestimmen.

Dienstleistungen

RADAR4KIT kann über eine webbasierte Benutzungsoberfläche mit aktuellen Webbrowsern oder über eine REST-basierte Programmierschnittstelle (API) genutzt werden. Der Datengeber kann innerhalb des ihm zugewiesenen Arbeitsbereichs Datenpakete anlegen und diesen einzelne Dateien oder ZIP-Dateien mit mehreren enthaltenen Dateien zuordnen, die er über das Internet zu RADAR4KIT transferiert. Über die Benutzeroberfläche kann er einzelne Daten hinzufügen oder löschen.

Der Datengeber kann Datenpakete mit Metadaten beschreiben. Dazu stellt der Dienst auf der RADAR4KIT-Plattform ein Formular bereit. Alternativ ist es möglich, die Metadaten offline als XML-Datei zu erstellen und dann auf die RADAR4KIT-Plattform hochzuladen. Datengeber können über die RADAR4KIT-Plattform eine Vorlage für eine entsprechende XML-Datei sowie ein XML Schema zum Validieren der Metadaten in der jeweils aktuellsten Version herunterladen. Der Administrator hat darüber hinaus die Möglichkeit, für Arbeitsbereiche Default-Werte für beschreibende Metadaten zu hinterlegen. Diese werden dann Datengebern beim Erstellen der beschreibenden Metadaten vorgeschlagen.

Ist die Zusammenstellung eines Datenpakets und dessen Beschreibung mit Metadaten abgeschlossen, kann der Kurator zwischen zwei Optionen wählen: Archivierung oder Publikation der Forschungsdaten.

Die Archivierung erlaubt die optionale Beschreibung des Datenpakets mit deskriptiven Metadaten. Üblicherweise werden weder Daten noch Metadaten öffentlich zugänglich gemacht, dies kann jedoch durch den Kurator eigenständig durch entsprechende Rechtevergabe über das Onlinesystem verändert werden. Die Daten erhalten in diesem Fall keinen Persistenten Identifier. Der Kurator muss die gewünschte Aufbewahrungsfrist festlegen.

Für die Publikation eines Datenpakets sind dessen valide Beschreibung in Form deskriptiver Metadaten sowie die Vergabe einer Lizenz durch den Datengeber erforderlich. Grundsätzlich sind Metadaten und Daten öffentlich recherchier- und zugreifbar. Für die Daten kann der Datengeber optional einen Embargozeitraum bestimmen, innerhalb dessen nur die Metadaten öffentlich recherchier- und zugreifbar sind. Nach Ablauf der Embargofrist werden auch die Daten automatisch öffentlich zugreifbar. RADAR4KIT vergibt für jedes publizierte Datenpaket einen Persistenten Identifier (hier: Digital Object Identifier, kurz DOI) und registriert diesen bei DataCite. Über diesen DOI ist das publizierte Datenpaket persistent identifizierbar, zitierfähig und kann mit einer herkömmlichen wissenschaftlichen Publikation z.B. bei KITopen verknüpft werden. Gleichzeitig werden die deskriptiven Metadaten an DataCite übertragen. Der Datengeber muss sie dazu zwingend unter Creative Commons Zero (CC0) 1.0 Universell lizensieren. Für die Übertragung erfolgt eine automatische Umwandlung der deskriptiven Metadaten vom RADAR-Format in das DataCite-Format. Weiterhin werden die deskriptiven Metadaten sowohl im RADAR- als auch im DublinCore-Format über einen OAI-Provider öffentlich zum Harvesting angeboten.

Für publizierte und archivierte Datenpakete muss eine Lizenz aus einer vorgegebenen Liste von empfohlenen Lizenzen ausgewählt werden. Die Liste umfasst alle Creative Commons 4.0 International Lizenzen (inklusive der CC0 1.0 Universell), eine „All rights reserved“-Lizenz sowie die Möglichkeit, eine proprietäre Lizenz anzugeben. Der Betreiber behält sich vor, die Liste um weitere Lizenzen zu ergänzen.

Temporärer Speicher

Für die Zusammenstellung und Beschreibung von Datenpaketen stellt der Betreiber sogenannten temporären Speicher zur Verfügung. Ist der insgesamt verfügbare temporäre Speicher gefüllt, können solange keine weiteren Daten durch die berechtigten Datengeber mehr hinzugefügt werden, bis Dateien gelöscht, Datenpakete archiviert bzw. publiziert wurden oder der temporäre Speicher vergrößert wurde. Im Fall einer Archivierung oder Publikation wandern die Datenpakete aus dem temporären Speicher in den permanenten Speicher. Diese Datenpakete belegen danach im temporären Speicher keinen Speicherplatz mehr. RADAR4KIT beschränkt die Nutzung des temporären Speichers zeitlich. Die maximale Nutzungsdauer des temporären Speichers wird dabei pro Datenpaket überprüft. Datenpakete können maximal sechs Monate im temporären Speicher belassen werden. Danach müssen sie entweder archiviert, publiziert oder gelöscht werden. Einen Monat vor Ende der Speicherfrist versendet RADAR4KIT eine E-Mail mit einem Hinweis auf das baldige Ende der Speicherfrist an den Datengeber. Im wöchentlichen Rhythmus sendet RADAR4KIT daraufhin eine Erinnerung per E-Mail mit dem Hinweis auf das nahende Ende der Speicherfrist. Wurde das Datenpaket nach sechs Monaten durch den Datengeber weder gelöscht noch archiviert bzw. publiziert, löscht RADAR4KIT das Datenpaket.

Quotas

In RADAR4KIT ist die maximal nutzbare Größe des temporären Speichers, des für archivierte Datenpakete und des für publizierte Datenpakete genutzten permanenten Speichers begrenzt. Die für die einzelnen Kategorien zur Verfügung stehenden Speichermengen pro Mitarbeiter sind in der IT-Grundausstattung geregelt.

Haltefristen und Unveränderlichkeit von Datenpaketen

RADAR4KIT ermöglicht die dauerhafte und unverfälschte Aufbewahrung von Datenpaketen über eine definierte Zeitspanne („Aufbewahrungsfrist“). Für archivierte Datenpakete legt der Datengeber eine Aufbewahrungsfrist fest. Die tatsächliche Dauer der Speicherung für archivierte Datenpakete kann kürzer sein, wenn der Dienst RADAR4KIT vor Ablauf der Aufbewahrungsfrist eingestellt wird. Für publizierte Datenpakete muss keine Aufbewahrungsfrist ausgewählt werden, sie ist prinzipiell unbeschränkt. Das KIT garantiert eine tatsächliche Aufbewahrung von mindestens 10 Jahren. Während der Aufbewahrungsfrist verändert RADAR4KIT die gespeicherten Datenpakete nicht mehr, sondern sichert ausschließlich deren physischen Erhalt („bitstream preservation“). Entsprechend garantiert RADAR4KIT weder die dauerhafte Nutzbarkeit noch die Interpretierbarkeit der in einem Datenpaket enthaltenen Daten, da diese von der Verfügbarkeit der vom Datengeber gewählten Datenformate und entsprechender Programme zu deren Interpretation abhängen.

Datenpakete im permanenten Speicher können nicht mehr verändert werden. Löschungen können in begründeten Ausnahmefällen nach Absprache mit dem Betreiber durch den Administrator durchgeführt werden. Zu begründeten Ausnahmefällen gehören z.B. Rechtsverstöße oder fehlerhafte Daten. Bei einer Löschung werden nur die Daten gelöscht, nicht aber die Metadaten. Diese enthalten einen Hinweis, dass die Daten gelöscht wurden.

Begutachtung von Forschungsdaten

RADAR4KIT unterstützt einen Review-Prozess vor einer Datenpublikation. Dazu kann ein Datenpaket vor der Publikation in den Status „in Begutachtung“ versetzt werden. In diesem Zustand ist das Datenpaket nicht mehr editierbar. RADAR4KIT erzeugt einen eindeutigen Link, den der Datengeber an den zuständigen Verlag bzw. die Gutachter weitergeben kann. Dieser Link ermöglicht einen Zugriff auf das noch nicht veröffentlichte Datenpaket ohne vorherige Authentifizierung. Nach Abschluss der Begutachtung kann der Datengeber den Status für das Arbeitspaket entweder wieder in den Bearbeitungsmodus überführen oder aber das Datenpaket publizieren. In beiden Fällen wird der erzeugte eindeutige Link ungültig, so dass Gutachter nicht mehr auf das Datenpaket zugreifen können. Der Datengeber kann ein Datenpaket mehrfach hintereinander in den Status „in Begutachtung“ versetzen. Der Betreiber führt darüber hinaus keine weitere inhaltliche Qualitätssicherung der eingestellten Forschungsdaten durch. Hierfür sind die Datengeber selbst verantwortlich.

Technische und organisatorische Maßnahmen zur Datensicherheit

Daten im temporären Speicher befinden sich auf Magnetplatten, die über einen RAID6-Verbund gegen Datenverlust durch Ausfälle einzelner Platten abgesichert sind. Zusätzlich werden die gespeicherten Daten täglich einmal inkrementell als Sicherheitskopie (Backup) auf Band geschrieben. Die Sicherheitskopie erfolgt auf Dateiebene und wird in zwei Generationen aufbewahrt.

Die Speicherung archivierter und publizierter Datenpakete erfolgt auf Magnetbändern in sogenannten Tape Libraries. RADAR4KIT speichert alle Datenpakete, die in den permanenten Speicher verschoben werden, in zwei Kopien an unterschiedlichen, räumlich getrennten Standorten auf unterschiedlichen Bändern. Die Speicherung erfolgt am Steinbuch Centre for Computing (SCC) des Karlsruher Instituts für Technologie (KIT) an zwei Standorten. Datenpakete werden vor der Speicherung mit einer Prüfsumme („checksum“) versehen, die nach jedem Kopiervorgang automatisch kontrolliert wird. Damit können Fehler während der Datenübertragung entdeckt und beseitigt werden („Ende-zu-Ende-Überprüfung“). Beim Zugriff auf ein Datenpaket wird erneut die Prüfsumme berechnet und mit dem gespeicherten Wert verglichen, um eventuelle Datenkonsistenzfehler zu identifizieren. Sollte hierbei ausnahmsweise ein Fehler erkannt werden, greift RADAR4KIT auf die zweite Kopie des Datenpakets zu. Regelmäßige Überprüfungen der Kopien auf eventuelle Bitfehler („fixity checks“) finden aktuell nicht statt. Das SCC hält seine jeweiligen Speicherinfrastrukturen stets auf dem aktuellen Stand der Technik. Dies führt dazu, dass in einem Zeitraum zwischen ca. fünf bis acht Jahren alle Daten auf neue Datenträger migriert werden. Bei jedem Lesevorgang und spätestens im Rahmen dieser Datenmigration findet eine Überprüfung auf Bitfehler statt.

Die für die Archivierung oder Publikation vorgesehenen Datenpakete werden vor der Übertragung in den permanenten Speicher in eine der BagIt-Spezifikation entsprechende Struktur überführt, die neben den eigentlichen Forschungsdaten in ihrer Original-Anordnung mit allen Dateien und Verzeichnissen auch technische und deskriptive Metadaten sowie ein der Spezifikation entsprechendes Manifest enthält. Die BagIt-Struktur wird in einer TAR-Datei zusammengefasst und als Archivinformationspaket (AIS) gemäß OAIS-Standard gespeichert.

Zugriffe auf den temporären Speicher erfolgen synchron, d.h. die Auslieferung der angefragten Daten startet ohne merkliche Verzögerung. Zugriffe auf den permanenten Bandspeicher erfolgen asynchron, d.h. es können in manchen Fällen einige Minuten zwischen Anforderung und Auslieferung vergehen. In Zeiten hoher Zugriffszahlen kann die Wartezeit ausnahmsweise auch im Stundenbereich liegen. Häufig zugegriffene Datenpakete werden, auch wenn sie bereits im permanenten Speicher gespeichert sind, regelmäßig über einen Cache schnell (d.h. synchron) ausgeliefert. Eine Zusicherung über eine schnelle Auslieferung aus dem permanenten Speicher kann nicht gegeben werden.

Vergabe von Zugriffsrechten und Embargos

Datenpakete, die bislang noch nicht archiviert oder publiziert wurden, sich also im Bearbeitungszustand befinden, sind nur für die Datengeber sowie die Administratoren einsehbar. Für die Begutachtung gibt es eine Ausnahmeregelung für die Gutachter (siehe Abschnitt „Begutachtung von Forschungsdaten“). Ein Kurator kann im eigenen Arbeitsbereich jederzeit an weitere bei RADAR4KIT registrierte Nutzer das Recht vergeben, als Datengeber (Kurator oder Subkurator) zu agieren.

Archivierte Datenpakete sind normalerweise nur für Datengeber sowie den Administrator zugreifbar. Der Datengeber kann weiteren bei RADAR4KIT registrierten Nutzern das Recht einräumen, die beschreibenden Metadaten einzusehen und die archivierten Datenpakete abzurufen. Falls gewünscht, kann er den archivierten Datensatz auch öffentlich zugänglich machen. Diese Rechtevergaben sind jederzeit durch den Datengeber änderbar.

Archivierte Daten (sofern sie der Datengeber nicht vollständig oder teilweise öffentlich zugänglich gemacht hat) sind weder über die Suche noch über OAI auffindbar. Dritte können weder die Daten noch die Metadaten einsehen oder recherchieren.

Publizierte Datenpakete sowie archivierte Datenpakete, bei denen der Datengeber die Zugriffsrechte so gesetzt hat, dass sie uneingeschränkt öffentlich zugänglich sind, können von allen bei RADAR4KIT angemeldeten und anonymen (nicht angemeldeten) Datennutzern abgerufen werden. Die beschreibenden Metadaten sind in der Weboberfläche durchsuchbar und werden zusätzlich über einen OAI-Provider zum Harvesting angeboten. Weiterhin sind sie auf www.datacite.org öffentlich einsehbar. Dies trifft auch zu, wenn die eigentlichen Forschungsdaten noch unter Embargo stehen. Der Datengeber kann für die eigentlichen Forschungsdaten eine Embargofrist von bis zu 12 Monaten nach Veröffentlichung einrichten, in der lediglich die Metadaten such- und abrufbar sind, nicht jedoch die Forschungsdaten. Nach Ablauf der Embargofrist sind dann auch die Forschungsdaten allgemein abrufbar.

 

KIT – Die Forschungsuniversität in der Helmholtz-Gemeinschaft