Ir al contenido

Zenodo

De Wikipedia, la enciclopedia libre
Zenodo
Información general
Dominio https://zenodo.org
Tipo Repositorio de datos
Repositorio de acceso abierto
Herramienta de ciencia abierta
Comunidad en línea
Licencia GPLv2
Gestión
Operador Organización Europea para la Investigación Nuclear
OpenAIRE
Lanzamiento mayo de 2013
Estadísticas

Zenodo es un repositorio de acceso abierto de propósito general desarrollado bajo el programa europeo OpenAIRE y operado por CERN .[1][2]​ Permite a los investigadores depositar artículos de investigación, conjuntos de datos, software de investigación, informes y cualquier otro artefacto digital relacionado con la investigación. Para cada envío, se acuña un identificador de objeto digital persistente (DOI), lo que hace que los elementos almacenados se puedan citar fácilmente.

Financiadores que apoyan a Zenodo

[editar]

Puede vincular registros en Zenodo a subvenciones de los siguientes patrocinadores:

Comisión Europea (Programa Marco 7 / Horizonte 2020).

A finales de junio de 2017, también lanzaremos subvenciones para los siguientes donantes:


ARC - Consejo Australiano de Investigación (Australia)

FCT - Fundação para a Ciência e a Tecnologia, I.P. (Portugal)

MESTD - Ministerio de Educación, Ciencia y Desarrollo Tecnológico (Serbia)

MZOS - Ministerio de Ciencia, Educación y Deportes de la República de Croacia (Croacia)

NHMRC - Consejo Nacional de Investigación Médica y de Salud (Australia)

NSF - Fundación Nacional de Ciencias (EE. UU.)

NWO - Organización de los Países Bajos para la Investigación Científica (Países Bajos)

WT - Wellcome Trust (Reino Unido)

Además, OpenAIRE tiene los siguientes financiadores en proceso que estarán disponibles en Zenodo una vez que se lancen en OpenAIRE:


CSF - Fundación de Ciencias de Croacia (Croacia)

NIH - Institutos Nacionales de Salud (EE. UU.)

RCUK - Consejo de Investigación del Reino Unido (Reino Unido)

SFI - Fundación de Ciencias de Irlanda (Irlanda)

SNSF - Fundación Nacional de Ciencias de Suiza (Suiza)

TARA - Fundación Tara Expeditions

Características

[editar]

Zenodo se creó en 2013 con el nombre de repositorio de registros huérfanos de OpenAire [3]​ para permitir que los investigadores de cualquier área temática cumplan con cualquier requisito de depósito de ciencia abierta sin un repositorio institucional. Se relanzó como Zenodo en 2015 para proporcionar un lugar para que los investigadores depositen conjuntos de datos[4]​ permitiendo la carga de archivos hasta 50 GB.[5][6]

Proporciona un DOI a los conjuntos de datos[7]​ y otros datos enviados que carecen de uno para facilitar la cita y admite varios tipos de datos y licencias. Una fuente compatible son los repositorios de GitHub .[8]

Zenodo cuenta con el respaldo del CERN "como una actividad marginal" y está alojado en la infraestructura informática de alto rendimiento que se opera principalmente para las necesidades de la física de alta energía.[9]

Zenodo se ejecuta con Invenio (un entorno de software libre para repositorios digitales a gran escala), envuelto por una pequeña capa adicional de código que también se llama Zenodo .[10]

En 2019, Zenodo anunció una asociación con el repositorio de datos Dryad para desarrollar conjuntamente nuevas soluciones centradas en respaldar los flujos de trabajo de investigadores y editores, así como las mejores prácticas en software y curación de datos.[11]

Infraestructura

[editar]

Organizativo

[editar]

Institución de acogida

[editar]

Zenodo está alojado en el CERN, que existe desde 1954 y actualmente tiene un programa experimental definido para los próximos 20 años. El CERN es una institución de memoria para la Física de Altas Energías y es reconocida por su trabajo pionero en Acceso Abierto. Organizacionalmente, Zenodo está integrado en el Departamento de TI, Grupo de Aplicaciones y Dispositivos de Colaboración, Sección de Repositorios Digitales (IT-CDA-DR).

El CERN ofrece a Zenodo como parte de su misión de poner a disposición los resultados de su trabajo ( Convenio CERN, artículo II, §1 ).

[editar]

El CERN es una organización intergubernamental y tiene personalidad jurídica en los territorios metropolitanos de todos los Estados miembros del CERN ( Convenio CERN, artículo IX ) y goza de la capacidad jurídica correspondiente en virtud del derecho internacional público.

Como organización intergubernamental, el CERN disfruta de ciertos privilegios e inmunidades, incluida, por ejemplo, la inmunidad de jurisdicción de los tribunales nacionales para garantizar nuestra independencia de los Estados miembros individuales. Esto no significa que el CERN opere en algún tipo de vacío legal, ya que los protocolos requieren que el CERN resuelva sus disputas por otros medios. Lea más sobre el estatus legal del CERN en el Boletín del CERN .

Documentos legales:

  • Convención CERN
  • Protocolo sobre los privilegios e inmunidades de la Organización Europea de Investigación Nuclear

Fondos

[editar]

Zenodo está financiado por:

  • Comisión Europea a través de los proyectos OpenAIRE :
    • FP7: OpenAIRE (246686), OpenAIREplus (283595)
    • Horizonte 2020: OpenAIRE2020 (643410), OpenAIRE-Connect (731011) y OpenAIRE-Advance (777541).
  • CERN
  • Fundación Alfred P. Sloan
  • Fondo Arcadia
  • Donaciones vía CERN & Society Foundation

Zenodo se desarrolla y se respalda como una actividad marginal, y se aloja sobre la infraestructura y los servicios existentes en el CERN, con el fin de reducir los costos operativos y confiar en los esfuerzos existentes para la Física de Altas Energías. El CERN cuenta con algunos de los principales expertos del mundo en la ejecución de infraestructuras de datos de investigación a gran escala y repositorios digitales en los que confiamos para ofrecer un repositorio digital confiable.

Personal

[editar]

Actualmente, Zenodo es operado por:

  • Junta directiva: Alexandros Ioannidis-Pantopikos, Jose Benito Gonzalez Lopez, Lars Holm Nielsen, Tim Smith
  • Responsable de servicio: Alexandros Ioannidis-Pantopikos
  • Desarrolladores: George Lignos, Rodrigo Almeida

Sin embargo, Zenodo está integrado en un equipo mucho más grande, encabezado por José Benito González López, que ejecuta servicios como CERN Document Server , CERN Open Data , CERN Analysis Preservation y confiamos en gran medida en las funciones de desarrollo conjunto a través del marco de la biblioteca digital de Invenio .

Membresías

[editar]

El CERN es miembro activo de las siguientes organizaciones y organismos internacionales (no exhaustivo):

  • DataCite
  • ORCID
  • FORCE11 (en particular, Principios de citas de datos y Principios de citas de software)
  • Alianza de datos de investigación
  • SCOAP3

Somos socios en múltiples proyectos financiados por la Comisión Europea, entre otros:

  • OpenAIRE
  • EUDAT

Técnico

[editar]

Zenodo funciona con CERN Data Center y el marco de la biblioteca digital Invenio y se ejecuta completamente en productos de código abierto.

Físicamente, toda la infraestructura técnica de Zenodo se encuentra en las instalaciones del CERN, que están sujetas al estatus legal del CERN (ver arriba).

Gestión del servidor

[editar]

Los servidores de Zenodo se administran a través del sistema de administración de configuración OpenStack y Puppet , lo que garantiza que nuestros servidores siempre tengan aplicados los últimos parches de seguridad. Los servidores se monitorean a través de la infraestructura de monitoreo del CERN basada en Flume, Elasticsearch, Kibana y Hadoop. Los errores de la aplicación se registran y se agregan en una instancia de Sentry local . El tráfico a los servidores frontend de Zenodo se equilibra la carga a través de una combinación de equilibrio de carga de DNS y equilibradores de carga de HAProxy.

Además, estamos ejecutando dos sistemas independientes: un sistema de producción y un sistema de garantía de calidad . Esto asegura que todos los cambios, ya sea a nivel de infraestructura o de código fuente, puedan ser probados y validados en nuestro sistema de aseguramiento de la calidad antes de ser aplicados a nuestro sistema de producción.

Servidores frontend

[editar]

Los servidores frontend de Zenodo son responsables de ejecutar la aplicación de la plataforma de repositorio Invenio, que se basa en Python y el marco de desarrollo web Flask. Los servidores frontend ejecutan el servidor HTTP nginx y el servidor de aplicaciones uwsgi frente a la aplicación y nginx además se encarga de servir contenido estático.

Almacenamiento de datos

[editar]

Todos los archivos cargados en Zenodo se almacenan en el servicio EOS del CERN en un clúster de disco de 18 petabytes. Cada copia de archivo tiene dos réplicas ubicadas en diferentes servidores de disco.

Para cada archivo, almacenamos dos sumas de comprobación MD5 independientes. Invenio almacena una suma de comprobación y la utiliza para detectar cambios en archivos realizados desde fuera de Invenio. La otra suma de comprobación es almacenada por EOS y se utiliza para la detección y recuperación automática de archivos corruptos en discos.

Zenodo puede, dependiendo de los patrones de acceso en el futuro, mover el archivo y / o la copia en línea al sistema de almacenamiento en cinta a largo plazo CASTOR del CERN para minimizar los costos de almacenamiento a largo plazo.

EOS es la principal infraestructura de almacenamiento de baja latencia para datos físicos del Gran Colisionador de Hadrones (LHC) y el CERN actualmente opera múltiples instancias por un total de más de 150 petabytes de datos con tasas de crecimiento esperadas de 30 a 50 petabytes por año. El sistema CASTOR del CERN gestiona actualmente más de 100 petabytes de datos del LHC que se comprueban periódicamente para detectar daños en los datos.

Invenio proporciona un almacén de objetos como una capa de gestión de archivos sobre EOS que se encarga, por ejemplo, de los cambios de versión de los archivos.

Almacenamiento de metadatos

[editar]

Los metadatos y los identificadores persistentes en Zenodo se almacenan en una instancia de PostgreSQL operada en la infraestructura de base de datos bajo demanda del CERN con un ciclo de respaldo de 12 horas con un respaldo enviado al almacenamiento en cinta una vez a la semana. Además, los metadatos están indexados en un clúster de Elasticsearch para una búsqueda rápida y potente. Los metadatos se almacenan en formato JSON en PostgreSQL en una estructura descrita por JSONSchemas versionados. Todos los cambios en los registros de metadatos en Zenodo están versionados y ocurren dentro de las transacciones de la base de datos.

Además de los metadatos y el almacenamiento de datos, Zenodo confía en Redis para el almacenamiento en caché y RabbitMQ y python Celery para trabajos distribuidos en segundo plano.


Seguridad

[editar]

Nos tomamos la seguridad muy en serio y hacemos todo lo posible para proteger sus datos.

  • Centro de datos del CERN: nuestros centros de datos están ubicados en las instalaciones del CERN y todo acceso físico está restringido a un número limitado de personal con la capacitación adecuada y a quienes se les ha otorgado acceso de acuerdo con sus deberes profesionales (por ejemplo, el personal de Zendo no tiene acceso físico al Centro de datos del CERN).
  • Servidores: Nuestros servidores se administran de acuerdo con la línea de base de seguridad CERN para servidores, lo que significa, por ejemplo, que el acceso remoto a nuestros servidores está restringido al personal de Zenodo con la capacitación adecuada, y el sistema operativo y las aplicaciones instaladas se mantienen actualizados con los últimos parches de seguridad a través de nuestra administración de configuración automática. sistema de marionetas.
  • Red: El equipo de seguridad del CERN ejecuta sistemas de detección de intrusos basados ​​en la red y en el host y supervisa el flujo de tráfico, el patrón y el contenido dentro y fuera de las redes del CERN para detectar ataques. Todo el acceso a zenodo.org se realiza a través de HTTPS, a excepción de las páginas de documentación estática que se alojan en las páginas de GitHub.
  • Datos: Zenodo almacena las contraseñas de los usuarios mediante sólidos algoritmos de hash de contraseñas criptográficas (actualmente PBKDF2 + SHA512). Los tokens de acceso de los usuarios a GitHub y ORCID se almacenan cifrados y solo se pueden descifrar con la clave secreta de la aplicación.
  • Aplicación: estamos empleando un conjunto de técnicas para proteger su sesión de ser robada por un atacante cuando está conectado y ejecuta análisis de vulnerabilidades contra la aplicación.
  • Personal: El personal del CERN con acceso a los datos de los usuarios opera bajo la Circular Operativa del CERN núm. 5 , lo que significa, entre otras cosas, que
    • El personal no debe intercambiar entre ellos la información adquirida a menos que sea expresamente requerido para el desempeño de sus funciones.
    • El acceso a los datos del usuario debe ser siempre acorde con las funciones profesionales y solo permitido para resolución de problemas, detección de problemas de seguridad, seguimiento de recursos y similares.
    • El personal es responsable de los daños resultantes de cualquier infracción y se le puede retirar el acceso y / o estar sujeto a procedimientos disciplinarios o legales dependiendo de la gravedad de la infracción.

Organizativo

[editar]

Institución de acogida

[editar]

Zenodo está alojado en el CERN, que existe desde 1954 y actualmente tiene un programa experimental definido para los próximos 20 años. El CERN es una institución de memoria para la Física de Altas Energías y es reconocida por su trabajo pionero en Acceso Abierto. Organizacionalmente, Zenodo está integrado en el Departamento de TI, Grupo de Aplicaciones y Dispositivos de Colaboración, Sección de Repositorios Digitales (IT-CDA-DR).

El CERN ofrece a Zenodo como parte de su misión de poner a disposición los resultados de su trabajo ( Convenio CERN, artículo II, §1 ).

[editar]

El CERN es una organización intergubernamental y tiene personalidad jurídica en los territorios metropolitanos de todos los Estados miembros del CERN ( Convenio CERN, artículo IX ) y goza de la capacidad jurídica correspondiente en virtud del derecho internacional público.

Como organización intergubernamental, el CERN disfruta de ciertos privilegios e inmunidades, incluida, por ejemplo, la inmunidad de jurisdicción de los tribunales nacionales para garantizar nuestra independencia de los Estados miembros individuales. Esto no significa que el CERN opere en algún tipo de vacío legal, ya que los protocolos requieren que el CERN resuelva sus disputas por otros medios. Lea más sobre el estatus legal del CERN en el Boletín del CERN .

Documentos legales:

  • Convención CERN
  • Protocolo sobre los privilegios e inmunidades de la Organización Europea de Investigación Nuclear

Fondos

[editar]

Zenodo está financiado por:

  • Comisión Europea a través de los proyectos OpenAIRE :
    • FP7: OpenAIRE (246686), OpenAIREplus (283595)
    • Horizonte 2020: OpenAIRE2020 (643410), OpenAIRE-Connect (731011) y OpenAIRE-Advance (777541).
  • CERN
  • Fundación Alfred P. Sloan
  • Fondo Arcadia
  • Donaciones vía CERN & Society Foundation

Zenodo se desarrolla y se respalda como una actividad marginal, y se aloja sobre la infraestructura y los servicios existentes en el CERN, con el fin de reducir los costos operativos y confiar en los esfuerzos existentes para la Física de Altas Energías. El CERN cuenta con algunos de los principales expertos del mundo en la ejecución de infraestructuras de datos de investigación a gran escala y repositorios digitales en los que confiamos para ofrecer un repositorio digital confiable.

Personal

[editar]

Actualmente, Zenodo es operado por:

  • Junta directiva: Alexandros Ioannidis-Pantopikos, Jose Benito Gonzalez Lopez, Lars Holm Nielsen, Tim Smith
  • Responsable de servicio: Alexandros Ioannidis-Pantopikos
  • Desarrolladores: George Lignos, Rodrigo Almeida

Sin embargo, Zenodo está integrado en un equipo mucho más grande, encabezado por José Benito González López, que ejecuta servicios como CERN Document Server , CERN Open Data , CERN Analysis Preservation y confiamos en gran medida en las funciones de desarrollo conjunto a través del marco de la biblioteca digital de Invenio .

Membresías

[editar]

El CERN es miembro activo de las siguientes organizaciones y organismos internacionales (no exhaustivo):

  • DataCite
  • ORCID
  • FORCE11 (en particular, Principios de citas de datos y Principios de citas de software)
  • Alianza de datos de investigación
  • SCOAP3

Somos socios en múltiples proyectos financiados por la Comisión Europea, entre otros:

  • OpenAIRE
  • EUDAT

Técnico

[editar]

Zenodo funciona con CERN Data Center y el marco de la biblioteca digital Invenio y se ejecuta completamente en productos de código abierto.

Físicamente, toda la infraestructura técnica de Zenodo se encuentra en las instalaciones del CERN, que están sujetas al estatus legal del CERN (ver arriba).

Gestión del servidor

[editar]

Los servidores de Zenodo se administran a través del sistema de administración de configuración OpenStack y Puppet , lo que garantiza que nuestros servidores siempre tengan aplicados los últimos parches de seguridad. Los servidores se monitorean a través de la infraestructura de monitoreo del CERN basada en Flume, Elasticsearch, Kibana y Hadoop. Los errores de la aplicación se registran y se agregan en una instancia de Sentry local . El tráfico a los servidores frontend de Zenodo se equilibra la carga a través de una combinación de equilibrio de carga de DNS y equilibradores de carga de HAProxy.

Además, estamos ejecutando dos sistemas independientes: un sistema de producción y un sistema de garantía de calidad . Esto asegura que todos los cambios, ya sea a nivel de infraestructura o de código fuente, puedan ser probados y validados en nuestro sistema de aseguramiento de la calidad antes de ser aplicados a nuestro sistema de producción.

Servidores frontend

[editar]

Los servidores frontend de Zenodo son responsables de ejecutar la aplicación de la plataforma de repositorio Invenio, que se basa en Python y el marco de desarrollo web Flask. Los servidores frontend ejecutan el servidor HTTP nginx y el servidor de aplicaciones uwsgi frente a la aplicación y nginx además se encarga de servir contenido estático.

Almacenamiento de datos

[editar]

Todos los archivos cargados en Zenodo se almacenan en el servicio EOS del CERN en un clúster de disco de 18 petabytes. Cada copia de archivo tiene dos réplicas ubicadas en diferentes servidores de disco.

Para cada archivo, almacenamos dos sumas de comprobación MD5 independientes. Invenio almacena una suma de comprobación y la utiliza para detectar cambios en archivos realizados desde fuera de Invenio. La otra suma de comprobación es almacenada por EOS y se utiliza para la detección y recuperación automática de archivos corruptos en discos.

Zenodo puede, dependiendo de los patrones de acceso en el futuro, mover el archivo y / o la copia en línea al sistema de almacenamiento en cinta a largo plazo CASTOR del CERN para minimizar los costos de almacenamiento a largo plazo.

EOS es la principal infraestructura de almacenamiento de baja latencia para datos físicos del Gran Colisionador de Hadrones (LHC) y el CERN actualmente opera múltiples instancias por un total de más de 150 petabytes de datos con tasas de crecimiento esperadas de 30 a 50 petabytes por año. El sistema CASTOR del CERN gestiona actualmente más de 100 petabytes de datos del LHC que se comprueban periódicamente para detectar daños en los datos.

Invenio proporciona un almacén de objetos como una capa de gestión de archivos sobre EOS que se encarga, por ejemplo, de los cambios de versión de los archivos.

Almacenamiento de metadatos

[editar]

Los metadatos y los identificadores persistentes en Zenodo se almacenan en una instancia de PostgreSQL operada en la infraestructura de base de datos bajo demanda del CERN con un ciclo de respaldo de 12 horas con un respaldo enviado al almacenamiento en cinta una vez a la semana. Además, los metadatos están indexados en un clúster de Elasticsearch para una búsqueda rápida y potente. Los metadatos se almacenan en formato JSON en PostgreSQL en una estructura descrita por JSONSchemas versionados. Todos los cambios en los registros de metadatos en Zenodo están versionados y ocurren dentro de las transacciones de la base de datos.

Además de los metadatos y el almacenamiento de datos, Zenodo confía en Redis para el almacenamiento en caché y RabbitMQ y python Celery para trabajos distribuidos en segundo plano.


Seguridad

[editar]

Nos tomamos la seguridad muy en serio y hacemos todo lo posible para proteger sus datos.

  • Centro de datos del CERN: nuestros centros de datos están ubicados en las instalaciones del CERN y todo acceso físico está restringido a un número limitado de personal con la capacitación adecuada y a quienes se les ha otorgado acceso de acuerdo con sus deberes profesionales (por ejemplo, el personal de Zendo no tiene acceso físico al Centro de datos del CERN).
  • Servidores: Nuestros servidores se administran de acuerdo con la línea de base de seguridad CERN para servidores, lo que significa, por ejemplo, que el acceso remoto a nuestros servidores está restringido al personal de Zenodo con la capacitación adecuada, y el sistema operativo y las aplicaciones instaladas se mantienen actualizados con los últimos parches de seguridad a través de nuestra administración de configuración automática. sistema de marionetas.
  • Red: El equipo de seguridad del CERN ejecuta sistemas de detección de intrusos basados ​​en la red y en el host y supervisa el flujo de tráfico, el patrón y el contenido dentro y fuera de las redes del CERN para detectar ataques. Todo el acceso a zenodo.org se realiza a través de HTTPS, a excepción de las páginas de documentación estática que se alojan en las páginas de GitHub.
  • Datos: Zenodo almacena las contraseñas de los usuarios mediante sólidos algoritmos de hash de contraseñas criptográficas (actualmente PBKDF2 + SHA512). Los tokens de acceso de los usuarios a GitHub y ORCID se almacenan cifrados y solo se pueden descifrar con la clave secreta de la aplicación.
  • Aplicación: estamos empleando un conjunto de técnicas para proteger su sesión de ser robada por un atacante cuando está conectado y ejecuta análisis de vulnerabilidades contra la aplicación.
  • Personal: El personal del CERN con acceso a los datos de los usuarios opera bajo la Circular Operativa del CERN núm. 5 , lo que significa, entre otras cosas, que
    • El personal no debe intercambiar entre ellos la información adquirida a menos que sea expresamente requerido para el desempeño de sus funciones.
    • El acceso a los datos del usuario debe ser siempre acorde con las funciones profesionales y solo permitido para resolución de problemas, detección de problemas de seguridad, seguimiento de recursos y similares.
    • El personal es responsable de los daños resultantes de cualquier infracción y se le puede retirar el acceso y / o estar sujeto a procedimientos disciplinarios o legales dependiendo de la gravedad de la infracción.

Referencias

[editar]
  1. Peter Suber (2012). «10 self help». Open Access (the book). MIT. ISBN 978-0-262-51763-8. 
  2. «How to make your own work open access». Harvard Open Access Project. 
  3. Andrew Purcell (8 de mayo de 2013). «CERN and OpenAIREplus launch new European research repository». Science Node. Consultado el 14 de noviembre de 2018. 
  4. «Zenodo Launches!». OpenAIRE. Consultado el 22 de octubre de 2015. 
  5. «Zenodo – FAQ». Consultado el 30 de noviembre de 2017. 
  6. Sicilia, Miguel-Angel; García-Barriocanal, Elena; Sánchez-Alonso, Salvador (2017). «Community Curation in Open Dataset Repositories: Insights from Zenodo». Procedia Computer Science 106: 54-60. doi:10.1016/j.procs.2017.03.009. 
  7. Herterich, Patricia; Dallmeier-Tiessen, Sünje (2016). «Data Citation Services in the High-Energy Physics Community». D-Lib Magazine 22. doi:10.1045/january2016-herterich. 
  8. «Making Your Code Citable». GitHub. Consultado el 22 de octubre de 2015. 
  9. «Zenodo Infrastructure». Consultado el 30 de enero de 2019. 
  10. «GitHub - zenodo/Zenodo: Research. Shared.». 23 de julio de 2019. 
  11. «Funded Partnership Brings Dryad and Zenodo Closer». blog.zenodo.org. Consultado el 8 de noviembre de 2019. 

Enlaces externos

[editar]