Llista De Comprovació De La Integritat ML

Taula de continguts:

Llista De Comprovació De La Integritat ML
Llista De Comprovació De La Integritat ML

Vídeo: Llista De Comprovació De La Integritat ML

Vídeo: Llista De Comprovació De La Integritat ML
Vídeo: Большие изменения в составах команд Mythic league - Дневник 2024, De novembre
Anonim

Amb l’objectiu d’augmentar la reproductibilitat i capacitar els altres per tal de construir els treballs publicats amb més facilitat, presentem una llista de comprovació de la integritat del codi ML. La llista de comprovació de la integritat del codi ML avalua el magatzem de codis en funció dels scripts i artefactes que s’hi proporcionen.

Llista de comprovació de la completesa del codi ML
Llista de comprovació de la completesa del codi ML

Introducció

L’any passat, Joel Pino va publicar una llista de comprovació de reproductibilitat per facilitar la investigació reproduïble presentada a les principals conferències OA (NeurIPS, ICML, …). La majoria dels elements de la llista de comprovació se centren en els components del paper. Un element d'aquesta llista de comprovació és "proporcionar un enllaç al codi font", però a part d'això, es van fer poques recomanacions.

Les pràctiques recomanades s’han resumit a la Llista de comprovació de la integritat del codi ML, que ara forma part del procés d’enviament de codi oficial de NeurIPS 2020 i estarà disponible per als revisors que considerin oportú.

Llista de comprovació de la integritat ML

La llista de comprovació de la completesa del codi M comprova el magatzem de codis:

  1. Dependències: el dipòsit té informació sobre dependències o instruccions sobre com configurar l'entorn?
  2. Escenaris de formació: el repositori conté una manera d’entrenar / adaptar-se als models descrits al document?
  3. Escenaris d’avaluació: el repositori conté un script per calcular el rendiment dels models entrenats o executar experiments en models?
  4. Models prèviament entrenats: el dipòsit proporciona accés gratuït a pesos de models prèviament entrenats?
  5. Resultats: el dipòsit conté una taula / gràfic dels resultats principals i un script per reproduir aquests resultats?

Cada dipòsit pot rebre de 0 (no té cap) a 5 (té totes) les paparres. Podeu trobar més informació sobre els criteris de cada ítem al dipòsit de Github.

Quina és l'evidència que els elements de la llista de comprovació contribueixen a repositoris més útils?

La comunitat generalment utilitza les estrelles de GitHub com a servidor intermediari per a la utilitat del dipòsit. Per tant, s’espera que els repos amb una puntuació més alta a la llista de comprovació de la integritat de ML també tinguin més estrelles GitHub. Per comprovar aquesta hipòtesi, es van enviar 884 reposicions de GitHub com a implementacions oficials als documents de NeurIPS 2019. Un subconjunt del 25% d’aquests 884 repos es va seleccionar aleatòriament i es va comprovar manualment a la llista de comprovació de la integritat de ML. Van agrupar aquesta mostra de reposicions de NeurIPS 2019 GitHub pel nombre de paparres que tenen a la llista de comprovació de la integritat del codi ML i van assignar les estrelles mitjanes de GitHub de cada grup. El resultat és el següent:

Imatge
Imatge

Les reposicions de NeurIPS 2019 amb 0 caselles de verificació tenien una mitjana d’1,5 estrelles a GitHub. En canvi, els repos amb 5 caselles de selecció tenien una mitjana de 196,5 estrelles GitHub. Només el 9% dels repos tenia 5 ticks i la majoria dels repos (70%) tenien 3 ticks o menys. Es va realitzar la prova de suma de rànquing de Wilcoxon i es va trobar que el nombre d’estrelles de la classe de 5 tick és significativament (valor p <1e-4) superior a la de totes les altres classes, excepte 5 versus 4 (on el valor p és el límit). a 0,015). Podeu veure les dades i el codi d’aquesta figura al dipòsit de Github.

Per comprovar si aquesta relació s'estén més àmpliament, es va crear un script per automatitzar el càlcul d'una llista de verificació des del dipòsit README i el codi associat. A continuació, vam tornar a analitzar el conjunt complet de 884 repositoris NeurIPS 2019, així com el conjunt més ampli de repositoris de codis 8926 per a tots els articles ML publicats el 2019. En ambdós casos, els especialistes van obtenir un resultat qualitativament idèntic amb les estrelles mitjanes que augmentaven monotònicament a partir de les paparres d’una manera estadísticament significativa (valor p <1e-4). Finalment, utilitzant una regressió lineal sòlida, hem trobat que els models i els resultats pretrenats tenen el major impacte positiu en les estrelles de GitHub.

Els analistes consideren que són proves útils que animen els investigadors a incloure tots els components requerits per la llista de comprovació de la integritat de la ML donaran lloc a repositoris més útils i que la puntuació de la llista de verificació indica enviaments de millor qualitat.

Actualment, els experts no afirmen que els cinc ítems de llista de control proposats siguin l'únic o fins i tot el factor més significatiu en la popularitat del dipòsit. Altres factors poden influir en la popularitat, com ara: mida de la contribució científica, màrqueting (p. Ex., Publicacions de blocs i publicacions de Twitter), documentació (README completes, tutorials i documentació de l’API), qualitat del codi i treballs anteriors.

Alguns exemples de repositoris NeurIPS 2019 amb 5 caselles de selecció:

Els experts reconeixen que, tot i que han intentat que la llista de control sigui el més general possible, pot ser que no sigui totalment aplicable a tot tipus de documents, per exemple, teòrics o conjunts de documents. No obstant això, fins i tot si l'objectiu principal de l'article és representar un conjunt de dades, encara es pot beneficiar de la publicació de models de referència, inclosos escenaris de formació, escenaris d'avaluació i resultats.

Comenceu a utilitzar

Per facilitar als revisors i als usuaris la comprensió del contingut del dipòsit i els experts per avaluar-ho correctament, es proporciona una col·lecció de bones pràctiques per escriure fitxers README.md, definir dependències i alliberar models, conjunts de dades i resultats pretrenats. Es recomana definir clarament aquests 5 elements al vostre dipòsit i enllaçar-los a recursos externs, com ara documents i taules de classificació, per proporcionar més context i claredat als vostres usuaris. Aquestes són les directrius oficials per enviar un codi a NeurIPS 2020.

Recomanat: