¿Por qué debo dejar que usen mi trabajo?

El día de hoy ingresé, como ya se me está haciendo costumbre, a StackOverflow a ver si podía hacer algo para aumentar mis puntos de reputación. Como suele ocurrir en internet, uno empieza viendo una cosa y termina en un sitio bien diferente.

Llegué a StackExchange Academia y vi una pregunta, que me pareció muy interesante. Una persona cuenta que trabajó mucho para realizar un trabajo de investigación para su tesis de postgrado, y que ahora su asesor le está pidiendo el código utilizado en su trabajo para que otra persona lo utilice. Me pareció interesante además que una de las etiquetas con las que esta persona marcó su pregunta fuera la de Propiedad intelectual.

Ser autor de mi trabajo está bien

No cuesta mucho entender por qué. Si me pasé meses (o años) de duro trabajo para encontrar o construir los datos o procedimientos de análisis que me permitieron validar o refutar una hipótesis mía o de la comunidad científica, si le dediqué tanto tiempo, esfuerzo y rigurosidad a que mi trabajo sea de una calidad que me permita obtener una gran nota en mi presentación, si tuve que gastar mis escasos recursos y tiempo para obtener mi trabajo, es lógico que todo lo que se derive de ello sea mío. Yo no creo que pensar de esta manera sea egoísta.

La mayoría de instituciones que le dedican recursos a la investigación terminan publicando los resultados en algún tipo de reporte, libro, mapa, dashboard, medio de comunicación, redes sociales, etc. Nos llegamos a enterar de los resultados de las investigaciones a través de resúmenes ejecutivos o abstracts. Pero, ¿qué pasa si queremos verificar que la investigación siguió cierto estándar de calidad? Esto en general se refiere a los datos utilizados, desde su recolección hasta la metodología de análisis empleada. También me interesa averiguar si la persona que investigó obtuvo las conclusiones adecuadas respecto a los resultados de sus tests. Mientras más cercanas a la academia, las instituciones van aumentando su nivel de rigurosidad, y son mandatorios los marcos teóricos, capítulos de metodología, resultados y conclusiones. En el caso de las entidades públicas (y en general), se va haciendo cada vez más común que los conjuntos de datos utilizados en los análisis sean compartidos de manera pública. En el Perú, el INEI realiza esto a través de su portal de Microdatos y el Poder Ejecutivo muestra avances con su portal de Datos Abiertos.

Sin embargo, quiero atreverme a decir que esto no es suficiente. Cuando una persona se involucra en el análisis de datos, está realizando investigación, lo que significa que se encuentra una pregunta que quiere responder, se plantea una hipótesis al respecto y decide un método a través del cuál validará o rechazará su hipótesis. No hay investigación sin pregunta de investigación, ni hipótesis, ni metodología. Eso lo conocemos desde que asistimos a la primaria, porque es el método científico. En lo que nos quedamos cortos es en la reproducibilidad y la replicabilidad.

¿Replicable o reproducible?

Según el diccionario de Oxford, lo reproducible es algo que:

Puede ser producido o hecho nuevamente de la misma manera1

En el caso de una investigación, nos referimos a que con el mismo conjunto de datos del análisis, realizando el mismo procedimiento, podemos obtener el mismo resultado. Esto hace que la calidad de la investigación tenga mayor facilidad de ser verificado por pares. Esta es una práctica bastante común en entornos que usan investigación estadística o a través de código.

Por otro lado, lo replicable es algo que:

Puede ser copiado exactamente2

Roger D. Peng nos da un ejemplo de lo que esto significa en un contexto científico:

Si dices que X causa Y, o que la Vitamina C agudiza una enfermedad, o que algo causa un problema, sucede que otros científicos, independientes de ti, tratarán de investigar la misma pregunta y ver si obtienen un resultado similar. Si muchas otras personas obtienen el mismo resultado y replican el hallazgo original, entonces tendemos a pensar que el hallazgo original probablemente fue verdadero, y que se trata de una relación o hallazgo real.3

En otras palabras, un estudio es replicado cuando al usar el mismo método de análisis en un nuevo conjunto de datos generados por el mismo diseño experimental, los resultados son similares.

La replicabilidad en sí no tiene nada de malo, es uno de los pilares del método científico y, en teoría, es aspirable. Sin embargo, es costosa. Recordemos que los resultados de los Censos 2017 en Perú fueron cuestionados desde el mismo día de la recolección de datos, por la gran cantidad de personas que reportaron no haber sido visitados por el personal de INEI. Pero, ¿quién podría replicar un censo?. Fuera de los límites legales, ¿qué persona o institución privada querría disponer 173.8 millones de soles en verificar que los resultados obtenidos sean los mismos que los del INEI?

Evidentemente, un censo es un caso extremo. Pero podríamos cuestionar también la replicabilidad de encuestas de hogares, estudios económicos, tests de tratamientos experimentales, y un largo etcétera que incluye las encuestas de opinión que tanto aparecen en los medios de comunicación. A medida que aumenta nuestra necesidad (y capacidad) de obtener información, la replicabilidad se vuelve cada vez más difícil.

Es por ello que la reproducibilidad se convierte en una alternativa viable. Esto no quiere decir que la replicabilidad deje de ser deseada. Si volvemos al caso de la pregunta que encontré en Stack Exchange, esta persona fue cuestionada por su asesor acerca de que otra persona pueda usar su código para su trabajo de investigación, en otras palabras, esta nueva persona estaba buscando replicar el trabajo, cosa que debería ser aceptada y promovida, porque es la mejor manera de hacer que la ciencia avance.


  1. Traducción propia de https://www.oxfordlearnersdictionaries.com/us/definition/english/reproducible?q=reproducible

  2. Traducción propia de https://www.oxfordlearnersdictionaries.com/definition/english/replicable?q=replicable

  3. Traducción propia de Peng, R. (2019) Report writing for Data Science in R. pg. 1. LeanPub.