Ciencia de datos: una disciplina emergente
Data science: an emerging discipline
Resumen (es)
El papel del científico de datos se ha descrito como el "trabajo más sexy del siglo XXI". Si bien es posible que exista un grado de exageración asociado con tal afirmación, hay factores en juego, como el crecimiento sin precedentes en la cantidad de datos que se generan. Este documento caracteriza las disciplinas ya establecidas que sustentan la ciencia de datos, es decir, la ingeniería de datos, las estadísticas y la minería de datos. Después de una caracterización de los campos anteriores, se encuentra que la ciencia de datos está más estrechamente relacionada con la minería de datos. Sin embargo, a diferencia de la minería de datos, la ciencia de datos promete operar sobre conjuntos de datos que presentan desafíos significativos en términos de las cuatro V: volumen, variedad, velocidad y veracidad. Este documento señala que el énfasis actual, tanto en la industria como en la academia, está en las primeras tres V, que plantean principalmente desafíos científicos o tecnológicos, en lugar de Veracidad, que es un desafío verdaderamente científico (y posiblemente más complejo). Se puede considerar que la ciencia de datos tiene un objetivo más ambicioso que el que tradicionalmente tiene la minería de datos: como ciencia, la ciencia de datos tiene como objetivo conducir a la creación de nuevas teorías y conocimientos. Este artículo señala que, irónicamente, se está descuidando la dimensión de veracidad, que posiblemente sea la más cercana a este objetivo. A pesar del actual frenesí de los medios sobre la ciencia de datos, el artículo concluye que se necesita más tiempo para ver si emergerá como una disciplina por derecho propio.
Resumen (en)
The role of data scientist has been described as the “sexiest job of the 21st Century”. While possibly there is a degree of hype associated with such a claim, there are factors at play such as the unprecedented growth in the amount of data being generated. This paper characterises the already established disciplines which underpin data science, viz., data engineering, statistics, and data mining. Following a characterisation of the previous fields, data science is found to be most closely related to data mining. However, in contrast to data mining, data science promises to operate over datasets that exhibit significant challenges in terms of the four Vs: Volume, Variety, Velocity and Veracity. This paper notes that the current emphasis, both in industry and academia, is on the first three Vs, which pose mainly scientific or technological challenges, rather than Veracity, which is a truly scientific (and arguably a more complex) challenge. Data Science can be seen to have a more ambitious objective than what traditionally data mining has: as a science, data science aims to lead to the creation of new theories and knowledge. This paper notes that, ironically, the veracity dimension, which is arguably the closest one relating to this objective, is being neglected. Despite the current media frenzy about data science, the paper concludes that more time is needed to see whether it will emerge as discipline in its own right.
Referencias
Cattell, R. (2011). Scalable SQL and NoSQL data stores. ACM SIGMOD Record, 39(4), 12-27. Retrieved from http://www.sigmod.org/publications/sigmod-record/1012/pdfs/04. surveys.cattell.pdf
Codd, E. F. (1970). A relational model of data for large shared data banks. Communications of the ACM, 13(6), 377-387. Retrieved from https://www.seas.upenn.edu/~zives/03f/ cis550/codd.pdf
Davenport, T. H., & Patil, D. J. (2012, October). Data Scientist: The Sexiest Job of the 21st Century. Harvard Business Review (70). Retrieved from https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century/
Dhar, V. (2013). Data science and prediction. Communications of the ACM, 56(12), 64- 73. Retrieved from http://cacm.acm.org/magazines/2013/12/169933-data-science-and-prediction/abstract
Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. (1996). From data mining to knowledge discovery in databases. AI magazine, 17(3), 37- 54. Retrieved from http://www.aaai.org/ojs/ index.php/aimagazine/article/view/1230
Fernandes, Alvaro A. A. (November 2004). Advanced Database Technologies: Data Mining. Slides. Manchester: School of Computer Science, University of Manchester.
Friedman, J. H. (1998). Data Mining and Statistics: What’s the connection? Computing Science and Statistics, 29(1), 3-9. Retrieved from http:// statweb.stanford.edu/~jhf/ftp/dm-stat.pdf
Gantz, J., & Reinsel, D. (2013). The digital universe in 2020: Big data, bigger digital shadows, and biggest growth in the Far East. IDC iView: IDC Analyze the Future, 2007, 1-16. Retrieved from https://www.emc.com/collateral/analyst-reports/idc-digital-universe-united-states. pdf
Heilbron, J. L. (Ed.). (2003). The Oxford companion to the history of modern science. Oxford: Oxford University Press.
Hey, T., & Trefethen, A. E. (2002). The UK e-science core programme and the grid. Future Generation Computer Systems, 18(8), 1017-1031.
ICDE (2016). 32nd IEEE International Conference on Data Engineering. Retrieved from http:// icde2016.fi/
Cómo citar
Licencia
Los autores firman una cesión de derechos para que la Universidad Santo Tomás pueda publicar los artículos bajos las condiciones descritas abajo. Los autores, lectores y demás usuarios son libres de compartir, copiar, distribuir, ejecutar y comunicar públicamente la obra bajo las condiciones siguientes:
- Atribución — Usted debe dar crédito de manera adecuada, brindar un enlace a la licencia, e indicar si se han realizado cambios. Puede hacerlo en cualquier forma razonable, pero no de forma tal que sugiera que usted o su uso tienen el apoyo de la licenciante.
- No Comercial — Usted no puede hacer uso del material con propósitos comerciales
- Compartir Igual — Si remezcla, transforma o crea a partir del material, debe distribuir su contribución bajo la misma licencia del original.
- No hay restricciones adicionales — No puede aplicar términos legales ni medidas tecnológicas que restrinjan legalmente a otras a hacer cualquier uso permitido por la licencia.
CITAS está bajo una licencia Creative Commons Atribución-NoComercial-CompartirIgual 4.0 Internacional (CC BY-NC-SA 4.0)
Hasta el año 2019 los documentos publicados en la revista se encontraban bajo licencia Creative Commons Atribución-CompartirIgual (CC BY-SA), sin embargo con el fin de garantizar la distribución abierta y libre del contenido divulgado en la revista se optó por cambiar al tipo de licencia Commons Atribución-NoComercial-CompartirIgual 4.0 Internacional (CC BY-NC-SA 4.0)