Download manejo de datos - Fernando Galindo Soria

Document related concepts
Transcript
Manejo de Grandes volúmenes de datos
Big data
Wikipedia (20130614)
“Big Data (del idioma inglés grandes datos1 2 ) es en el sector de tecnologías de la
información y la comunicación una referencia a los sistemas que manipulan grandes
conjuntos de datos (o data sets). Las dificultades más habituales en estos casos se centran
en la captura, el almacenado,3 búsqueda, compartición, análisis,4 y visualización. La
tendencia a manipular ingentes cantidades de datos se debe a la necesidad en muchos casos
de incluir los datos relacionados del análisis en un gran conjunto de datos relacionado, tal
es el ejemplo de los análisis de negocio, los datos de enfermedades infecciosas, o la lucha
contra el crimen organizado.5
El límite superior de procesamiento se ha ido desplazando a lo largo de los años, de esta
forma los límites que estaban fijados en 2008 rondaban los órdenes de petabytes a
zettabytes de datos.6 Los científicos con cierta regularidad encuentran limitaciones debido a
la gran cantidad de datos en ciertas áreas, tales como la meteorología, la genómica,7 la
conectómica, las complejas simulaciones de procesos físicos,8 y las investigaciones
relacionadas con los procesos biológicos y ambientales,9 Las limitaciones también afectan a
los motores de búsqueda en internet, a los sistemas finanzas y a la informática de negocios.
Los data sets crecen en volumen debido en parte a la introducción de información ubicua
procedente de los sensores inalámbricos y los dispositivos móviles (por ejemplo las
VANETs), del constante crecimiento de los históricos de aplicaciones (por ejemplo de los
logs), cámaras (sistemas de teledetección), micrófonos, lectores de radio-frequency
identification.10 11 La capacidad para almacenar datos de la humanidad se ha doblado a un
ritmo de cuarenta meses desde los años ochenta.12 En 2012 , cada día fueron creados cerca
de 2,5 trillones (del inglés quintillion) (2.5×1018) de bytes de datos.13
Definición
"Big data" es un término aplicado a conjuntos de datos que superan la capacidad del
software habitual para ser capturados, gestionados y procesados en un tiempo razonable.
Los tamaños del "big data" se encuentran constantemente en movimiento creciente, de esta
forma en 2012 se encontraba dimensionada en un tamaño de una docena de terabytes hasta
varios petabytes de datos en un único data set. En la metodología MIKE2.0 dedicada a
investigar temas relacionados con la gestión de información, definen big data en términos
de permutaciones útiles, complejidad y dificultad para borrar registros individuales.”
http://es.wikipedia.org/wiki/Big_data
Minería de datos
Wikipedia (20130614)
“La minería de datos (es la etapa de análisis de "Knowledge Discovery in Databases" o
KDD), es un campo de las ciencias de la computación referido al proceso que intenta
descubrir patrones en grandes volúmenes de conjuntos de datos. Utiliza los métodos de la
inteligencia artificial, aprendizaje automático, estadística y sistemas de bases de datos. El
objetivo general del proceso de minería de datos consiste en extraer información de un
conjunto de datos y transformarla en una estructura comprensible para su uso posterior.
Además de la etapa de análisis en bruto, que involucra aspectos de bases de datos y gestión
de datos, procesamiento de datos, el modelo y las consideraciones de inferencia, métricas
de Intereses, consideraciones de la Teoría de la complejidad computacional, postprocesamiento de las estructuras descubiertas, la visualización y actualización en línea.
El término es una palabra de moda, y es frecuentemente mal utilizado para referirse a
cualquier forma de datos a gran escala o procesamiento de la información (recolección,
extracción, almacenamiento, análisis y estadísticas), pero también se ha generalizado a
cualquier tipo de sistema de apoyo informático decisión, incluyendo la inteligencia artificial
, aprendizaje automático y la inteligencia empresarial. En el uso de la palabra, el término
clave es el descubrimiento, comúnmente se define como "la detección de algo nuevo".
Incluso el popular libro "La minería de datos: sistema de prácticas herramientas de
aprendizaje y técnicas con Java" (que cubre todo el material de aprendizaje automático)
originalmente iba a ser llamado simplemente "la máquina de aprendizaje práctico", y el
término "minería de datos" se añadió por razones de marketing. A menudo, los términos
más generales "(gran escala) el análisis de datos", o "análisis" -. o cuando se refiere a los
métodos actuales, la inteligencia artificial y aprendizaje automático, son más apropiados.
La tarea de minería de datos real es el análisis automático o semi-automático de grandes
cantidades de datos para extraer patrones interesantes hasta ahora desconocidos, como los
grupos de registros de datos (análisis cluster), registros poco usuales (la detección de
anomalías) y dependencias (minería por reglas de asociación). Esto generalmente implica el
uso de técnicas de bases de datos como los índices espaciales. Estos patrones pueden
entonces ser visto como una especie de resumen de los datos de entrada, y puede ser
utilizado en el análisis adicional o, por ejemplo, en la máquina de aprendizaje y análisis
predictivo. Por ejemplo, el paso de minería de datos podrían identificar varios grupos en los
datos, que luego pueden ser utilizados para obtener resultados más precisos de predicción
por un sistema de soporte de decisiones. Ni la recolección de datos, preparación de datos, ni
la interpretación de los resultados y la información son parte de la etapa de minería de
datos, pero que pertenecen a todo el proceso KDD como pasos adicionales.”
http://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos
Hadoop
Wikipedia (20130614)
“Apache Hadoop es un framework de software que soporta aplicaciones distribuidas bajo
una licencia libre.1 Permite a las aplicaciones trabajar con miles de nodos y petabytes de
datos. Hadoop se inspiró en los documentos Google para MapReduce y Google File System
(GFS).
Hadoop es un proyecto de alto nivel Apache que está siendo construido y usado por una
comunidad global de contribuidores,2 mediante el lenguaje de programación Java. Yahoo!
ha sido el mayor contribuyente al proyecto,3 y usa Hadoop extensivamente en su negocio.4”
http://es.wikipedia.org/wiki/Hadoop
Apache Mahout
Wikipedia (20130614)
“Apache Mahout is an Apache project to produce free implementations of distributed or
otherwise scalable machine learning algorithms on the Hadoop platform.[1][2] Mahout is a
work in progress; the number of implemented algorithms has grown quickly,[3] but there are
still various algorithms missing.
While Mahout's core algorithms for clustering, classification and batch based collaborative
filtering are implemented on top of Apache Hadoop using the map/reduce paradigm, it does
not restrict contributions to Hadoop based implementations. Contributions that run on a
single node or on a non-Hadoop cluster are also welcomed. For example, the 'Taste'
collaborative-filtering recommender component of Mahout was originally a separate
project and can run stand-alone without Hadoop. Integration with initiatives such as the
Pregel-like Giraph are actively under discussion”
http://en.wikipedia.org/wiki/Apache_Mahout