Datos semiestructurados, definición, que son, tipos; ventajas y desventajas

Datos semiestructurados, definición, que son, tipos; ventajas y desventajas. Cuando se diseña un sistema de información, el almacenamiento de datos definitivamente estará involucrado. Generalmente, guardaremos la información del sistema en una base de datos relacional específica. 

Datos semiestructurados, definición, que son, tipos; ventajas y desventajas
Datos semiestructurados, definición, que son, tipos; ventajas y desventajas

Clasificaremos los datos por negocio, diseñaremos la tabla correspondiente y luego guardaremos la información correspondiente en la tabla correspondiente. Por ejemplo, si hacemos un sistema comercial, necesitamos guardar la información básica de los empleados: número de trabajo, nombre, sexo, fecha de nacimiento, etc., crearemos una tabla de personal correspondiente.

Los datos semiestructurados son datos que no se han organizado en un repositorio especializado, como una base de datos, pero que, sin embargo, tienen información asociada, como metadatos, que hace que sea más fácil de procesar que los datos sin procesar.

Significado de datos semi-estructurados

Los datos semiestructurados son una forma de datos estructurados que no se ajustan a la estructura formal de los modelos de datos asociados con bases de datos relacionales u otras formas de tablas de datos , pero que, sin embargo, contienen etiquetas u otros marcadores para separar los elementos semánticos y hacer cumplir las jerarquías de Registros y campos dentro de los datos. Por lo tanto, también se conoce como estructura autodescriptiva .

En los datos semiestructurados, las entidades que pertenecen a la misma clase pueden tener atributos diferentes aunque estén agrupados, y el orden de los atributos no es importante.

Definición-Concepto

Los datos semiestructurados se producen cada vez más desde la llegada de Internet, donde los documentos de texto completo y las bases de datos ya no son las únicas formas de datos, y las diferentes aplicaciones necesitan un medio para intercambiar información . En bases de datos orientadas a objetos , a menudo se encuentran datos semiestructurados.

Los datos semiestructurados son información que no reside en una base de datos racional, pero tiene propiedades organizativas que facilitan su análisis. Con algunos procesos, puede almacenarlos en la base de datos relacional (puede ser muy difícil para algunos datos semiestructurados), pero Semi-estructurado existe para reducir el espacio.

Diferencia

La diferencia entre datos estructurados, datos no estructurados y datos semiestructurados:

Los Datos no estructurados

Los datos no estructurados no se han organizado en un formato que facilite el acceso y el procesamiento. En realidad, muy pocos datos están completamente desestructurados. Incluso las cosas que a menudo se consideran datos no estructurados, como documentos e imágenes, se estructuran en cierta medida.

Los datos estructurados

Los datos estructurados son básicamente lo opuesto a los no estructurados: se han reformateado y sus elementos se han organizado en una estructura de datos para que los elementos se puedan abordar, organizar y acceder en varias combinaciones para hacer un mejor uso de la información.

Datos semi-estrucurados

Los datos semiestructurados se encuentran en algún lugar entre los dos. No está organizado de una manera compleja que hace posible el acceso y el análisis sofisticados; sin embargo, puede tener información asociada, como Etiquetado de metadatos , que permite abordar los elementos contenidos.

Ejemplo

Aquí hay un ejemplo: un documento de Word generalmente se considera información no estructurada. Sin embargo, puede agregar etiquetas de metadatos en forma de palabras clave y otros metadatos que representan el contenido del documento y hacer que sea más fácil encontrar ese documento cuando las personas buscan esos términos: los datos ahora están semiestructurados. Sin embargo, el documento aún carece de la compleja organización de la base de datos, por lo que no llega a ser completamente estructurado.

En realidad, existe una superposición considerable entre los límites de las tres categorías, que a veces se describen colectivamente como el continuo de datos.

EstructuradosNo estructuradosSemiestructurados
Se basa en tablas de bases de datos relacionalesSe basa en caracteres y dato binariosBasado en XML y RDF
Depende el esquema y es menos flexibleMuy flexible y sin diagramaPunto intermedio entre los otros dos.
Es muy difícil escalar el esquema de la base de datosEs muy fácil de escalarMás fácil de escalar que los datos estructurados.
Tabla comparativa

Ejemplos de datos semi-estructurados

Los archivos delimitados son un ejemplo de datos semiestructurados. Contiene elementos que pueden dividir los datos en jerarquías independientes. Asimismo, en las fotografías digitales, la imagen no tiene una estructura predefinida en sí misma sino que tiene ciertos atributos estructurales que la hacen semiestructurada. Por ejemplo, proviene de un teléfono inteligente; tendría atributos estructurados como geolocalización, ID de dispositivo y marca de tiempo. Una vez almacenadas, a las imágenes también se les pueden asignar etiquetas como «mascota» o «perro» para proporcionar estructura.

En algunos casos, los datos no estructurados se clasifican como semiestructurados porque tienen uno o más atributos de clasificación.

Tipos de datos semiestructurados

XML

XML , otros lenguajes de marcado, correo electrónico y EDI son todas formas de datos semiestructurados. OEM (Object Exchange Model) se creó antes de XML como un medio de autodescripción de una estructura de datos. XML ha sido popularizado por servicios web que se desarrollan utilizando los principios de SOAP .

Algunos tipos de datos descritos aquí como «semiestructurados», especialmente XML, tienen la impresión de que son incapaces de tener rigor estructural en el mismo nivel funcional que las tablas y filas relacionales. De hecho, la visión de XML como semiestructurado inherentemente (anteriormente, se denominaba «no estructurado») ha impedido su uso para una amplia gama de aplicaciones centradas en datos.

Incluso los documentos, que normalmente se consideran el epítome de la semi-estructura, pueden diseñarse con prácticamente el mismo rigor que el esquema de base de datos, implementado por el esquema XML y procesado por programas de software comerciales y personalizados sin reducir su facilidad de uso por parte de lectores humanos.

En vista de este hecho, se podría decir que XML tiene una «estructura flexible» capaz de un flujo y una jerarquía centrados en el ser humano, así como una estructura de elementos y una tipificación de datos altamente rigurosos.

El concepto de XML como «legible por humanos», sin embargo, solo se puede tomar hasta ahora. Algunas implementaciones / dialectos de XML, como la representación XML del contenido de un documento de Microsoft Word, tal como se implementó en Office 2007 y versiones posteriores, utilizan docenas o incluso cientos de diferentes tipos de etiquetas que reflejan un dominio de problema particular, en el caso de Word , formato a nivel de carácter y párrafo y documento, definiciones de estilos, inclusión de citas, etc., que se anidan entre sí de manera compleja.

Comprender incluso una parte de un documento XML de este tipo al leerlo, y mucho menos detectar errores en su estructura, es imposible sin un entendimiento previo muy profundo de la implementación XML específica, junto con la asistencia del software que comprende el esquema XML empleado.

JSON

La notación de objetos JSON o JavaScript es un formato estándar abierto que utiliza texto legible por humanos para transmitir objetos de datos que consisten en pares de atributos y valores. Se utiliza principalmente para transmitir datos entre un servidor y una aplicación web, como alternativa a XML. JSON ha sido popularizado por los servicios web desarrollados utilizando los principios REST .

Existe una nueva generación de bases de datos, como MongoDB y Couchbase, que almacenan datos de forma nativa en formato JSON, aprovechando las ventajas de la arquitectura de datos semiestructurada.

Pros y contras de usar un formato de datos semiestructurado

Ventajas

Los programadores que persisten los objetos desde su aplicación a una base de datos no tienen que preocuparse por la falta de coincidencia de impedancia relacional del objeto , pero a menudo pueden serializar objetos a través de una biblioteca liviana.
El soporte para datos anidados o jerárquicos a menudo simplifica los modelos de datos que representan relaciones complejas entre entidades.
La compatibilidad con listas de objetos simplifica los modelos de datos al evitar las traducciones desordenadas de las listas en un modelo de datos relacionales.

Desventajas

El modelo de datos relacionales tradicional tiene un lenguaje de consulta popular y listo, SQL .
Propenso a «basura en, basura fuera»; Al eliminar las restricciones del modelo de datos, hay menos prelanzamientos necesarios para operar una aplicación de datos.

Conclusion

Debido a que necesitamos comprender los detalles de los datos, no podemos simplemente organizar los datos en un archivo y procesarlos como datos no estructurados.

Debido a que la estructura cambia mucho, no podemos simplemente crear una tabla que se corresponda con ella. Este artículo analiza principalmente dos métodos comúnmente utilizados para el almacenamiento de datos semiestructurados.

Tomemos un ejemplo de datos semiestructurados, como el almacenamiento de currículos de empleados. No tan consistente como los conceptos básicos de los empleados El currículum de cada empleado es muy diferente.

Los currículos de algunos empleados son muy simples, como solo incluir educación; algunos empleados tienen currículos complejos, como trabajo, matrimonio, entrada y salida, registro de hogar, afiliación a un partido, habilidades técnicas, etc.

También puede haber alguna información que no esperábamos. Por lo general, no es fácil para nosotros mantener esta información por completo, porque no queremos que la estructura de la tabla en el sistema cambie durante la operación del sistema.

Ediciones 2019-20-21-22.

Recurso externo de referencia Wikipedia

Leer también: ¿Cual es el ciclo de vida de la ciencia de datos? ; Historia del data science, la ciencia de datos ; ¿Que es data science, ciencia de datos? Definición, significado, concepto ; semi-structured data; Definición de data lake

This post is also available in: Español