Skip to main content

Formatos Estándar

No todos los formatos en los que se intercambian archivos o se publican datos son iguales. Es importante conocer las ventajas y limitaciones de las distintas opciones que existen. A continuación se presenta un breve análisis y las recomendaciones permitente para cada caso.

Tabulares

Formato Descripción Tipo Nivel de apertura Recomendación
XLS Los XLS son archivos de hojas de cálculo. Es un formato propietario de Microsoft. Tabulares Bajo
XLSX Los XLSX también son archivos de hojas de cálculo desarrolladas por Microsoft, pero su especificación es abierta (ISO/IEC 29500:2008). Es el formato por defecto del Excel 2007 en adelante. Tabulares Medio
ODS Los ODS son archivos con la estructura de un XML. Es un formato abierto basado en OASIS OpenDocument Format (ISO/IEC 26300). Es el formato por defecto del procesador de planillas de cálculo Open Office. Tabulares Medio
CSV Los archivos CSV son archivos de texto plano donde las columnas se separan por comas y las filas por saltos de línea. Es un formato abierto. Existe su variante TSV donde las columnas se separan por tabuladores. Tabulares Alto
PARQUET Apache Parquet es un formato diseñado para el almacenamiento y la recuperación eficiente de datos. Proporciona esquemas eficientes de compresión y codificación de datos con un rendimiento mejorado para manejar datos complejos en masa. Tabulares Alto
CSV

Los archivos CSV son un formato comúnmente utilizado para almacenar datos tabulares, estos contienen datos separados por comas que pueden ser importados y exportados a diferentes programas y herramientas de análisis de datos. Son fáciles de manejar y al no tener licencia privativa, pueden ser abiertos por muchos programas diferentes.

El CSV es un formato estándar de archivo de texto plano donde:

  • Los campos (columnas) se separan por comas ,.
  • Los registros (filas) se separan por saltos de línea.
  • Los números decimales utilizan . para separar la parte entera de la parte decimal.
  • Se utilizan las comillas dobles " como caracter de entrecomillado. Los valores en tablas CSV que incluyen dentro de sí caracteres especiales como , o ", deben estar encerrados entre " para su correcta interpretación.
id nombre genero
1 Rodrigo M
2 Monica F
3 Victoria F
4 Yeraldin NB
5 Willy M
id,nombre,genero
1,Rodrigo,M
2,Monica,F
3,Victoria,F
4,Yeraldin,N
5,Willy,M
Parquet

Parquet es un formato de archivo de datos de código abierto mantenido por la Fundación Apache. Es un formato orientado a columnas que está diseñado para el almacenamiento y la recuperación eficiente de datos. Proporciona esquemas eficientes de compresión y codificación de datos con un rendimiento mejorado para manejar datos complejos en masa.

pandas.read_parquet(path, engine='auto', columns=None, storage_options=None,
use_nullable_dtypes=_NoDefault.no_default, dtype_backend=_NoDefault.no_default, **kwargs)

Estructurados

Formato Descripción Tipo Nivel de apertura Recomendación
JSON Es un formato para el intercambio de datos entre sistemas. Es un formato abierto no tabular basado en la especificación RFC 7159. Estructurados Alto
XML XML (eXtensible Markup Language) es un lenguaje de marcado que se utiliza para almacenar y transportar datos de manera legible tanto para humanos como para máquinas. Estructurados Medio
JSON

JSON es un formato de texto popular para el intercambio de datos, es un acrónimo de JavaScript Object Notation. Por su característica de ser un formato de tipo estructurado es especialmente útil para el intercambio de datos entre sistemas (machine readable format).

El formato JSON se define en la especificación RFC 7159.

Espaciales

Formato Descripción Tipo Nivel de apertura Recomendación
SHP ESRI Shapefile (SHP) es un formato propietario de datos espaciales desarrollado por ESRI, quien crea y comercializa software para Sistemas de Información Geográfica. Actualmente se ha convertido en formato estándar de facto para el intercambio de información geográfica entre SIG. Espaciales Medio
KML Es un formato abierto para datos geográficos basado en el estándar XML. Espaciales Alto
GEOJSON Es un formato estándar abierto diseñado para representar elementos geográficos sencillos, junto con sus atributos no espaciales. Espaciales Alto
GEOPACKAGE Es un formato de datos geoespaciales implementado como un contenedor de base de datos SQLite. Espaciales Alto
GeoPackage
GeoJSON