En el mundo actual impulsado por la moda, manejar grandes conjuntos de datos es bastante común, y pandas es una biblioteca popular en Python que proporciona herramientas de manipulación de datos potentes y fáciles de usar. Entre la gran variedad de formatos de datos, Parquet se usa ampliamente por su eficiente almacenamiento en columnas y su sintaxis liviana. Amazon S3 es una opción de almacenamiento popular para sus archivos e integrarlo con pandas puede mejorar significativamente su flujo de trabajo. En este artículo, exploraremos cómo leer archivos Parquet de Amazon S3 usando la poderosa biblioteca pandas.
Para resolver el problema de leer archivos de Parquet desde S3, debe comprender los componentes clave y las bibliotecas involucradas. Las dos bibliotecas principales que usaremos son pandas y s3fs. Pandas se encargará del procesamiento de los datos, mientras que s3fs proporcionará la conectividad a Amazon S3.
import pandas as pd import s3fs
Biblioteca de pandas
pandas es una biblioteca de código abierto que proporciona potentes herramientas de análisis y manipulación de datos en Python. Es ampliamente utilizado por la comunidad de ciencia de datos, gracias a su flexibilidad y capacidad para trabajar con diferentes formatos de datos, incluidos los archivos de Parquet. Con pandas, puede cargar, analizar y manipular datos fácilmente, lo que le permite explorar y comprender rápidamente los patrones y tendencias en sus datos.
Biblioteca S3fs
S3fs es una interfaz similar a un archivo de Python para acceder sin problemas a los objetos de Amazon S3. Combina la funcionalidad de Boto3 y FUSE (Filesystem in Userspace), lo que hace que sea increíblemente fácil trabajar con objetos S3 como si fueran archivos locales. A través de s3fs, puede leer y escribir archivos desde S3, enumerar y eliminar objetos y realizar otras operaciones de archivo directamente con Python.
Ahora que comprende las bibliotecas involucradas, veamos la explicación paso a paso de cómo leer archivos de Parquet desde S3 usando pandas y s3fs.
- Instalar pandas y s3fs – Primero, debe instalar las bibliotecas pandas y s3fs a través de pip:
pip install pandas s3fs
- Importar bibliotecas – Comience importando las bibliotecas pandas y s3fs:
import pandas as pd import s3fs
- Establecer configuración – Configure sus credenciales de Amazon S3 pasándolas directamente a s3fs o configurando su entorno con AWS_ACCESS_KEY_ID y AWS_SECRET_ACCESS_KEY:
fs = s3fs.S3FileSystem( key='your_aws_access_key_id', secret='your_aws_secret_access_key' )
- Leer archivo Parquet de S3 – Usa pandas y s3fs para leer tu archivo de Parquet:
file_path = 's3://your_bucket/path/to/your/parquet/file.parquet'
df = pd.read_parquet(file_path, storage_options={"s3": {"anon": False}})
Después de ejecutar estos pasos, debería haber leído con éxito su archivo Parquet de S3, y el marco de datos 'df' ahora contiene sus datos S3 en un formato tabular.
En este artículo, hemos visto cómo acceder y leer archivos Parquet desde Amazon S3 utilizando la poderosa biblioteca pandas para la manipulación de datos y s3fs para una conectividad S3 perfecta. Estas herramientas pueden mejorar en gran medida sus flujos de trabajo de procesamiento de datos y permitirle concentrarse en extraer información y comprender las últimas tendencias en el mundo de la moda. Desde explorar varias combinaciones de estilos hasta analizar la historia y la evolución de las tendencias de la ropa, pandas simplifica el descubrimiento de las gemas ocultas en sus datos.