728x90
반응형
Parquet
-
Python parquet 타입으로 읽기, 쓰기Python/etc 2022. 10. 6. 13:37
목차 csv 데이터는 읽는 것 보다 쓰는 데 더욱 많은 시간이 걸린다. arrow에서는 csv 포맷 쓰기를 지원하지는 않기 때문에 parquet 타입 파일을 활용해야 한다. csv를 parquet 타입으로 저장 import pyarrow.parquet as pq from pyarrow import csv pq.write_table(csv.read_csv('data.csv'), 'data.parquet') 데이터 프레임을 parquet 파일로 저장 데이터 프레임을 먼저 Table로 변환 후 parquet타입으로 저장한다. import pandas as pd df.to_parquet('data.parquet', engine = 'pyarrow', index = False) import pyarrow as p..