pandas - Optimizing Parquet for storage space? - Stack Overflow-软件玩家

admin管理员组
文章数量:1384812

I got data in pq like this:

>>> df = duckdb.sql(f"SELECT * FROM parquet_schema('{file}')")
>>> df
┌─────────────────┬───────────┬────────────┬─────────────┬─────────────────┬──────────────┬────────────────┬───────┬───────────┬──────────┬──────────────┐
│    file_name    │    name   │    type    │ type_length │ repetition_type │ num_children │ converted_type │ scale │ precision │ field_id │ logical_type │
│     varchar     │  varchar  │  varchar   │   varchar   │     varchar     │    int64     │    varchar     │ int64 │   int64   │  int64   │   varchar    │
├─────────────────┼───────────┼────────────┼─────────────┼─────────────────┼──────────────┼────────────────┼───────┼───────────┼──────────┼──────────────┤
│ /ral/reda/Ru-…  │ schema    │ NULL       │ NULL        │ REQUIRED        │           13 │ NULL           │  NULL │      NULL │     NULL │ NULL         │
│ /ral/reda/Ru-…  │ t         │ BYTE_ARRAY │ NULL        │ OPTIONAL        │         NULL │ UTF8           │  NULL │      NULL │     NULL │ StringType() │
│ /ral/reda/Ru-…  │ p         │ INT64      │ NULL        │ OPTIONAL        │         NULL │ NULL           │  NULL │      NULL │     NULL │ NULL         │
│ /ral/reda/Ru-…  │ L         │ DOUBLE     │ NULL        │ OPTIONAL        │         NULL │ NULL           │  NULL │      NULL │     NULL │ NULL         │
│ /ral/reda/Ru-…  │ X         │ DOUBLE     │ NULL        │ OPTIONAL        │         NULL │ NULL           │  NULL │      NULL │     NULL │ NULL         │
│ /ral/reda/Ru-…  │ G         │ DOUBLE     │ NULL        │ OPTIONAL        │         NULL │ NULL           │  NULL │      NULL │     NULL │ NULL         │
│ /ral/reda/Ru-…  │ cl        │ INT64      │ NULL        │ OPTIONAL        │         NULL │ NULL           │  NULL │      NULL │     NULL │ NULL         │
│ /ral/reda/Ru-…  │ js        │ DOUBLE     │ NULL        │ OPTIONAL        │         NULL │ NULL           │  NULL │      NULL │     NULL │ NULL         │
│ /ral/reda/Ru-…  │ r         │ INT64      │ NULL        │ OPTIONAL        │         NULL │ NULL           │  NULL │      NULL │     NULL │ NULL         │
│ /ral/reda/Ru-…  │ e         │ INT64      │ NULL        │ OPTIONAL        │         NULL │ NULL           │  NULL │      NULL │     NULL │ NULL         │
│ /ral/reda/Ru-…  │ r_id      │ BYTE_ARRAY │ NULL        │ OPTIONAL        │         NULL │ UTF8           │  NULL │      NULL │     NULL │ StringType() │
│ /ral/reda/Ru-…  │ b_id      │ BYTE_ARRAY │ NULL        │ OPTIONAL        │         NULL │ UTF8           │  NULL │      NULL │     NULL │ StringType() │
│ /ral/reda/Ru-…  │ t_id      │ INT64      │ NULL        │ OPTIONAL        │         NULL │ NULL           │  NULL │      NULL │     NULL │ NULL         │
│ /ral/reda/Ru-…  │ e_id      │ INT64      │ NULL        │ OPTIONAL        │         NULL │ NULL           │  NULL │      NULL │     NULL │ NULL         │
├─────────────────┴───────────┴────────────┴─────────────┴─────────────────┴──────────────┴────────────────┴───────┴───────────┴──────────┴──────────────┤
│ 14 rows                                                                                                                                     11 columns │
└────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┘
>>> duckdb.sql(f"SELECT COUNT(*) FROM read_parquet('{file}')")
┌──────────────┐
│ count_star() │
│    int64     │
├──────────────┤
│     74614848 │
└──────────────┘

It's about 1005M on disk.

Is it worth going back and setting the BYTE_ARRAYs to ENUM fields (is that even supported?) Some of my columns only have a single value

本文标签： pandasOptimizing Parquet for storage spaceStack Overflow

版权声明：本文标题：pandas - Optimizing Parquet for storage space? - Stack Overflow 内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.betaflare.com/web/1744534800a2611247.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

编程频道|软件玩家 - 软件改变生活！

pandas - Optimizing Parquet for storage space? - Stack Overflow

更多相关文章

pandas - Optimizing Parquet for storage space? - Stack Overflow

发表评论

推荐文章

javascript - How to get date with 00:00:00 timestamp - Stack Overflow

javascript - React Native: LaTeX Not Rendering Properly Using react-native-math-viewreact-native-mathjax-svg - Stack Overflow

java - Log4J implementation not found in fat JAR - Stack Overflow

javascript - Cannot read property 'getElementsByClassName' of null - can I force it using an "if&qu

reactjs - NextJS + Antd Webview 83 Uncaught SyntaxError: Unexpected token '(' _app-455-3437e82bbe2dfd49.js:1 - S

热门文章

javascript - Error: Data column(s) for axis #0 cannot be of type string - Stack Overflow

javascript - Mouse interaction in html5 canvas. drawing lines - Stack Overflow

javascript - Chrome: to play a video that is being downloaded via fetchXHR - Stack Overflow

search - Does Javascript <script src =...> accept full path? - Stack Overflow

javascript - Calendardate and time picker for Twitter bootstrap - Stack Overflow

woocommerce shop page Redirect Help

functions - WordPress Menuing Question :focus

javascript - scrollIntoView() looping element on puppeteer - Stack Overflow

javascript - How to detect an in-app browser in iphone and android? - Stack Overflow

javascript - Invalid Date in Firefox using .toLocaleString() as well as moment.js - Stack Overflow

最新文章

windows设置断电重启开机后自动输入锁屏密码登录

Windows系统设置开机默认开启数字小键盘

Windows11 开机自动同步时间（开机时间不更新问题）

windows配置开机自启动软件或脚本

【Redis】Windows设置Redis为开机自启动

javascript - Multiplication of a number by 10 by automatically calculating in State - React JS - Stack Overflow

unix - shell script to sum numbers - Stack Overflow

Javascript plugins design pattern like jQuery - Stack Overflow

filters - Create different flavours of excerpt

TypeScript TS2345 error when passing {a: number} to Record<string, unknown> or Record<string, never>

惠普OMEN 15-CE001TX 2EF91PA参数报价

苹果新款MacBook Pro 15英寸 i732GB1TBVega Pro 20参数报价

联想Y330A-PSE L参数报价

神舟战神Z7 D6 i7-12650H16GB512GBRTX4050旗舰版参数报价

神舟战神Z7 D6 i7-12650H16GB1TBRTX4050参数报价

编程频道|软件玩家 - 软件改变生活！

pandas - Optimizing Parquet for storage space? - Stack Overflow

更多相关文章

pandas - Optimizing Parquet for storage space? - Stack Overflow

发表评论

推荐文章

javascript - How to get date with 00:00:00 timestamp - Stack Overflow

javascript - React Native: LaTeX Not Rendering Properly Using react-native-math-viewreact-native-mathjax-svg - Stack Overflow

java - Log4J implementation not found in fat JAR - Stack Overflow

javascript - Cannot read property &#39;getElementsByClassName&#39; of null - can I force it using an &quot;if&qu

reactjs - NextJS + Antd Webview 83 Uncaught SyntaxError: Unexpected token &#39;(&#39; _app-455-3437e82bbe2dfd49.js:1 - S

热门文章

javascript - Error: Data column(s) for axis #0 cannot be of type string - Stack Overflow

javascript - Mouse interaction in html5 canvas. drawing lines - Stack Overflow

javascript - Chrome: to play a video that is being downloaded via fetchXHR - Stack Overflow

search - Does Javascript &lt;script src =...&gt; accept full path? - Stack Overflow

javascript - Calendardate and time picker for Twitter bootstrap - Stack Overflow

woocommerce shop page Redirect Help

functions - WordPress Menuing Question :focus

javascript - scrollIntoView() looping element on puppeteer - Stack Overflow

javascript - How to detect an in-app browser in iphone and android? - Stack Overflow

javascript - Invalid Date in Firefox using .toLocaleString() as well as moment.js - Stack Overflow

最新文章

windows设置断电重启开机后自动输入锁屏密码登录

Windows系统设置开机默认开启数字小键盘

Windows11 开机自动同步时间（开机时间不更新问题）

windows配置开机自启动软件或脚本

【Redis】Windows设置Redis为开机自启动

javascript - Multiplication of a number by 10 by automatically calculating in State - React JS - Stack Overflow

unix - shell script to sum numbers - Stack Overflow

Javascript plugins design pattern like jQuery - Stack Overflow

filters - Create different flavours of excerpt

TypeScript TS2345 error when passing {a: number} to Record&lt;string, unknown&gt; or Record&lt;string, never&gt;

惠普OMEN 15-CE001TX 2EF91PA参数报价

苹果新款MacBook Pro 15英寸 i732GB1TBVega Pro 20参数报价

联想Y330A-PSE L参数报价

神舟战神Z7 D6 i7-12650H16GB512GBRTX4050旗舰版参数报价

神舟战神Z7 D6 i7-12650H16GB1TBRTX4050参数报价

javascript - Cannot read property 'getElementsByClassName' of null - can I force it using an "if&qu

reactjs - NextJS + Antd Webview 83 Uncaught SyntaxError: Unexpected token '(' _app-455-3437e82bbe2dfd49.js:1 - S

search - Does Javascript <script src =...> accept full path? - Stack Overflow

TypeScript TS2345 error when passing {a: number} to Record<string, unknown> or Record<string, never>