有关calamine库,昨天私信被问爆了!今天咱们加个餐

昨天文章发出后,好多读者都来私信问布布有关calamine库的实操,咱们今天来加个餐,手把手跑一遍!

简单再介绍一下calamine库,咱在github 上查看,会看到其实它是一个 rust 的库,同时支持一众 excel 格式( xls , xlsx , xlsm , xlsb , xla , xlam ),并且增加python-calamine包,但目前其不支持写Excel文件。

接下来要说下安装,既然已经增加python-calamine包,我们可以采用以下方式进行安装:

pip install python-calamine -i https://pypi.tuna.tsinghua.edu.cn/simple/

我们尝试跑第一个例子

from python_calamine import CalamineWorkbook
workbook = CalamineWorkbook.from_path("file.xlsx")
print(workbook.sheet_names)
print(workbook.get_sheet_by_name("Sheet1").to_python())

成功读取!

有关calamine库,昨天私信被问爆了!今天咱们加个餐

下面我们来玩一个大的

我准备了50W X 12列的数据(.xlsx)

数据如下图所示

有关calamine库,昨天私信被问爆了!今天咱们加个餐

这么多数据的读取居然只花了7秒左右,震惊了!整体读取时间如下图所示

有关calamine库,昨天私信被问爆了!今天咱们加个餐

有兴趣的读者,可以参考这段代码跑一下,具体代码请根据实际情况自行完善

import os
import time
from typing import Iterator, IO

import python_calamine

def iter_excel_calamine(file: IO[bytes]) -> Iterator[dict[str, object]]:
    workbook = python_calamine.CalamineWorkbook.from_filelike(file)  # type: ignore[arg-type]
    rows = iter(workbook.get_sheet_by_index(0).to_python())
    headers = list(map(str, next(rows)))
    for row in rows:
        yield dict(zip(headers, row))

t1 = time.time()

with open('./数据源/'+os.listdir('./数据源/')[0],'rb'as f:
    rows = iter_excel_calamine(f)
    
    for r in rows:
        print(r.keys(),r.values())
        # row = next(rows)
        # print(row)
t2 = time.time()
print(t2-t1)

另外还有一个好消息,pandas在 2.2 版本开始,悄悄支持了calamine。为什么说”悄悄”?因为智能提示都没有提示出来:

有关calamine库,昨天私信被问爆了!今天咱们加个餐

不过,pandas在即将到来的3.0版本,正式支持calamine。

我们再来跑一个例子来感受下calamine的威力

engine我们指定calamine,所花时间大概9.4秒

有关calamine库,昨天私信被问爆了!今天咱们加个餐

然后engine我们再指定openpyxl,所花时间居然是1分钟6秒,白白多出1分钟,我的天!

有关calamine库,昨天私信被问爆了!今天咱们加个餐

今天的加餐希望对大家有帮助

都看到这了,关注+点赞+收藏=不迷路!!

如果你想知道更多关于Python编程的知识给个关注吧!


原文始发于微信公众号(跟着布布学Python):有关calamine库,昨天私信被问爆了!今天咱们加个餐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

文章由极客之音整理,本文链接:https://www.bmabk.com/index.php/post/256307.html

(0)
葫芦侠五楼的头像葫芦侠五楼

相关推荐

发表回复

登录后才能评论
极客之音——专业性很强的中文编程技术网站,欢迎收藏到浏览器,订阅我们!