DataFrame是什么

小半 • 2022年5月6日下午1:33 • 未分类 • 阅读 283

导读：本篇文章讲解 DataFrame是什么，希望对大家有帮助，欢迎收藏，转发！站点地址：www.bmabk.com

在 Spark 中，DataFrame 是一种以 RDD 为基础的分布式数据集，类似于传统数据库中的二维表格。DataFrame 与 RDD 的主要区别在于，前者带有 schema 元信息，即 DataFrame所表示的二维表数据集的每一列都带有名称和类型。这使得 Spark SQL 得以洞察更多的结构信息，从而对藏于 DataFrame 背后的数据源以及作用于 DataFrame 之上的变换进行了针对性的优化，最终达到大幅提升运行时效率的目标。反观 RDD，由于无从得知所存数据元素的

具体内部结构，Spark Core 只能在 stage 层面进行简单、通用的流水线优化。同时，与 Hive 类似，DataFrame 也支持嵌套数据类型（struct、array 和 map）。从 API 易用性的角度上看，DataFrame API 提供的是一套高层的关系操作，比函数式的 RDD API 要更加友好，门槛更低。

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至举报，一经查实，本站将立刻删除。

文章由极客之音整理，本文链接：https://www.bmabk.com/index.php/post/1502.html

优化分布式

赞 (0)

0 0

Python自学教程教程

Dramatiq，一个超实用的python库

000556

python学霸
2024年4月21日
后端笔记

聊聊Doris中的高效设计

000390

小半
2024年3月18日
后端笔记

最终一致性和实时一致性是什么？在架构设计中我们应该怎么选择？

000287

服务端技术精选
2024年3月28日
Python自学教程教程

numba，一个超强的python库

000307

python学霸
2024年4月21日
微信精选

使用Go构建商业应用: 关于DRY，你需要知道的

000327

小半
2023年10月24日
技术漫谈

SQL 优化的关键：单块读、多块读与索引维护

000258

小半
2024年4月1日
技术漫谈

高并发下防止超卖：从数据库锁到Redis优化的策略演进

000921

小半
2024年3月12日
Go语言

服务注册发现之服务注册中心设计原理与Golang实现

000266

小半
2022年8月14日
前端开发

restful设计原则

000208

李, 若俞
2024年4月2日
微信精选

JUC(第四弹)-多线程你躲不掉的，锁优化，锁，ThreadLocal

000323

小半
2023年4月12日
Python自学教程教程

gensim，一个非常实用的Python库

000682

python学霸
2024年4月26日
技术漫谈

阿里云-全球加速GA-弹性公网ip-共享带宽

000383

小半
2024年3月5日

极客之音——专业性很强的中文编程技术网站，欢迎收藏到浏览器，订阅我们！