无论你是耐心地阅读了本书的前13章,还是用直升机式的阅读方法从一章跳到另一章,你肯定会认为Spark很好,但是......Spark是可扩展的吗?你可能会问,"我怎样才能把我现有的库带入到这个组合中?我是否必须只使用DataFrame API和Spark SQL来实现我想要的所有转换?" 从本章的标
本章的重点是整个文档的转换。Spark将摄取一个完整的文档,对其进行转换,并以另一种格式提供给它。 在上一章中,你阅读了关于数据转换的内容。下一个合乎逻辑的步骤是转换整个文档及其结构。举个例子,JSON对于传输数据来说是很好的,但当你必须遍历它来做分析时,就会非常痛苦。类似地,加入的数据集有很多数据
这一章可能是本书的基石。你通过前11章所收集的所有知识已经把你带到了这些关键问题上。"一旦我有了这些数据,我怎样才能转化它,我又能用它做什么?" Apache Spark是关于数据转换的,但确切地说,什么是数据转换?如何以可重复和程序化的方式进行这种转换?把它看成是一个工业过程,它将确保你的数据得到
结构化查询语言(SQL)是操作数据的黄金标准。它于1974年被引入,此后发展成为ISO标准(ISO/IEC 9075)。最新的修订是SQL:2016。 作为在关系型数据库中提取和操作数据的一种方式,SQL似乎一直存在。而且SQL将永远存在。当我在大学时,我清楚地记得问我的数据库教授:"你期望谁会使用
从几千米(或英尺,如果你拘泥于英制)的地方看你的数据,并关注数据生成的部分。你看到的是成批生成数据的系统,还是连续生成数据的系统?提供数据流的系统,也就是所谓的流,几年前还不太流行。流肯定是越来越受欢迎了,理解流是本章的重点。 比如说,你的手机会定期对手机信号塔进行ping。如果是智能手机(根据本书
在前面的章节中,你发现了什么是Apache Spark,以及如何构建简单的应用程序,并且,希望你理解了关键的概念,比如数据框架和惰性加载。本章与前一章有联系:你在第5章中构建了一个应用程序,并将在本章中部署它。在本章之前阅读第5章并不是必须的,但强烈建议。 在这一章中,你将抛开代码本身,在走向部署和
在前面的章节中,你发现了什么是Apache Spark,以及如何构建简单的应用程序,并且,希望你能理解关键概念,包括数据框架和懒惰。第5章和第6章是有联系的:你将在本章中构建一个应用程序,并在第6章中部署它。 在本章中,你将从零开始,构建一个应用程序。你之前在本书中构建了应用程序,但它们总是需要在最
本章不仅是关于庆祝懒惰。它还通过实例和实验,教给大家用传统方式构建数据应用和用Spark构建数据应用之间的根本区别。 懒惰至少有两种:当你已经致力于做其他事情时,在树下睡觉;为了以最聪明的方式完成工作,提前思考。虽然在这个精确的时刻,我的脑海里想的是躺在树荫下,主要是受到科西嘉岛的Asterix的启
在本章中,你将学习如何使用数据框架。你将了解到数据框架在Spark应用中是如此重要,因为它通过一个模式包含类型化的数据,并提供了一个强大的API。 正如你在前面的章节中看到的,Spark是一个了不起的分布式分析引擎。维基百科将操作系统(OS)定义为 "管理计算机硬件[和]软件资源的系统软件,并为计算
在本章中,你将建立一个Apache Spark的心智模型。心智模型是用你的思维过程和跟随图来解释某件事情在现实世界中是如何工作的。本章的目标是帮助你定义你自己的想法,关于我将引导你完成的思维过程。我将使用大量的图表和一些代码。如果要建立一个独特的Spark心理模型,那将是非常矫情的,这个模型将描述一