PySpark - SparkConf

要在本地/集群上运行Spark应用程序,您需要设置一些配置和参数,这是SparkConf帮助的.它提供运行Spark应用程序的配置.以下代码块包含PySpark的SparkConf类的详细信息.

class pyspark.SparkConf (
   loadDefaults = True, 
   _jvm = None, 
   _jconf = None
)

最初,我们将使用SparkConf()创建一个SparkConf对象,将加载来自 spark.* Java系统属性的值.现在,您可以使用SparkConf对象设置不同的参数,它们的参数将优先于系统属性.

在SparkConf类中,有一些setter方法,它们支持链接.例如,您可以编写 conf.setAppName("PySpark App").setMaster("local").一旦我们将SparkConf对象传递给Apache Spark,任何用户都无法修改它.

以下是SparkConf的一些最常用的属性 :

  • 设置(键,值) : 设置配置属性.

  • setMaster(value) : 设置主网址.

  • setAppName(value) : 设置应用程序名称.

  • get(key,defaultValue = None) : 获取密钥的配置值.

  • setSparkHome(value) : 在工作节点上设置Spark安装路径.

让我们考虑以下在PySpark程序中使用SparkConf的示例.在此示例中,我们将spark应用程序名称设置为 PySpark App ,并将spark应用程序的主URL设置为 →   spark://master:7077 .

以下代码块包含这些行,当它们被添加到Python文件中时,它会设置运行的基本配置一个PySpark应用程序.

 ----------------------------- -------------------------------------------------- --------来自pyspark导入的
 SparkConf,SparkContext 
 conf = SparkConf().setAppName("PySpark App").setMaster("spark://master:7077")
 sc = SparkContext(conf = conf)
 ------------------------------------ -------------------------------------------------- -