首先PySpark需要从PyPi上面安装,如下URL:https://pypi.org/project/pyspark/#files
若安装PySpark需要首先具备Python环境,这里使用Anaconda环境,安装过程可直接参考部署文档即可 <<spark部署文档.doc>> 中关于PySpark的安装操作。
up同名公众号内回复【spark部署】获取资料。
(相关资料图)
PySpark视频安装教程
补充-conda命令
conda虚拟环境 命令
查看所有环境
conda info --envs
新建虚拟环境
conda create -n myenv python=3.6
删除虚拟环境
conda remove -n myenv --all
激活虚拟环境
conda activate myenv
source activate base
退出虚拟环境
conda deactivate myenv
Spark框架自带的案例Example中涵盖圆周率PI计算程序,可以使用【$SPARK_HOME/bin/spark-submit】提交应用执行,运行在本地模式。
· 自带案例pi脚本:【/export/server/spark/examples/src/main/python/pi.py】
· 提交运行PI程序
SPARK_HOME=/export/server/spark
${SPARK_HOME}/bin/spark-submit \
--master local[2] \
${SPARK_HOME}/examples/src/main/python/pi.py \
10
(1)基本语法
(2)参数说明:
--master 指定Master的地址,默认为Local
--class: 你的应用的启动类 (如 org.apache.spark.examples.SparkPi)
--deploy-mode: 是否发布你的驱动到worker节点(cluster) 或者作为一个本地客户端 (client) (default: client)
--conf: 任意的Spark配置属性, 格式key=value. 如果值包含空格,可以加引号“key=value”
application-jar: 打包好的应用jar,包含依赖. 这个URL在集群中全局可见。比如hdfs:// 共享存储系统, 如果是 file:// path, 那么所有的节点的path都包含同样的jar
application-arguments: 传给main()方法的参数
--executor-memory 1G 指定每个executor可用内存为1G
--total-executor-cores 2 指定每个executor使用的cup核数为2个
关键词: SPARK WORKER 安装教程 ANACONDA python CLient CLASS MAIN MASTER 应用程序 HTTPS