sparkr-vignettes.Rmd

title: "SparkR - Practical Guide"
output:
  rmarkdown::html_vignette:
    toc: true
    toc_depth: 4
vignette: >
  %\VignetteIndexEntry{SparkR - Practical Guide}
  %\VignetteEngine{knitr::rmarkdown}
  \usepackage[utf8]{inputenc}
library(SparkR)
install.spark()
sparkR.session()
cars <- cbind(model = rownames(mtcars), mtcars)
carsDF <- createDataFrame(cars)
head(carsDF)
carsSubDF <- select(carsDF, "model", "mpg", "hp")
carsSubDF <- filter(carsSubDF, carsSubDF$hp >= 200)
head(carsSubDF)
carsGPDF <- summarize(groupBy(carsDF, carsDF$gear), count = n(carsDF$gear))
head(carsGPDF)
carsGP <- collect(carsGPDF)
class(carsGP)
model <- spark.glm(carsDF, mpg ~ wt + cyl)
summary(model)
write.ml(model, path = "/HOME/tmp/mlModel/glmModel")
sparkR.session.stop()
install.spark()
sparkR.session(sparkHome = "/HOME/spark")
spark_warehouse_path <- file.path(path.expand('~'), "spark-warehouse")
sparkR.session(spark.sql.warehouse.dir = spark_warehouse_path)
paste("Spark", packageVersion("SparkR"))
sparkR.session(master = "spark://local:7077")
sparkR.session(master = "yarn")
df <- as.DataFrame(faithful)
head(df)