## ----eval=FALSE---------------------------------------------------------------
#  install.packages("wsrf")

## ----eval=FALSE---------------------------------------------------------------
#  devtools::install_github("simonyansenzhao/wsrf")

## ----usage_load, message=FALSE------------------------------------------------
ds <- iris
dim(ds)
names(ds)

## ----usage_prepare------------------------------------------------------------
target <- "Species"
vars <- names(ds)

## ----message=FALSE------------------------------------------------------------
library("randomForest")
if (sum(is.na(ds[vars]))) ds[vars] <- na.roughfix(ds[vars])
ds[target] <- as.factor(ds[[target]])
(tt <- table(ds[target]))

## -----------------------------------------------------------------------------
(form <- as.formula(paste(target, "~ .")))

## -----------------------------------------------------------------------------
seed <- 42
set.seed(seed)
length(train <- sample(nrow(ds), 0.7*nrow(ds)))
length(test <- setdiff(seq_len(nrow(ds)), train))

## ----eval=FALSE---------------------------------------------------------------
#  wsrf(formula, data, ...)

## ----eval=FALSE---------------------------------------------------------------
#  wsrf(x,
#       y,
#       mtry=floor(log2(length(x))+1),
#       ntree=500,
#       weights=TRUE,
#       parallel=TRUE,
#       na.action=na.fail,
#       importance=FALSE,
#       nodesize=2,
#       clusterlogfile,
#       ...)

## ----usage_build_by_default, message=FALSE------------------------------------
library("wsrf")
model.wsrf.1 <- wsrf(form, data=ds[train, vars], parallel=FALSE)
print(model.wsrf.1)
print(model.wsrf.1, 1)  # Print tree 1.

## ----usage_evaluate-----------------------------------------------------------
cl <- predict(model.wsrf.1, newdata=ds[test, vars], type="class")$class
actual <- ds[test, target]
(accuracy.wsrf <- mean(cl == actual, na.rm=TRUE))

## ----usage_build_another, message=FALSE---------------------------------------
set.seed(seed+1)

# Here we build another model without weighting.
model.wsrf.2 <- wsrf(form, data=ds[train, vars], weights=FALSE, parallel=FALSE)
print(model.wsrf.2)

## ----usage_subset_combine-----------------------------------------------------
submodel.wsrf <- subset.wsrf(model.wsrf.1, 1:150)
print(submodel.wsrf)
bigmodel.wsrf <- combine.wsrf(model.wsrf.1, model.wsrf.2)
print(bigmodel.wsrf)

## ----usage_build_on_cluster, eval=FALSE---------------------------------------
#  servers <- paste0("node", 31:40)
#  model.wsrf.3 <- wsrf(form, data=ds[train, vars], parallel=servers)