视频1 视频21 视频41 视频61 视频文章1 视频文章21 视频文章41 视频文章61 推荐1 推荐3 推荐5 推荐7 推荐9 推荐11 推荐13 推荐15 推荐17 推荐19 推荐21 推荐23 推荐25 推荐27 推荐29 推荐31 推荐33 推荐35 推荐37 推荐39 推荐41 推荐43 推荐45 推荐47 推荐49 关键词1 关键词101 关键词201 关键词301 关键词401 关键词501 关键词601 关键词701 关键词801 关键词901 关键词1001 关键词1101 关键词1201 关键词1301 关键词1401 关键词1501 关键词1601 关键词1701 关键词1801 关键词1901 视频扩展1 视频扩展6 视频扩展11 视频扩展16 文章1 文章201 文章401 文章601 文章801 文章1001 资讯1 资讯501 资讯1001 资讯1501 标签1 标签501 标签1001 关键词1 关键词501 关键词1001 关键词1501 专题2001
spark数据格式
2025-09-27 16:16:18 责编:小OO
文档
Spark 集成算法的数据格式即评估方法

类别算法名称需求格式评估方法
聚类算法KMeansRDD[Verctor]

分类算法DecisionTree(决策树)

RDD[LabeledPoint]

ACU,F-measure,ROC

LogisticRegression(逻辑回归)

RDD[LabeledPoint]

ACU,F-measure,ROC

NaiveBayes(朴素贝叶斯)

RDD[LabeledPoint]

ACU,F-measure,ROC

SVM(支持向量机)

RDD[LabeledPoint]

ACU,F-measure,ROC

回归算法LinearRegression(线性回归)

RDD[LabeledPoint]

自定义
RidgeRegression(岭回归)

RDD[LabeledPoint]

自定义
LassoRDD[LabeledPoint]

自定义
推荐算法ALSRDD[rating]
注:

(1)LabeledPoint: LabeledPoint数据格式是Spark自己定义的一种数据格式,他的原型是LIBSVM(大学副教授开发的一种简单、易用和快速有效的SVM模式识别与回归的软件包)输入数据的格式类型。LabeledPoint是一种标签数据,数据结构分为label 和features两部分。具体结构为,label index1:value1 index2:value2 ...,其中label为标签数据,index1,index2为特征值序号,value1,value2为特征值。

(2) 自定义:Spark目前没有一个通用的类去评估回归模型,只是在例子中自己写的一个小方法去评估模型,方法如下:

  val loss = predictionAndLabel.map { case (p, l) =>    //预测结果为p和标签值为l

      val err = p – l                             //通过p-l获得误差值err 

      err * err                                 //误差平方

}.reduce(_ + _)                              //把所有误差平方相加求平方和

val rmse = math.sqrt(loss / numTest)              //平均样本误差下载本文

显示全文
专题