kmeans job eclipse_kmeans在eclipse中的结果-CSDN博客

本文链接：https://blog.csdn.net/LANWENBING/article/details/38756729

从92行开始，脚本完成了一系列操作：提取语料库中的文本保存到指定目录，把指定目录的文件转换为sequencefile，一气呵成！

实际上，mahout通过MapReduce执行的操作比上面的更详细。深入分析这一过程，可以了解到更多的处理细节。一起来分析它的处理步骤：

将文本文件转换为sequencefile
分词（DocumentProcessor::DocumentTokenizer)
统计词频（DictionaryVectorizer::WordCount）
生成分区向量空间（DictionaryVectorizer::MakePartialVectors）
合并分区向量空间（PartialVectorMerger）
用tfidf算法计算文档向量空间各分量的权重（VectorTfIdf Document Frequency Count ）
优化向量空间（Prune Vectors）——将维
合并优化后的向量空间（PrunerPartialVectorMerger）
再次生成分区向量空间（MakePartialVectors）
再次合并分区向量空间（PartialVectorMerge）
聚类(Cluster Iterator running)
分类（Cluster Classification Driver running）
输出聚类结果（Representative Points Driver running）

最终的聚类输出20个分类以及他们的编号，并给出每一个分类的类间密度：

每一个类包含的节点信息保存在目录${WORK_DIR}/reuters-kmeans/clusteredPoints中：

-rw-r--r--   1 hadoop supergroup          0 2014-05-04 19:21 /tmp/mahout-work-hadoop/reuters-kmeans/clusteredPoints/_SUCCESS
-rw-r--r--   1 hadoop supergroup    7899885 2014-05-04 19:21 /tmp/mahout-work-hadoop/reuters-kmeans/clusteredPoints/part-m-00000

part-m-00000是一个由map过程输出的文件，里面内容格式如下：

2949    wt: 1.0 distance: 0.7671613509177753  vec: /reut2-008.sgm-192.txt = [398:8.248, 443:3.997, 594:3.212, 1026:3.985, 1046:6.728, 1068:9.864, 1090:6.639, 1095:7.016, 1181:9.097, 1188:7.796, 1196:7.709, 1202:8.402, 1330:5.989, 1489:7.486, 1620:8.248, 2830:3.341, 3388:4.419, 5470:3.374, 5593:3.610, 7218:6.556, 7402:9.002, 7748:5.569, 7766:12.140, 8010:5.197, 8089:7.103, 8657:7.421, 8660:6.169, 8755:4.137, 8791:7.486, 9130:2.906, 9571:3.948, 9623:7.997, 9650:4.837, 9651:5.398, 9654:9.095, 9678:13.436, 9889:3.717, 9910:5.812, 9911:4.926, 10348:4.147, 10619:7.486, 10850:7.976, 10907:9.348, 10909:7.709, 11540:6.862, 11550:3.386, 12189:4.392, 12347:4.480, 12384:5.458, 12729:1.946, 13185:7.629, 13332:3.595, 13502:5.640, 13819:5.799, 13953:13.436, 14245:3.098, 14380:7.421, 14393:4.435, 14894:4.796, 15045:8.362, 15164:6.827, 15262:7.709, 15402:6.187, 15509:2.681, 16067:6.760, 16138:5.041, 16581:3.413, 17029:6.697, 17119:7.709, 17183:7.016, 17455:3.826, 17759:5.001, 18283:5.256, 18348:6.151, 18392:3.186, 19333:6.898, 19363:8.808, 19457:7.058, 19815:5.125, 19939:5.619, 19940:5.640, 20541:3.328, 21239:4.413, 21245:6.167, 21280:4.248, 21389:7.103, 21642:8.808, 21824:5.138, 22158:10.684, 22677:7.103, 22797:12.456, 23046:2.600, 23077:7.709, 23085:8.011, 23191:8.584, 23332:4.278, 23346:4.709, 23411:7.304, 23583:9.095, 23615:13.436, 23637:8.292, 23641:8.248, 23788:5.157, 24080:5.799, 24088:5.792, 24239:8.674, 24376:6.302, 24769:8.584, 25116:7.997, 25680:3.463, 25939:5.366, 26190:5.304, 26508:4.445, 26873:4.947, 26874:5.640, 26920:6.506, 26973:2.397, 26975:3.605, 27356:7.796]

2949是类编号,[]中的是（词,权重)键值对。这里的词经过词典转换，存的是词典索引，具体的词典放在${WORK_DIR}/reuters-out-seqdir-sparse-kmeans/dictionary.file-0件中。

...
last    17455
lasted  17456
lasting 17457
...

空白符的前部分是词，后半部分是词索引。

整个过程分析下来，mahout的聚类过程变得更清晰？但还有几点没有涉及：

分词，特别是中文分词如何处理。
读取聚类结果，展示给最终用户。
权重算法。
向量空间将维算法。
距离算法。