Weka源码分析(1)——模块划分及core package分析

spacewalkman

于 2016-11-18 15:38:39 发布

阅读量2.6k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： weka 数据挖掘文章标签： weka 源码 core 分析数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/spacewalkman/article/details/53217519

本文详细分析了Weka数据挖掘工具的模块划分，重点探讨了core package中的数据表示，包括Attribute、Instance及其继承体系、Instances类。Attribute类的fields、constructor和properties被详尽阐述，同时解释了各种Instance实现如何处理数据，特别是DenseInstance和SparseInstance的差异。Instances类则负责整个数据集的管理，包含属性和实例的交互操作。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.1模块划分

weka采用maven作为构建工具，从module划分的角度，是个单module系统，但是weka的从package划分上体现了“关注点分离”。
weka package划分
各package关注点（职责划分）如下：

分类	package name	职责
算法	associations	关联规则算法
	attributeSelection	属性选择算法
	classifiers	分类算法
	clusterers	聚类算法
底层基础服务	core
数据预处理	filters	数据过滤、变换
常见分布估计	estimators
数据生成器	datagenerators	按照指定的规则生成数据
易用性部分	experiment
	gui	用户界面
	Knowledgeflow	工作流支撑系统

1.2core package分析

1.2.1 数据表示

逻辑上，挖掘算法将数据集（DataSet）认为是“二维表”。
逻辑上二维表
Weka中对应关系如下：

概念	Weka 实现	备注
属性	Attribute
属性元信息	A

最低0.47元/天解锁文章

博客等级

码龄18年

29
原创

25
点赞

56
收藏

67
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: zeppelin源码分析(7)——interpreter调试

下一篇：: Weka源码分析(2)——core.converters package分析

最新评论

zeppelin源码分析(4)——主要的class分析(下)
weixin_44326567: 楼主您好，我刚开始搭zeppelin，但是编译好了发现没有解释器配置，请问应该怎么办呢
zeppelin源码分析(4)——主要的class分析(下)
weixin_44326567: 楼主您好，我刚开始搭zeppelin，但是编译好了发现没有解释器配置，请问应该怎么办呢
zeppelin源码分析(4)——interpreter的调度和任务封装
守望者zpr: 大佬请教一个问题，我们这边为多租户提供zeppelin服务时，主要使用zeppelin提交spark作业，我们后台spark搭建基于CDH作业通过yarn资源调度，spark intepreter解析器配置为 per user in isolated，用户维度的隔离，但是我们在实际生产上部署后不同用户登录后同时使用zeppelin提交spark作业会出现下面的报错信息： Caused by: ERROR XJ040: Failed to start database 'metastore_db' with class loader org.apache.spark.sql.hive.client.IsolatedClientLoader$$anon$1@2539c998, see the next exception for details. at org.apache.derby.iapi.error.StandardException.newException(Unknown Source) at org.apache.derby.impl.jdbc.SQLExceptionFactory.wrapArgsForTransportAcrossDRDA(Unknown Source) ... 151 more Caused by: ERROR XSDB6: Another instance of Derby may have already booted the database /home/zeppelin/zeppelin-0.8.0-bin-all/bin/metastore_db. 实际上是因为hive的metadata_db初始化在本地，其它的用户无法再初始化metadata，这个zeppelin是如何进行配置的。还是说zeppelin本身不支持这种多租户并发使用？谢谢大佬
zeppelin源码分析(1)——编译、调试和maven modules分析
何不快哉: 博主你好，我在使用zeppelin时候，在新建文件夹时不小心输为/，结果导致notebook界面的文件列表都丢失了，但是所有的文件都在，请问如何能修复呢？
zeppelin源码分析(4)——interpreter的调度和任务封装
笨娃娃001 回复笨娃娃001: 这是一个bug 已经通过修改 jdbc的代码解决了谢谢各位

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。