这样就可以编程序对其进行进一步的提取分析了。
后记:其实自己多看下Nutch命令就知道如何做了,只怪自己转载了Nutch命令这篇文章,却没有仔细阅读。
3.readseg
$ bin/nutch readseg 查看使用帮助
Usage: SegmentReader (-dump ... | -list ... | -get ...) [general options]
* General options:
-nocontent ignore content directory
-nofetch ignore crawl_fetch directory
-nogenerate ignore crawl_generate directory
-noparse ignore crawl_parse directory
-noparsedata ignore parse_data directory
-noparsetext ignore parse_text directory
* SegmentReader -dump <segment_dir> <output> [general options]
把一个segment的全部内容另存为一个文本文件
$ bin/nutch readseg -dump csdn/segments/20110602204241 segdb
* SegmentReader -list (<segment_dir1> ... | -dir <segments>) [general options]
列出每个Segments的 Name(文件夹名)、GENERATED(产生的URL数目)、Fetcher start(开始时间)、Fetcher end(结束时间)、Fetched(抓取数)、 parsed(解析数)。
$ bin/nutch readseg -list -dir csdn/segments
NAME GENERATED FETCHER START FETCHER END FETCHED PARSED
20110602203246 1 2011-06-02T20:33:01 2011-06-02T20:33:01 1 1
20110602203450 30 2011-06-02T20:35:10 2011-06-02T20:35:31 34 15
* SegmentReader -get <segment_dir> <keyValue> [general options]
获取一个特定的记录,<keyValue> value of the key (url).
$ bin/nutch readseg -get csdn/segments/20110602204241 http://blog.csdn.net/