Nutch 读取搜索结果目录统计数据、提取链接结构信息-CSDN博客

这样就可以编程序对其进行进一步的提取分析了。

后记：其实自己多看下Nutch命令就知道如何做了，只怪自己转载了Nutch命令这篇文章，却没有仔细阅读。

3.readseg

$ bin/nutch readseg 查看使用帮助
Usage: SegmentReader (-dump ... | -list ... | -get ...) [general options]

* General options:
        -nocontent      ignore content directory
        -nofetch        ignore crawl_fetch directory
        -nogenerate     ignore crawl_generate directory
        -noparse        ignore crawl_parse directory
        -noparsedata    ignore parse_data directory
        -noparsetext    ignore parse_text directory

* SegmentReader -dump <segment_dir> <output> [general options]
把一个segment的全部内容另存为一个文本文件

$ bin/nutch readseg -dump csdn/segments/20110602204241 segdb

* SegmentReader -list (<segment_dir1> ... | -dir <segments>) [general options]
列出每个Segments的 Name（文件夹名）、GENERATED（产生的URL数目）、Fetcher start（开始时间）、Fetcher end（结束时间）、Fetched（抓取数）、 parsed（解析数）。

$ bin/nutch readseg -list -dir csdn/segments
NAME            GENERATED       FETCHER START           FETCHER END                     FETCHED PARSED
20110602203246 1               2011-06-02T20:33:01     2011-06-02T20:33:01       1          1
20110602203450 30              2011-06-02T20:35:10     2011-06-02T20:35:31    34          15

* SegmentReader -get <segment_dir> <keyValue> [general options]

获取一个特定的记录，<keyValue> value of the key (url).

$ bin/nutch readseg -get csdn/segments/20110602204241 http://blog.csdn.net/