<?xml version="1.0" encoding="utf-8" ?><rss version="2.0"><channel><title><![CDATA[michzel的专栏]]></title><description><![CDATA[]]></description><link>https://blog.csdn.net/michzel</link><language>zh-cn</language><generator>https://blog.csdn.net/</generator><copyright><![CDATA[Copyright &copy; michzel]]></copyright><item><title><![CDATA[carrot2中lingo实现总结（一）]]></title><link>https://blog.csdn.net/michzel/article/details/7183174</link><guid>https://blog.csdn.net/michzel/article/details/7183174</guid><author>michzel</author><pubDate>Sat, 07 Jan 2012 11:08:08 +0800</pubDate><description><![CDATA[转载自：http://hi.baidu.com/dataanalyser/blog/item/d150d3554a89bb2943a75b41.html

从今天开始把carrot2中lingo的实现了解到的内容总结下，总结的不完整，有兴趣的可以单独沟通。


另外lingo的论文本地有，但是不能添加附件，所以就不上传了]]></description><category></category></item><item><title><![CDATA[用正则表达式去除文本中的标点符号]]></title><link>https://blog.csdn.net/michzel/article/details/7174870</link><guid>https://blog.csdn.net/michzel/article/details/7174870</guid><author>michzel</author><pubDate>Wed, 04 Jan 2012 14:20:20 +0800</pubDate><description><![CDATA[转载自http://blog.csdn.net/telnetor/article/details/6041323

近期从事检索工作，需要相应用户的输入请求，返回结果。由于难以预料用户的输入内容，如果不加过滤处理，在检索阶段很可能抛出异常。
 
用户的输入可能风格迥异，最常见的可能算是夹杂各种标点符号的输入了。怎样过滤？
在csdn论坛上面看到一贴，综合了一下，得到了下面的正则表达式，也]]></description><category></category></item><item><title><![CDATA[mahout介绍-1]]></title><link>https://blog.csdn.net/michzel/article/details/7098016</link><guid>https://blog.csdn.net/michzel/article/details/7098016</guid><author>michzel</author><pubDate>Fri, 23 Dec 2011 13:48:42 +0800</pubDate><description><![CDATA[转载自：http://hi.baidu.com/liujiekkk123/blog/item/4bd8a0878269c736c65cc3e6.html

Mahout 简单使用经验
mahout项目介绍
推荐引擎利用特殊的信息过滤技术，将不同的内容（例如电影、音乐、书籍、新闻、图片、网页等）推荐给可能感兴趣的用户。通常情况下，推荐引擎的实现是通过将用户的个人喜好与特定的参考特征进行比较，]]></description><category></category></item><item><title><![CDATA[mahout推荐介绍-2]]></title><link>https://blog.csdn.net/michzel/article/details/7098008</link><guid>https://blog.csdn.net/michzel/article/details/7098008</guid><author>michzel</author><pubDate>Fri, 23 Dec 2011 13:47:14 +0800</pubDate><description><![CDATA[转载自：http://hi.baidu.com/liujiekkk123/blog/item/d6c4541b06470fe6af5133fe.html

什么是协同过滤
协同过滤是利用集体智慧的一个典型方法。要理解什么是协同过滤 (Collaborative Filtering, 简称 CF)，首先想一个简单的问题，如果你现在想看个电影，但你不知道具体看哪部，你会怎么做？大部分的人会问问周]]></description><category></category></item><item><title><![CDATA[mahout推荐介绍-3]]></title><link>https://blog.csdn.net/michzel/article/details/7098000</link><guid>https://blog.csdn.net/michzel/article/details/7098000</guid><author>michzel</author><pubDate>Fri, 23 Dec 2011 13:44:42 +0800</pubDate><description><![CDATA[转载自：http://hi.baidu.com/liujiekkk123/blog/item/8334240938ed04386b60fbb3.html
基于 Apache Mahout 实现高效的协同过滤推荐
Apache Mahout 是 Apache Software Foundation (ASF) 旗下的一个开源项目，提供一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方]]></description><category></category></item><item><title><![CDATA[Ubuntu下使用SVN]]></title><link>https://blog.csdn.net/michzel/article/details/7090253</link><guid>https://blog.csdn.net/michzel/article/details/7090253</guid><author>michzel</author><pubDate>Wed, 21 Dec 2011 10:02:18 +0800</pubDate><description><![CDATA[1、将文件checkout到本地目录






svn checkout path（path 是服务器上的目录）
例如：svn checkout svn://192.168.1.1/pro/domain
简写：svn co
2、往版本库中添加新的文件

svn addfile
例如：svn add test.php(添加test.php)
svn add 
*.ph]]></description><category></category></item><item><title><![CDATA[Mahout架构初探及KMeans算法分布式实现的研究]]></title><link>https://blog.csdn.net/michzel/article/details/7083100</link><guid>https://blog.csdn.net/michzel/article/details/7083100</guid><author>michzel</author><pubDate>Mon, 19 Dec 2011 09:59:28 +0800</pubDate><description><![CDATA[转载自：http://hi.baidu.com/%B3%CF%D5%F7id/blog/item/6863de395f2f963eb8998fc3.html

1.         Mahout简介
Apache项目下的开源的基于hadoop分布式系统的数据挖掘工具，mahout源代码由maven项目管理工具管理。

2.         $MAHOUT_HOME/bin/mahout]]></description><category></category></item><item><title><![CDATA[hadoop shell 命令]]></title><link>https://blog.csdn.net/michzel/article/details/7055835</link><guid>https://blog.csdn.net/michzel/article/details/7055835</guid><author>michzel</author><pubDate>Fri, 09 Dec 2011 10:03:06 +0800</pubDate><description><![CDATA[全文转载自http://blog.sina.com.cn/s/blog_5fbdba500100cy6f.html

FS Shell

调用文件系统(FS)Shell命令应使用 bin/hadoop fs的形式。 所有的的FSshell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统，scheme是hdfs，对本地文件系统，sch]]></description><category></category></item><item><title><![CDATA[hadoop 命令手册]]></title><link>https://blog.csdn.net/michzel/article/details/7055822</link><guid>https://blog.csdn.net/michzel/article/details/7055822</guid><author>michzel</author><pubDate>Fri, 09 Dec 2011 10:01:16 +0800</pubDate><description><![CDATA[全文转载自http://blog.sina.com.cn/s/blog_5fbdba500100cy6d.html

概述

所有的hadoop命令均由bin/hadoop脚本引发。不指定参数运行hadoop脚本会打印所有命令的描述。
用法：hadoop [--config confdir] [COMMAND][GENERIC_OPTIONS] [COMMAND_OPTIONS]
Ha]]></description><category></category></item><item><title><![CDATA[ubuntu UltraEdit 反复试用的办法]]></title><link>https://blog.csdn.net/michzel/article/details/7053885</link><guid>https://blog.csdn.net/michzel/article/details/7053885</guid><author>michzel</author><pubDate>Thu, 08 Dec 2011 15:55:16 +0800</pubDate><description><![CDATA[UE 在处理文档方面能力强，但是从网上下载的只是试用版30天，30天到期后到用户目录下如：/home/michzel/.idm 文件夹下面，删除uex文件夹，重新打开UE，就又可以试用30天啦！]]></description><category></category></item><item><title><![CDATA[mahout lucene vector 错误]]></title><link>https://blog.csdn.net/michzel/article/details/7052464</link><guid>https://blog.csdn.net/michzel/article/details/7052464</guid><author>michzel</author><pubDate>Thu, 08 Dec 2011 10:34:17 +0800</pubDate><description><![CDATA[昨天mahout将索引转换为向量时总是报错，记录如下：


首先，建立索引时一定要将filed设置为向量，如：
Field fld = new Field(“text”, “foo”, Field.Store.NO, Field.Index.ANALYZED, Field.TermVector.YES);
其次，启动hadoop，切换到MAHOUT_HOME目录，运行：
/bin/ma]]></description><category></category></item><item><title><![CDATA[ubuntu 批量转换文本编码命令]]></title><link>https://blog.csdn.net/michzel/article/details/7052443</link><guid>https://blog.csdn.net/michzel/article/details/7052443</guid><author>michzel</author><pubDate>Thu, 08 Dec 2011 10:24:21 +0800</pubDate><description><![CDATA[当前目录下批量转换文本编码：

touch iconv.tmp && find . -iname "*.txt" -exec iconv -f gbk -t utf-8 '{}' -o iconv.tmp \; -exec mv iconv.tmp '{}' \;]]></description><category></category></item><item><title><![CDATA[java.util.regex 正则表达式]]></title><link>https://blog.csdn.net/michzel/article/details/6959174</link><guid>https://blog.csdn.net/michzel/article/details/6959174</guid><author>michzel</author><pubDate>Fri, 11 Nov 2011 11:38:04 +0800</pubDate><description><![CDATA[转自http://blog.csdn.net/xiazdong/article/details/6793715




正则表达式主要在java.util.regex包中，有Pattern和Matcher类。

Pattern类主要是正则匹配规则，Matcher是用某个正则表达式去匹配字符串。







Pattern和Matcher提供的常用方法：]]></description><category></category></item><item><title><![CDATA[短文本分类或lda的分析(ZZ)（转载pennyliang (pennyliang),）]]></title><link>https://blog.csdn.net/michzel/article/details/6594322</link><guid>https://blog.csdn.net/michzel/article/details/6594322</guid><author>michzel</author><pubDate>Sat, 09 Jul 2011 10:25:26 +0800</pubDate><description><![CDATA[2008-11-16 20:21




来自水木，标题我给改了下
发信人: pennyliang (pennyliang), 信区: SearchEngineTech
标 题: 总结一下我的一些提问和感想
发信站: 水木社区 (Sun Nov 16 08:19:10 2008), 站内

Latent Dirichlet Allocation(LDA)模型是近年来提出的一种具]]></description><category></category></item><item><title><![CDATA[ICTCLAS JNI init fail问题的修复]]></title><link>https://blog.csdn.net/michzel/article/details/6578109</link><guid>https://blog.csdn.net/michzel/article/details/6578109</guid><author>michzel</author><pubDate>Thu, 30 Jun 2011 21:26:00 +0800</pubDate><description><![CDATA[这是张华平博士的分词系统
ICTCLAS2011 java UnsatisfiedLinkError ICTCLAS2011.ICTCLAS_Init([BI)Z
2011年06月05日 星期日 上午 02:44
出现的问题如：
ICTCLAS_Init

Exception in thread "main" java.lang.UnsatisfiedLinkError: ICTCLA]]></description><category></category></item><item><title><![CDATA[MySQL 中文显示乱码(转帖）]]></title><link>https://blog.csdn.net/michzel/article/details/6576905</link><guid>https://blog.csdn.net/michzel/article/details/6576905</guid><author>michzel</author><pubDate>Thu, 30 Jun 2011 13:00:00 +0800</pubDate><description><![CDATA[最近关于中文显示乱码的贴子比较多，所以也做了个总结：
可以参考一下杨涛涛版主的《各种乱码问题汇总》
http://topic.csdn.net/u/20071124/08/3b7eae69-ed1d-4a77-8895-9930bf3601af.html
MySQL字符集的原理介绍。摘录于官方文档。http://dev.mysql.com/doc/refman/5.1/zh/charset.]]></description><category></category></item><item><title><![CDATA[WEKA连接MySQL,Oracle,SQLServer （转帖）]]></title><link>https://blog.csdn.net/michzel/article/details/6575925</link><guid>https://blog.csdn.net/michzel/article/details/6575925</guid><author>michzel</author><pubDate>Wed, 29 Jun 2011 21:54:00 +0800</pubDate><description><![CDATA[1.准备
Windows XP
jdk-1_5_0_14
weka-3-5-7.exe
SQLServer2005
mysql-6.0.0
Oracle10.2.0.1.0
Microsoft SQL Server 2005 JDBC Driver 1.2--->sqljdbc.jar
MySQL Driver for JDBC--->mysql-connector-java-5.]]></description><category></category></item><item><title><![CDATA[Weka访问MySql数据库报错（转帖）]]></title><link>https://blog.csdn.net/michzel/article/details/6575886</link><guid>https://blog.csdn.net/michzel/article/details/6575886</guid><author>michzel</author><pubDate>Wed, 29 Jun 2011 21:34:00 +0800</pubDate><description><![CDATA[在Weka中使用Experimenter想连接Mysql数据库时， 默认链接为：jdbc:idb=experiments.prp将其改为：jdbc:mysql://222.35.250.58:3306/labin_ultimate_original(Mysql主机与数据库名需要根据实际情况设置）仍然会出现错误：exception: java.sql.SQLException: No suitabl]]></description><category></category></item><item><title><![CDATA[java 调用MATLAB（转帖）]]></title><link>https://blog.csdn.net/michzel/article/details/6575373</link><guid>https://blog.csdn.net/michzel/article/details/6575373</guid><author>michzel</author><pubDate>Wed, 29 Jun 2011 17:01:00 +0800</pubDate><description><![CDATA[1.        
环境准备 

a)        
机器上有Eclipse 3.1和 Matlab 2007a
b)        
机器的环境变量设置
                        
i.             
JAVA_HOME
(JDK的安装位置  
如C:/Program Files/Java/jdk1.5.0)
l
设置后，重启mat]]></description><category></category></item><item><title><![CDATA[weka简介和回归-----转自chinakdd]]></title><link>https://blog.csdn.net/michzel/article/details/6574176</link><guid>https://blog.csdn.net/michzel/article/details/6574176</guid><author>michzel</author><pubDate>Wed, 29 Jun 2011 09:34:00 +0800</pubDate><description><![CDATA[什么是数据挖掘？
数据挖掘，就其核心而言，是指将大量数据转变为有实际意义的模式和规则。并且，它还可以分为两种类型：直接的和间接的。在 直接的 数据挖掘中，您会尝试预测一个特定的数据点 — 比如，以给定的一个房子的售价来预测邻近地区内的其他房子的售价。

在 间接的 数据挖掘中，您会尝试创建数据组或找到现有数据内的模式 — 比如，创建 “中产阶级妇女”的人群。实际上，每次的美国人口统计都是在进]]></description><category></category></item></channel></rss>