分词 python代码实现
时间: 2025-03-03 19:28:48 浏览: 26
### Python 中文分词代码实现
在 Python 中,`jieba` 是一个非常流行的用于中文分词的第三方库。下面是一个简单的 `jieba` 分词实例:
```python
import jieba
text = "我喜欢使用Python进行自然语言处理"
seg_list = jieba.cut(text, cut_all=False)
print("精确模式: ", "/ ".join(seg_list))
```
上述代码展示了如何利用 `jieba` 库来进行基本的中文分词操作[^1]。
对于更复杂的场景,比如从文件中读取文本并统计词频,可以参考以下代码片段:
```python
import jieba
def count_words(file_path):
word_count = {}
with open(file_path,'r',encoding='utf-8') as file:
content = file.read()
words = jieba.lcut(content)
for word in words:
if len(word)>=2 and word != '\n':
word_count[word] = word_count.get(word, 0) + 1
sorted_word_count = sorted(word_count.items(), key=lambda kv:(kv[1], kv[0]), reverse=True)
return sorted_word_count[:10]
result = count_words('example.txt')
for item in result:
print(f"{item[0]} : {item[1]}次")
```
这段程序不仅实现了基础的分词功能,还加入了去除单字以及按频率排序的功能,使得结果更加实用和直观[^4]。
另外,在命令行环境中也可以直接调用 `jieba` 来完成批量文本的分词工作:
```bash
python -m jieba input_file.txt > output segmented_text.txt
```
此命令会将输入文件中的每一行都分割成单词序列,并保存到指定的目标文件里[^2]。
阅读全文
相关推荐


















