第一階段:基礎概念
-
文本挖掘的概念
- 什麼是文本挖掘?
- 文本挖掘與自然語言處理(NLP)的關係
- 文本挖掘的應用場景(情感分析、文本分類、關鍵詞提取等)
-
基礎技術
- 文字預處理:去除停用詞(stopwords)、標點符號、數字等
- 斷詞與詞形還原(Stemming & Lemmatization)
- 詞頻統計與詞雲分析
第二階段:數據處理與特徵提取
-
向量化表示
- Bag of Words(BoW)
- Term Frequency-Inverse Document Frequency(TF-IDF)
- Word Embeddings(如 Word2Vec, GloVe, FastText)
-
文本相似度計算
- 餘弦相似度(Cosine Similarity)
- Jaccard 相似度
- 歐幾里得距離
第三階段:機器學習與文本分析
-
文本分類
- 使用 Naïve Bayes、SVM、隨機森林等演算法進行文本分類
- 深度學習在文本分類中的應用(如 LSTM、BERT)
-
情感分析
- 基於詞典的情感分析
- 基於機器學習的情感分類
-
主題建模
- LDA(Latent Dirichlet Allocation)
- NMF(Non-negative Matrix Factorization)
第四階段:進階應用
- 命名實體識別(NER)
- 文本摘要生成
- 對話系統與文本生成