基于主動學習的命名實體識別算法
【摘要】:命名實體識別的目的是識別文本中的實體指稱的邊界和類別。在進行命名實體識別模型訓練的過程中,通常需要大量的標注樣本。本文通過實現有效的選擇算法,從大量樣本中選擇適合模型更新的樣本,減少對樣本的標注工作。通過5組對比實驗,驗證使用有效的選擇算法能夠獲得更好的樣本集,實現具有針對性的標注樣本。通過設計在微博網絡數據集上的實驗,驗證本文提出的基于流的主動學習算法可以針對大量互聯網文本數據選擇出更合適的樣本集,能夠有效減少人工標注的成本。本文通過2個模型分別實現實體的邊界提取和類別區分。序列標注模型提取出實體在序列中的位置,實體分類模型實現對標注結果的分類,并利用主動學習的方法實現在無標注數據集上的訓練。使用本文的訓練方法在2個數據集上進行實驗。在Weibo數據集上的實驗展示算法能從無標簽數據集中學習到文本特征。在MSRA數據集上的實驗結果顯示,在預訓練數據集的比例達到40%以上時,模型在測試數據集上的F1值穩定在90%左右,與使用全部數據集的結果接近,說明模型在無標簽數據集上具有一定的特征提取能力。