新（xīn）聞動態

免費谘詢（xún）熱線

13621929115

公司新聞

詞性（xìng）標注模型

發布日期：2023-04-05 13:57瀏覽次數：

記者從創新工場獲悉，其最新提出了中文分詞和詞性標注模型，可將外部知識（信息）融入分詞及詞性標注模（mó）型DoNews7月13日消息（記者翟繼茹（rú））13日，記者從創新工場（chǎng）獲悉（xī），其最新提出（chū）了中文分詞和詞性（xìng）標注模型，可將外部知識（信息）融入分詞及詞性標注模（mó）型，剔除了分詞“噪音”誤導，提升了分詞（cí）及詞性標注效果（guǒ）。

在工業模型NLP中，中文分詞和詞（cí）性（xìng）標注是中文自然語言處理的兩個基本任務，尤其在工業場景對分詞有非常直接的訴求，但當前沒有（yǒu）比（bǐ）較好的一體化解決方案，而（ér）且中文分詞普遍存在歧義和（hé）未登錄詞的難題創新工場方麵解釋，中文語言因其特（tè）殊性，在分詞時麵臨著兩個主要難點。

一是歧義問（wèn）題，由於中文存在大量歧義，一（yī）般的分詞工具在切分句（jù）子工業模型時可能會（huì）出錯例如，“部（bù）分居民生活水平”，其正確的切（qiē）分應為“部分/居民/生活/水平”，但存在“分居”、“民生”等歧義詞（cí）“他從（cóng）小（xiǎo）學電腦技術（shù）”，正確（què）的分詞是：他/從小/學/電腦技術，但也存在“小學”這種歧義詞。

二是未登錄詞問（wèn）題未登錄詞指的是不在詞表，或者是模（mó）型在訓練的過程（chéng）中沒有遇見過的詞（cí）例（lì）如經濟、醫療、科工業模型技等科學領（lǐng）域的專業術語或者社交媒體上的新詞，或者是人名（míng）這類問（wèn）題在跨領域分詞任務中尤（yóu）其明顯因此，在“鍵-值記憶神（shén）經網絡的中文分詞模型”的模型中，利用n元組（即（jí）一（yī）個由（yóu）連續n個字組成的序列，比如“居民”是一個2元組，“生活水（shuǐ）平”是一個4元（yuán）組）提供的每個字的構詞能力，通過加（降）權重實現特定語境下的歧義消解工（gōng）業模型。

並（bìng）通過非監督方法構建詞表，實現對特定領域的未（wèi）標（biāo）注文本的利用，進而提升對未登錄詞的（de）識別

在算法實驗中，該模型在5個數據（jù）集（MSR、PKU、AS、CityU、CTB6）上的表（biǎo）現，均刷新曆史成績創新工場大灣區人工智能研究院執行院長宋彥（yàn）表示，與前人的模型進行比較發現，該模（mó）型在所有數據集上的表現均超過了之前的（de）工業模型工作，“把中（zhōng）文分詞領（lǐng）域廣（guǎng）泛使用的標準數據集上的性能全部（bù）刷到了新高。

”在基於（yú）雙通道注（zhù）意力機製的分詞及詞（cí）性標（biāo）注模型中，將中（zhōng）文分詞和詞性標（biāo）注視作聯合任務，可一體化完成模型分別對自動獲取的上下文特征和句法知識加權，預測每個字的分詞和詞性標簽，不同的上下文特征和句法知（zhī）識在（zài）各自所屬的注意力通道內進行比較、加權，工業模型從而識別特定語（yǔ）境下不同上下文特征和（hé）句法知識的貢獻，從而降低了“噪音”。

創新工場介紹，在和（hé）斯坦福大學的 CoreNLP 工具的相比中，該模型（xíng）有近10個百分點的提升在場景應用上（shàng），創新工（gōng）場主要（yào）希望解決工（gōng）業場景的（de）突破，宋彥表示，“在工業場（chǎng）景使用的時候，跨領域的模型能力是一（yī）個非常直接的訴求。

”創新（xīn）工（gōng）場介紹，“工業模型鍵-值記憶神經網絡的中文分（fèn）詞模型”和“基於雙通道注意力機製的分詞（cí）及詞性標注模型”兩篇文章，已經入選自然語言處理領域（NLP）頂級學術會議 ACL 2020

標簽：

上一篇：輪船的模型（xíng）

下一篇：企業禮品定製公司

新（xīn）聞動態

公司新聞

詞性（xìng）標注模型

產品推薦

微信號：微信二維碼