免費谘詢(xún)熱線

13621929115
公司新聞
您的位置: 主頁 > 新聞動態 > 公司新聞

詞性(xìng)標注模型

發布日期:2023-04-05 13:57瀏覽次數:

記者從創新工場獲悉,其最新提出了中文分詞和詞性標注模型,可將外部知識(信息)融入分詞及詞性標注模(mó)型DoNews7月13日消息(記者 翟繼茹(rú))13日,記者從創新工場(chǎng)獲悉(xī),其最新提出(chū)了中文分詞和詞性(xìng)標注模型,可將外部知識(信息)融入分詞及詞性標注模(mó)型,剔除了分詞“噪音”誤導,提升了分詞(cí)及詞性標注效果(guǒ)。

    在工業模型NLP中,中文分詞和詞(cí)性(xìng)標注是中文自然語言處理的兩個基本任務,尤其在工業場景對分詞有非常直接的訴求,但當前沒有(yǒu)比(bǐ)較好的一體化解決方案,而(ér)且中文分詞普遍存在歧義和(hé)未登錄詞的難題創新工場方麵解釋,中文語言因其特(tè)殊性,在分詞時麵臨著兩個主要難點。

    一是歧義問(wèn)題,由於中文存在大量歧義,一(yī)般的分詞工具在切分句(jù)子工業模型時可能會(huì)出錯例如,“部(bù)分居民生活水平”,其正確的切(qiē)分應為“部分/居民/生活/水平”,但存在“分居”、“民生”等歧義詞(cí)“他從(cóng)小(xiǎo)學電腦技術(shù)”,正確(què)的分詞是:他/從小/學/電腦技術,但也存在“小學”這種歧義詞。

    二是未登錄詞問(wèn)題未登錄詞指的是不在詞表,或者是模(mó)型在訓練的過程(chéng)中沒有遇見過的詞(cí)例(lì)如經濟、醫療、科工業模型技等科學領(lǐng)域的專業術語或者社交媒體上的新詞,或者是人名(míng)這類問(wèn)題在跨領域分詞任務中尤(yóu)其明顯因此,在“鍵-值記憶神(shén)經網絡的中文分詞模型”的模型中,利用n元組(即(jí)一(yī)個由(yóu)連續n個字組成的序列,比如“居民”是一個2元組,“生活水(shuǐ)平”是一個4元(yuán)組)提供的每個字的構詞能力,通過加(降)權重實現特定語境下的歧義消解工(gōng)業模型。

    並(bìng)通過非監督方法構建詞表,實現對特定領域的未(wèi)標(biāo)注文本的利用,進而提升對未登錄詞的(de)識別

    在算法實驗中,該模型在5個數據(jù)集(MSR、PKU、AS、CityU、CTB6)上的表(biǎo)現,均刷新曆史成績創新工場大灣區人工智能研究院執行院長宋彥(yàn)表示,與前人的模型進行比較發現,該模(mó)型在所有數據集上的表現均超過了之前的(de)工業模型工作,“把中(zhōng)文分詞領(lǐng)域廣(guǎng)泛使用的標準數據集上的性能全部(bù)刷到了新高。

    ”在基於(yú)雙通道注(zhù)意力機製的分詞及詞(cí)性標(biāo)注模型中,將中(zhōng)文分詞和詞性標(biāo)注視作聯合任務,可一體化完成模型分別對自動獲取的上下文特征和句法知識加權,預測每個字的分詞和詞性標簽,不同的上下文特征和句法知(zhī)識在(zài)各自所屬的注意力通道內進行比較、加權,工業模型從而識別特定語(yǔ)境下不同上下文特征和(hé)句法知識的貢獻,從而降低了“噪音”。

    創新工場介紹,在和(hé)斯坦福大學的 CoreNLP 工具的相比中,該模型(xíng)有近10個百分點的提升在場景應用上(shàng),創新工(gōng)場主要(yào)希望解決工(gōng)業場景的(de)突破,宋彥表示,“在工業場(chǎng)景使用的時候,跨領域的模型能力是一(yī)個非常直接的訴求。

    ”創新(xīn)工(gōng)場介紹,“工業模型鍵-值記憶神經網絡的中文分(fèn)詞模型”和“基於雙通道注意力機製的分詞(cí)及詞性標注模型”兩篇文章,已經入選自然語言處理領域(NLP)頂級學術會議 ACL 2020


標簽:

產品推薦

Copyright © 2002-2020 上海潤之模型設計有限公司(sī) 版權所有 展(zhǎn)示模型,展品模(mó)型,展廳模型,展(zhǎn)示道具,展廳展品,展品道具,模型定製,模型公司,上海(hǎi)模型公司 備案號:滬ICP備20018260號

13621929115
网站地图 www.17C.com_17.C-起草网登录在线_17c.一起草 在线观看视频_17c.com免费观看入口