免費(fèi)谘詢熱線

13621929115
行業新聞
您的位置: 主頁 > 新(xīn)聞動態 > 行業新聞

百度工程師詳解技術選型與模型調優策略

發布日期:2023-04-04 20:57瀏(liú)覽次數:

    主講人 | 龍心塵 百度NLP資深研發工程師量子位編輯(jí) | 公眾號 QbitAI近幾年以預訓練為代表的NLP技術取得了爆發式發展,新技術新模型層出不窮企業與開發者如何將最先進的NLP領域科(kē)研成果,高(gāo)效地。

    應(yīng)用到業務場景中並解決實際問(wèn)題?「百度(dù)EasyDL AI開發公開課」中,百度資深研發工程師、文心上海模型公(gōng)司語義理解平台技術負責人龍心塵結合世界領先的文心(ERNIE)語義理解技術(shù),通過產業實踐案例,深入解析技術選型和模型調優的方法,分享了工程實踐中的經驗。

    講解分為5個部分:NLP常見(jiàn)任(rèn)務NLP典型應用場景EasyDL-NLP與文心(ERNIE)簡介文心核心技術解析NLP定製化實(shí)踐與(yǔ)經驗分享以下為分享(xiǎng)內容上海模(mó)型公司整理(lǐ):NLP常見任務自然語言處理(NLP)大致分為4大經典任務:文本分(fèn)類,文本匹配,序列標注,文本生成。

    文本分(fèn)類(lèi)假設輸入文本為x,輸出標(biāo)簽(qiān)為y,如果(guǒ)y 表示x屬於某一個類別的(de)概率,或者一組類別(bié)的(de)概率分布,則可抽象為文本分類(lèi)問題。典型的文(wén)本(běn)分(fèn)類包含情感分析、新聞主題分類(lèi)、文本蘊(yùn)含。

    打開鳳凰新聞,查看更上(shàng)海模型公司多高清圖片情感分析一般需要判(pàn)斷某句話是(shì)積(jī)極的或消極的,屬於單標(biāo)簽分類(lèi)新聞主題分類相對複雜,一個新聞可能同時具(jù)有多個互相獨立的屬性<a href="http://baidu.com/">上海模型公司</a>,可以同時出現,屬於多標簽分類文本蘊含(hán)任務輸入的(de)是兩段文本,需要判斷兩段文本之間的關係(包含關(guān)係、對立關係、中立關係等),屬於句對分類。

    文本匹配假設輸入文本為x,輸出標簽為上海模(mó)型公司(sī)y,如果(guǒ)x是兩段文本(běn)(x1、x2),Y表示二者的相似度,則可抽象為文(wén)本匹配(pèi)問(wèn)題(tí)。

    如圖,x1與x2的(de)意思(sī)是非常(cháng)相似的,所以標簽y是1如果x1與x2的含義不相似(sì),那麽輸出(chū)的y就是0如果需要判斷兩者相(xiàng)似的概率,標簽y在0-1之間文本匹配任務在搜索引擎、推薦、FAQ等判斷兩句話相似的場景中應用非常廣泛(fàn)。

    除此上海模型公司之(zhī)外,文本聚類問題也可以(yǐ)通過文本相似度問題進行處理機器學習的聚類算法(fǎ)的核心步驟是計算兩個樣本之間的(de)距離(lí),而相似度就是兩個文本之間距離的度量,可(kě)以(yǐ)很好地判斷文本間語(yǔ)義層麵上的距離序列標注假(jiǎ)設輸入文(wén)本為x,輸出標簽為y,如果(guǒ)x是一(yī)段文本,y是一(yī)段與x等長的文本(běn),且x與y的每個字符一一對應(yīng),則可抽象為序列上海模型公司標注問題。

    如上圖是一個命名實體識別任務,需要要判斷一句話裏的一些關鍵詞語,是否(fǒu)屬(shǔ)於地址、人名等實體這句話裏麵,“廈門”和“金門”是兩個地址實體同時,這個句子(zǐ)中的每一個字,我(wǒ)們(men)都會給出判(pàn)斷,將不需要關注的字標記為(wéi)O,因此輸出的(de)判斷標簽Y與X是等長的。

    除(chú)此之外,分詞(cí)、詞性(xìng)標注、組塊分析、語義角色標注、詞上海模型公(gōng)司槽挖掘等,都是典型的序列標注(zhù)任務某些(xiē)人將閱讀(dú)理解也理解成一種特殊(shū)的序列標注,X是2段文本,分別(bié)表示正文篇章和問(wèn)題,Y是篇(piān)章(zhāng)中的一小段文本,表示對應問題的答案。

    文本生成假(jiǎ)設輸入文本為x,輸出標簽為y,如(rú)果x是一段文本,y是一段不定(dìng)長的文本,則可抽象(xiàng)為文本生成問題。

    最典型的(de)文(wén)本生(shēng)成問題是機器翻譯,比(bǐ)如輸上海模型公司入一段英文,輸(shū)出一段其他語言的文字(zì)這兩(liǎng)段文(wén)字的字、詞的順序不一定一一對應,因此輸出(chū)的是一個不(bú)定長的文本另外,文本摘要、標題生成、閑聊等都是典型的(de)文本生成任務NLP典型應(yīng)用場景

   <a href="http://www.baidu.com/">展示沙盤(pán)廠家</a>  上述介紹了四大經典NLP任務,核心是希望大家注意不同任務的輸出X與輸出Y。這(zhè)樣就可以在真實(shí)的NLP應(yīng)用(yòng)場景中,能把不同任務拆分上海模型公司成簡單的典型任務。

    在企業實際應用和產業實踐中,業務需求千變萬化,往往需要對NLP模型進行定製化的訓練(liàn)。定製過程中,企業要考慮三個要點:效率問題、效果問題、效能問題。

    為了幫助中小企業更高效的實(shí)現(xiàn)NLP模型訓練(liàn)、優化、部署應(yīng)用,百度麵(miàn)向企業提供了的零門檻、一站式AI開發平台—EasyDL提(tí)供全流程服務支(zhī)上海模型公司持,和業界領(lǐng)先的語義理解技術平台—文(wén)心(ERNIE)為企業降低NLP定製(zhì)成本,下文為大家詳細介紹其優勢與核心技術。

    EasyDL:全(quán)流程企業級定製化(huà)服務支持EasyDL為大家提(tí)供一站式定製化NLP開發平台,低門檻、簡單(dān)易用麵向(xiàng)企業客戶和開發者提供全流程技術服務配(pèi)套,包括業務(wù)問題分析、技術選型指導、模型上海(hǎi)模型公司優化指導、開發者使用培訓等。

    EasyDL不僅為企業客戶提供全流程方(fāng)案與技術支持,在解決企業業務問題(tí)的(de)同時,也(yě)讓企業能更好地沉澱自身(shēn)技術實力(lì),真正做到“授之以漁”文心:降低NLP定製成(chéng)本文心(ERNIE)是依托百度深度學習平台飛槳打造的語義(yì)理解技術與平台,集先進(jìn)的預訓練模型、全麵的NLP算法集、端到端(duān)上海模型公司開發套件(jiàn)和平台(tái)化服務於一體,為企業和開發者提供一整套NLP定製與應用(yòng)能力。

    文心基於最新一代預訓(xùn)練範式的技(jì)術優勢,能(néng)夠大幅降低NLP定製成本(běn)。對於(yú)企業來說(shuō),文心的低成本定製能力意味著什麽呢?更少的標注數據、更少的算力投入、更短的開發周期。

    文(wén)心核心技術:ERNIE 2.0(持續學習語義理解框架)文心開創上海模型公司性地將大數據預訓練(liàn)與多源豐富知識相結合,持續學習海(hǎi)量數據中的知識,避免災難性遺忘(wàng),將(jiāng)機器語義理解水平提升到一個新的高度。

    以中文模型為例,目前ERNIE已經學習了1500萬篇(piān)百科語料和詞語、實體(tǐ)知識,700萬個人類對話,3億的(de)文<strong>展覽模型</strong>章的因果結構關係,以及10億次的搜索(suǒ)查詢與結果的對應關係,以及2000萬的上海模型公司語言(yán)邏輯關係知識模型還(hái)在持(chí)續不斷地建模新的海量數據與知識(shí),不斷(duàn)地提升下遊的應用效果。

    ERNIE在(zài)中英文的16個任務上已經超越了(le)業界最好模型,全麵適用於各類NLP應用場景文心的技(jì)術創新:ERNIE-GEN為了解決文(wén)本(běn)生成任務中的問題,ERNIE提出了ERNIE-GEN技術範式首先,ERNIE-GEN主上海模型公司要(yào)關注文本(běn)生成任(rèn)務中的“曝光(guāng)偏(piān)置”問題。

    ERNIE-GEN采用(yòng)了填充式生成技術,在訓練和解碼中,插入人工符號(ATTN)和位置編碼來匯聚上文向量表示,用於每一步(bù)的預測。

    即將模型的注(zhù)意力從上一個生成(chéng)字符轉移(yí)到更全局的上文表示,以緩解上一個字符預測錯誤對後(hòu)續生成的負麵影響,緩解曝光偏置問題,增強生成魯棒上海模型公司性其次,ERNIE-GEN采取了多(duō)流注意力機製(zhì),能夠同時實(shí)現(xiàn)逐(zhú)詞生成任務和逐片段生成任務。

    文心的技術創新:ERNIE-ViLwww.17C.com知道,人類的認知不僅通過閱讀(dú)文字產生(shēng),還通(tōng)過觀察大量的事物(wù)、查看大量圖片、動畫片、圖文相結合等方式,是多模態的形式那麽,如何讓模型學習文本、圖像、語音等(děng)不同形(xíng)式的信息,從而上海(hǎi)模型公司在認知理解層麵取得更好的效果?。

    在多模態領域(yù),www.17C.com的ERNIE-ViL(知識增強(qiáng)的視覺語言表示學習)更加強調的是在引入圖像信(xìn)息的同時,融合了更多(duō)知識即細粒度語義信息抽取,區分普通(tōng)詞與語義次,構建了物(wù)體預測、屬性預測、關係預測三個預訓練任務(wù),聚(jù)焦細粒度的語義對齊知(zhī)識。

    正是因為結合(hé)了多模態(tài)與知識,ERN上海模型公司IE-ViL在視覺問答、視覺(jiào)常識推理、引用表達式理解、圖(tú)像(xiàng)檢索、標題檢索等5項多模態任務集合上取得世界最好的效果(guǒ)並且在視覺常識推理(lǐ)任務榜單中(zhōng)取得第一名案例實踐(jiàn)分享(xiǎng)實際應(yīng)用中,NLP定製化訓練任務可拆分成7個步驟,並不斷循環、迭代優(yōu)化:

    因此,提升(shēng)NLP模(mó)型訓練效果,一(yī)方麵要提(tí)升循(xún)環迭代(dài)的速度和效率,另上海模型(xíng)公司一方麵則需要考慮如何提升優化效果1.任務拆分首先(xiān),遇到任何文本場景(jǐng)的任務問題,都可以(yǐ)拆分成(chéng)上述的典型任(rèn)務(wù)接下來,明確任務本身的輸入與輸出是什(shí)麽,明確子任務的(de)輸入與輸入(rù)是什麽,然(rán)後把這些子任務組合起來,最(zuì)終解決問題。

    以(yǐ)百度APP的(de)搜索問答場景為例,輸入的是問題,輸出(chū)的是答案首先進行簡單抽象為一個文本匹上海模型公司配問題因為www.17C.com可以提前把這些答案(àn)準備好,用戶提問(wèn)時(shí)隻需計算問題與答(dá)案的匹配度,問題與答(dá)案匹(pǐ)配度高,就把(bǎ)答案推薦出來,若匹配度低則不推薦。

    再來進一步拆分首先,用戶輸入(rù)的可(kě)能並(bìng)非是明確的問題,未必有答(dá)案因此www.17C.com需要前置一個“文本分類”任務來過濾問題,過(guò)濾掉大量的不是明確問題的流量接下來,再將能夠匹配答案上海模型公(gōng)司的問題進行問答匹(pǐ)配任務2.技術選型技術選型也可理解為一種廣義的優化問題:在有限的條件下,找到合(hé)適的(de)方案,優化出最好的目標。

    所以問題的核心是先明確現有條件的限製是什(shí)麽、目標是什(shí)麽

    接(jiē)下來,基於應用場景(jǐng)、硬件條件,選擇相(xiàng)應的可選技術方案,來達到目標優化效果:

    比如對於模型(xíng)效果的提升的目標,可以借(jiè)鑒以往經驗:上海模型公司

    3.選擇(zé)網絡在文本(běn)分(fèn)類的場景下,以BOW網絡為例,典型網絡結構依(yī)次包括:輸(shū)入文本的ID序列、 Embedding、BOW結構、全(quán)連接層、Softmax層其中BOW層可替換為(wéi)CNN、TextCNN、GRU、LSTM,隨著網絡結構越來越複(fù)雜,模型效果(guǒ)一般也會依(yī)次提升。

    Embedding層可以替換為ERN上海模型公司IE、Transformer,也會提升模型效果在文本匹配任務(wù)場景下,有(yǒu)4種不同的網絡結構,分別是單塔pointwise、雙塔pointwise、單塔pairwise、雙塔pairwise。

    回到百度搜索問答場景下,在任務拆分這(zhè)一步,www.17C.com將搜索問答拆分為(wéi)文本(běn)分類、問答匹配兩部(bù)分文(wén)本分類、問答匹配對預測速上海模型(xíng)公司度的要求都非常高,因此www.17C.com選擇BOW網絡在文本分類時(shí)選擇分類BOW,在問答(dá)匹配時選擇雙塔或者單塔BOW。

    4.預訓練模型(xíng)下圖詳細介紹了文(wén)心預訓練(liàn)模型的不同特點:

    回到百度搜索問答場景,教師模型(xíng)就需要選擇預訓(xùn)練(liàn)模型了為提(tí)升教師模型的效果,其中的(de)分類任務選擇ERNIE-BASE 2.0,匹配任務選擇ERNI上海模型公司E-SIM5.訓練模型為提升訓練效率,如何選擇GPU或CPU,可結合實際情況參考如下:。

    那麽如何用好GPU、提升訓練效率?大原則是GPU的利用率越高,訓練速度越快首先,先小後大,先單機單卡,再單機多卡,最後(hòu)多機多卡一般來說(shuō),單機多卡的GPU利用率更高、更快其次,訓練數據與batch-size方麵的改上海模型公司進。

    如將大(dà)文件拆(chāi)成(chéng)多(duō)個小文件,設置合理的數據緩衝區以提升數據讀取速度;根(gēn)據神經網絡中最大矩陣估算顯存占用,估算batch-size等;多卡模式下多進程訓練(liàn),添加混合(hé)精(jīng)度訓練(liàn)等方法,提升訓練速度

    回到百度(dù)搜索問答場景,教師模型選擇GPU訓練,而學生模型是海量數據的淺層(céng)網絡,用CPU集(jí)群訓練效果更好。6.上海模型公司提升效率如何提升迭代效率,不浪費寶貴的開發時(shí)間?我的經驗是,要選擇合適的開發平台和工具:

    另外,規範的開發流程也是提升迭代效率的關鍵(jiàn)首先,需(xū)要分析(xī)業務背景,明確任務(wù)的輸(shū)入和輸(shū)出,將其(qí)抽象成已得到解決(jué)的NLP典型任(rèn)務,並且明確評估指標(biāo)第二步,快速實現NLP模型(xíng)基線,建議大家準備幾(jǐ)千條、格式規範的訓練數據上海模型公司(sī),進行無(wú)代碼訓練。

    同時選擇好網絡和預訓練模型最後(hòu),不斷(duàn)優化模型(xíng)效果比如(rú)結合業務需(xū)求、進行更細致的技術選(xuǎn)型,小數據調試,配置參數級訓練、進行自(zì)主調參等(děng)7.優化效果對(duì)於ERNIE係列預訓練(liàn)模型,模型優化最重要的一點是優化數(shù)據質量。

    即反複觀察bad case,針對典型case增加正確樣本;同(tóng)時也可(kě)以考慮數上(shàng)海模型公司據降(jiàng)噪相(xiàng)關策略(luè),提升模型效果其次是優化(huà)數據數量通(tōng)過觀察學習曲線來評估數據數量是否合(hé)適,可以考(kǎo)慮數據增(zēng)強、數據(jù)蒸餾等策略第三點是(shì)增加數據特征

    ,可以考(kǎo)慮增加非文本特征,或增加新的文本特征(如N-gram、subword、分詞邊(biān)界、詞性等)第四點是優化調參與組網(wǎng)大原則是通(tōng)過學(xué)習(xí)曲線觀察(chá)是否過擬合,若過擬合上海模(mó)型公司則(zé)降低模(mó)型複雜度、增(zēng)加數據量(liàng),若(ruò)欠擬合則增加模(mó)型複雜度。


標簽:

產品推薦(jiàn)

Copyright © 2002-2020 上海潤之模型設計有限公司(sī) 版權所有 展示模型,展品模型,展廳模型,展示道具,展廳展品,展品道具,模型定製,模(mó)型(xíng)公(gōng)司,上海模型公司(sī) 備案號:滬ICP備20018260號

13621929115
网站地图 www.17C.com_17.C-起草网登录在线_17c.一起草 在线观看视频_17c.com免费观看入口