新（xīn）聞動態

免費（fèi）谘詢熱線

13621929115

行業新聞

百度工程師詳解技術選型與模型調優策略

發布日期：2023-04-04 20:57瀏（liú）覽次數：

主講人 | 龍心塵百度NLP資深研發工程師量子位編輯（jí） | 公眾號 QbitAI近幾年以預訓練為代表的NLP技術取得了爆發式發展，新技術新模型層出不窮企業與開發者如何將最先進的NLP領域科（kē）研成果，高（gāo）效地。

應（yīng）用到業務場景中並解決實際問（wèn）題？「百度（dù）EasyDL AI開發公開課」中，百度資深研發工程師、文心上海模型公（gōng）司語義理解平台技術負責人龍心塵結合世界領先的文心(ERNIE)語義理解技術（shù），通過產業實踐案例，深入解析技術選型和模型調優的方法，分享了工程實踐中的經驗。

講解分為5個部分：NLP常見（jiàn）任（rèn）務NLP典型應用場景EasyDL-NLP與文心（ERNIE）簡介文心核心技術解析NLP定製化實（shí）踐與（yǔ）經驗分享以下為分享（xiǎng）內容上海模（mó）型公司整理（lǐ）：NLP常見任務自然語言處理（NLP）大致分為4大經典任務：文本分（fèn）類，文本匹配，序列標注，文本生成。

文本分（fèn）類（lèi）假設輸入文本為x，輸出標（biāo）簽（qiān）為y，如果（guǒ）y 表示x屬於某一個類別的（de）概率，或者一組類別（bié）的（de）概率分布，則可抽象為文本分類（lèi）問題。典型的文（wén）本（běn）分（fèn）類包含情感分析、新聞主題分類（lèi）、文本蘊（yùn）含。

打開鳳凰新聞，查看更上（shàng）海模型公司多高清圖片情感分析一般需要判（pàn）斷某句話是（shì）積（jī）極的或消極的，屬於單標（biāo）簽分類（lèi）新聞主題分類相對複雜，一個新聞可能同時具（jù）有多個互相獨立的屬性<a href="http://baidu.com/">上海模型公司</a>，可以同時出現，屬於多標簽分類文本蘊含（hán）任務輸入的（de）是兩段文本，需要判斷兩段文本之間的關係（包含關（guān）係、對立關係、中立關係等），屬於句對分類。

文本匹配假設輸入文本為x，輸出標簽為上海模（mó）型公司（sī）y，如果（guǒ）x是兩段文本（běn）（x1、x2），Y表示二者的相似度，則可抽象為文（wén）本匹配（pèi）問（wèn）題（tí）。

如圖，x1與x2的（de）意思（sī）是非常（cháng）相似的，所以標簽y是1如果x1與x2的含義不相似（sì），那麽輸出（chū）的y就是0如果需要判斷兩者相（xiàng）似的概率，標簽y在0-1之間文本匹配任務在搜索引擎、推薦、FAQ等判斷兩句話相似的場景中應用非常廣泛（fàn）。

除此上海模型公司之（zhī）外，文本聚類問題也可以（yǐ）通過文本相似度問題進行處理機器學習的聚類算法（fǎ）的核心步驟是計算兩個樣本之間的（de）距離（lí），而相似度就是兩個文本之間距離的度量，可（kě）以（yǐ）很好地判斷文本間語（yǔ）義層麵上的距離序列標注假（jiǎ）設輸入文（wén）本為x，輸出標簽為y，如果（guǒ）x是一（yī）段文本，y是一（yī）段與x等長的文本（běn），且x與y的每個字符一一對應（yīng），則可抽象為序列上海模型公司標注問題。

如上圖是一個命名實體識別任務，需要要判斷一句話裏的一些關鍵詞語，是否（fǒu）屬（shǔ）於地址、人名等實體這句話裏麵，“廈門”和“金門”是兩個地址實體同時，這個句子（zǐ）中的每一個字，我（wǒ）們（men）都會給出判（pàn）斷，將不需要關注的字標記為（wéi）O，因此輸出的（de）判斷標簽Y與X是等長的。

除（chú）此之外，分詞（cí）、詞性（xìng）標注、組塊分析、語義角色標注、詞上海模型公（gōng）司槽挖掘等，都是典型的序列標注（zhù）任務某些（xiē）人將閱讀（dú）理解也理解成一種特殊（shū）的序列標注，X是2段文本，分別（bié）表示正文篇章和問（wèn）題，Y是篇（piān）章（zhāng）中的一小段文本，表示對應問題的答案。

文本生成假（jiǎ）設輸入文本為x，輸出標簽為y，如（rú）果x是一段文本，y是一段不定（dìng）長的文本，則可抽象（xiàng）為文本生成問題。

最典型的（de）文（wén）本生（shēng）成問題是機器翻譯，比（bǐ）如輸上海模型公司入一段英文，輸（shū）出一段其他語言的文字（zì）這兩（liǎng）段文（wén）字的字、詞的順序不一定一一對應，因此輸出（chū）的是一個不（bú）定長的文本另外，文本摘要、標題生成、閑聊等都是典型的（de）文本生成任務NLP典型應（yīng）用場景

<a href="http://www.baidu.com/">展示沙盤（pán）廠家</a> 上述介紹了四大經典NLP任務，核心是希望大家注意不同任務的輸出X與輸出Y。這（zhè）樣就可以在真實（shí）的NLP應（yīng）用（yòng）場景中，能把不同任務拆分上海模型公司成簡單的典型任務。

在企業實際應用和產業實踐中，業務需求千變萬化，往往需要對NLP模型進行定製化的訓練（liàn）。定製過程中，企業要考慮三個要點：效率問題、效果問題、效能問題。

為了幫助中小企業更高效的實（shí）現（xiàn）NLP模型訓練（liàn）、優化、部署應（yīng）用，百度麵（miàn）向企業提供了的零門檻、一站式AI開發平台—EasyDL提（tí）供全流程服務支（zhī）上海模型公司持，和業界領（lǐng）先的語義理解技術平台—文（wén）心（ERNIE）為企業降低NLP定製（zhì）成本，下文為大家詳細介紹其優勢與核心技術。

EasyDL：全（quán）流程企業級定製化（huà）服務支持EasyDL為大家提（tí）供一站式定製化NLP開發平台，低門檻、簡單（dān）易用麵向（xiàng）企業客戶和開發者提供全流程技術服務配（pèi）套，包括業務（wù）問題分析、技術選型指導、模型上海（hǎi）模型公司優化指導、開發者使用培訓等。

EasyDL不僅為企業客戶提供全流程方（fāng）案與技術支持，在解決企業業務問題（tí）的（de）同時，也（yě）讓企業能更好地沉澱自身（shēn）技術實力（lì），真正做到“授之以漁”文心：降低NLP定製成（chéng）本文心（ERNIE）是依托百度深度學習平台飛槳打造的語義（yì）理解技術與平台，集先進（jìn）的預訓練模型、全麵的NLP算法集、端到端（duān）上海模型公司開發套件（jiàn）和平台（tái）化服務於一體，為企業和開發者提供一整套NLP定製與應用（yòng）能力。

文心基於最新一代預訓（xùn）練範式的技（jì）術優勢，能（néng）夠大幅降低NLP定製成本（běn）。對於（yú）企業來說（shuō），文心的低成本定製能力意味著什麽呢？更少的標注數據、更少的算力投入、更短的開發周期。

文（wén）心核心技術：ERNIE 2.0（持續學習語義理解框架）文心開創上海模型公司性地將大數據預訓練（liàn）與多源豐富知識相結合，持續學習海（hǎi）量數據中的知識，避免災難性遺忘（wàng），將（jiāng）機器語義理解水平提升到一個新的高度。

以中文模型為例，目前ERNIE已經學習了1500萬篇（piān）百科語料和詞語、實體（tǐ）知識，700萬個人類對話，3億的（de）文<strong>展覽模型</strong>章的因果結構關係，以及10億次的搜索（suǒ）查詢與結果的對應關係，以及2000萬的上海模型公司語言（yán）邏輯關係知識模型還（hái）在持（chí）續不斷地建模新的海量數據與知識（shí），不斷（duàn）地提升下遊的應用效果。

ERNIE在（zài）中英文的16個任務上已經超越了（le）業界最好模型，全麵適用於各類NLP應用場景文心的技（jì）術創新：ERNIE-GEN為了解決文（wén）本（běn）生成任務中的問題，ERNIE提出了ERNIE-GEN技術範式首先，ERNIE-GEN主上海模型公司要（yào）關注文本（běn）生成任（rèn）務中的“曝光（guāng）偏（piān）置”問題。

ERNIE-GEN采用（yòng）了填充式生成技術，在訓練和解碼中，插入人工符號（ATTN）和位置編碼來匯聚上文向量表示，用於每一步（bù）的預測。

即將模型的注（zhù）意力從上一個生成（chéng）字符轉移（yí）到更全局的上文表示，以緩解上一個字符預測錯誤對後（hòu）續生成的負麵影響，緩解曝光偏置問題，增強生成魯棒上海模型公司性其次，ERNIE-GEN采取了多（duō）流注意力機製（zhì），能夠同時實（shí）現（xiàn）逐（zhú）詞生成任務和逐片段生成任務。

文心的技術創新：ERNIE-ViLwww.17C.com知道，人類的認知不僅通過閱讀（dú）文字產生（shēng），還通（tōng）過觀察大量的事物（wù）、查看大量圖片、動畫片、圖文相結合等方式，是多模態的形式那麽，如何讓模型學習文本、圖像、語音等（děng）不同形（xíng）式的信息，從而上海（hǎi）模型公司在認知理解層麵取得更好的效果？。

在多模態領域（yù），www.17C.com的ERNIE-ViL（知識增強（qiáng）的視覺語言表示學習）更加強調的是在引入圖像信（xìn）息的同時，融合了更多（duō）知識即細粒度語義信息抽取，區分普通（tōng）詞與語義次，構建了物（wù）體預測、屬性預測、關係預測三個預訓練任務（wù），聚（jù）焦細粒度的語義對齊知（zhī）識。

正是因為結合（hé）了多模態（tài）與知識，ERN上海模型公司IE-ViL在視覺問答、視覺（jiào）常識推理、引用表達式理解、圖（tú）像（xiàng）檢索、標題檢索等5項多模態任務集合上取得世界最好的效果（guǒ）並且在視覺常識推理（lǐ）任務榜單中（zhōng）取得第一名案例實踐（jiàn）分享（xiǎng）實際應（yīng）用中，NLP定製化訓練任務可拆分成7個步驟，並不斷循環、迭代優（yōu）化：

因此，提升（shēng）NLP模（mó）型訓練效果，一（yī）方麵要提（tí）升循（xún）環迭代（dài）的速度和效率，另上海模型（xíng）公司一方麵則需要考慮如何提升優化效果1.任務拆分首先（xiān），遇到任何文本場景（jǐng）的任務問題，都可以（yǐ）拆分成（chéng）上述的典型任（rèn）務（wù）接下來，明確任務本身的輸入與輸出是什（shí）麽，明確子任務的（de）輸入與輸入（rù）是什麽，然（rán）後把這些子任務組合起來，最（zuì）終解決問題。

以（yǐ）百度APP的（de）搜索問答場景為例，輸入的是問題，輸出（chū）的是答案首先進行簡單抽象為一個文本匹上海模型公司配問題因為www.17C.com可以提前把這些答案（àn）準備好，用戶提問（wèn）時（shí）隻需計算問題與答（dá）案的匹配度，問題與答（dá）案匹（pǐ）配度高，就把（bǎ）答案推薦出來，若匹配度低則不推薦。

再來進一步拆分首先，用戶輸入（rù）的可（kě）能並（bìng）非是明確的問題，未必有答（dá）案因此www.17C.com需要前置一個“文本分類”任務來過濾問題，過（guò）濾掉大量的不是明確問題的流量接下來，再將能夠匹配答案上海模型公（gōng）司的問題進行問答匹（pǐ）配任務2.技術選型技術選型也可理解為一種廣義的優化問題：在有限的條件下，找到合（hé）適的（de）方案，優化出最好的目標。

所以問題的核心是先明確現有條件的限製是什（shí）麽、目標是什（shí）麽

接（jiē）下來，基於應用場景（jǐng）、硬件條件，選擇相（xiàng）應的可選技術方案，來達到目標優化效果：

比如對於模型（xíng）效果的提升的目標，可以借（jiè）鑒以往經驗：上海模型公司

3.選擇（zé）網絡在文本（běn）分（fèn）類的場景下，以BOW網絡為例，典型網絡結構依（yī）次包括：輸（shū）入文本的ID序列、 Embedding、BOW結構、全（quán）連接層、Softmax層其中BOW層可替換為（wéi）CNN、TextCNN、GRU、LSTM，隨著網絡結構越來越複（fù）雜，模型效果（guǒ）一般也會依（yī）次提升。

Embedding層可以替換為ERN上海模型公司IE、Transformer，也會提升模型效果在文本匹配任務（wù）場景下，有（yǒu）4種不同的網絡結構，分別是單塔pointwise、雙塔pointwise、單塔pairwise、雙塔pairwise。

回到百度搜索問答場景下，在任務拆分這（zhè）一步，www.17C.com將搜索問答拆分為（wéi）文本（běn）分類、問答匹配兩部（bù）分文（wén）本分類、問答匹配對預測速上海模型（xíng）公司度的要求都非常高，因此www.17C.com選擇BOW網絡在文本分類時（shí）選擇分類BOW，在問答（dá）匹配時選擇雙塔或者單塔BOW。

4.預訓練模型（xíng）下圖詳細介紹了文（wén）心預訓練（liàn）模型的不同特點：

回到百度搜索問答場景，教師模型（xíng）就需要選擇預訓（xùn）練（liàn）模型了為提（tí）升教師模型的效果，其中的（de）分類任務選擇ERNIE-BASE 2.0，匹配任務選擇ERNI上海模型公司E-SIM5.訓練模型為提升訓練效率，如何選擇GPU或CPU，可結合實際情況參考如下：。

那麽如何用好GPU、提升訓練效率？大原則是GPU的利用率越高，訓練速度越快首先，先小後大，先單機單卡，再單機多卡，最後（hòu）多機多卡一般來說（shuō），單機多卡的GPU利用率更高、更快其次，訓練數據與batch-size方麵的改上海模型公司進。

如將大（dà）文件拆（chāi）成（chéng）多（duō）個小文件，設置合理的數據緩衝區以提升數據讀取速度；根（gēn）據神經網絡中最大矩陣估算顯存占用，估算batch-size等；多卡模式下多進程訓練（liàn），添加混合（hé）精（jīng）度訓練（liàn）等方法，提升訓練速度

回到百度（dù）搜索問答場景，教師模型選擇GPU訓練，而學生模型是海量數據的淺層（céng）網絡，用CPU集（jí）群訓練效果更好。6.上海模型公司提升效率如何提升迭代效率，不浪費寶貴的開發時（shí）間？我的經驗是，要選擇合適的開發平台和工具：

另外，規範的開發流程也是提升迭代效率的關鍵（jiàn）首先，需（xū）要分析（xī）業務背景，明確任務（wù）的輸（shū）入和輸（shū）出，將其（qí）抽象成已得到解決（jué）的NLP典型任（rèn）務，並且明確評估指標（biāo）第二步，快速實現NLP模型（xíng）基線，建議大家準備幾（jǐ）千條、格式規範的訓練數據上海模型公司（sī），進行無（wú）代碼訓練。

同時選擇好網絡和預訓練模型最後（hòu），不斷（duàn）優化模型（xíng）效果比如（rú）結合業務需（xū）求、進行更細致的技術選（xuǎn）型，小數據調試，配置參數級訓練、進行自（zì）主調參等（děng）7.優化效果對（duì）於ERNIE係列預訓練（liàn）模型，模型優化最重要的一點是優化數（shù）據質量。

即反複觀察bad case，針對典型case增加正確樣本；同（tóng）時也可（kě）以考慮數上（shàng）海模型公司據降（jiàng）噪相（xiàng）關策略（luè），提升模型效果其次是優化（huà）數據數量通（tōng）過觀察學習曲線來評估數據數量是否合（hé）適，可以考（kǎo）慮數據增（zēng）強、數據（jù）蒸餾等策略第三點是（shì）增加數據特征

，可以考（kǎo）慮增加非文本特征，或增加新的文本特征（如N-gram、subword、分詞邊（biān）界、詞性等）第四點是優化調參與組網（wǎng）大原則是通（tōng）過學（xué）習（xí）曲線觀察（chá）是否過擬合，若過擬合上海模（mó）型公司則（zé）降低模（mó）型複雜度、增（zēng）加數據量（liàng），若（ruò）欠擬合則增加模（mó）型複雜度。

標簽：

上一篇：一展看百年

下一篇：概念（niàn）模型

新（xīn）聞動態

行業新聞

百度工程師詳解技術選型與模型調優策略

產品推薦（jiàn）

微信號：微信二維碼