CCL 2020,北大方正集團數(shù)字出版技術(shù)國家重點實驗室展示新成果
近日,方正集團旗下數(shù)字出版技術(shù)國家重點實驗室參加了第十九屆中國計算語言學大會(The Nineteenth China National Conference on Computational Linguistics, CCL 2020),并在大會上展示了實驗室在中文多輪對話問答、中文智能審校、中文媒體事件抽取等領(lǐng)域的多項創(chuàng)新性研究成果,為后續(xù)成果的開放共享、技術(shù)轉(zhuǎn)化及產(chǎn)業(yè)化落地發(fā)揮前沿性支撐作用。
中文多輪對話問答研究成果展示
多輪對話問答是機器閱讀理解方向近幾年來一個新的研究任務(wù)。鑒于目前基于機器閱讀理解的多輪對話問答研究中采用的數(shù)據(jù)集大多為英文數(shù)據(jù)集(如SQuAD, CoQA, QuAC等),且數(shù)據(jù)規(guī)模不大,非常缺乏中文的問答數(shù)據(jù)。為了開展相關(guān)研究,實驗室課題組設(shè)計并搭建了向社會開放的多輪對話問答數(shù)據(jù)采集平臺。
在實驗室的最新研究中,提出一種印象特征,用于提升多輪對話問答性能。從不同的維度學習對話歷史,同時做特征選擇,并將有用信息集成于當前問題和文章中。
多輪對話問答數(shù)據(jù)采集平臺
中文智能輔助審校研究成果展示
為了提升圖書期刊等出版物的出版效率,實驗室將機器學習和自然語言處理技術(shù)引入出版物的審校環(huán)節(jié),對"待出版"文本中的語法、語義和知識類等各種錯誤進行自動檢查和糾正,實現(xiàn)了數(shù)字出版領(lǐng)域的技術(shù)創(chuàng)新和產(chǎn)業(yè)化應(yīng)用。智能審校平臺目前集成的功能包括單位符號檢查,錯別字檢查,標點符號檢查,以及屬于語法檢查任務(wù)的疊字疊詞檢查和搭配不當檢查。
在實驗室的最新研究論文中,提出了一種基于數(shù)據(jù)增強和語言學特征多任務(wù)訓練方法來提升中文語法錯誤檢測的效果。該方法在NLPTEA CGED評測任務(wù)數(shù)據(jù)集進行測試,性能優(yōu)于其他中文語法檢測模型。
智能審校系統(tǒng)的錯別字糾錯示例
中文媒體事件抽取研究成果展示
作為信息抽取領(lǐng)域一個重要的研究方向,事件抽取旨在從非結(jié)構(gòu)化的文本中抽取出事件信息,并以結(jié)構(gòu)化的形式呈現(xiàn)出來。實驗室的最新研究提出了一種基于預(yù)訓練語言模型,通過定義事件三元組(觸發(fā)詞,事件要素角色,事件要素)構(gòu)建的事件抽取聯(lián)合模型以解決事件要素重疊問題,且該方法在國際評測任務(wù)ACE2005中文事件抽取數(shù)據(jù)集上進行測試,有效提高了中文事件抽取的效果。
中文事件抽取聯(lián)合模型框架圖
第19屆中國計算語言學大會
"第十九屆中國計算語言學大會"(The Nineteenth China National Conference on Computational Linguistics, CCL 2020)由中國中文信息學會主辦。CCL是中國中文信息學會(CIPSC)的重要會議,是中國最大的自然語言處理學者和專家的社區(qū)。經(jīng)過二十多年的發(fā)展,CCL被廣泛認為是最權(quán)威的,全國最具影響力、規(guī)模最大的NLP會議。隨著計算機語言處理在中國的發(fā)展,CCL已經(jīng)成為在全國范圍內(nèi)傳播計算語言新學術(shù)和技術(shù)工作的主要論壇。