百分點(diǎn)科技榮獲“2021 CCKS知識(shí)圖譜問答大賽”季軍
CCKS知識(shí)圖譜問答大賽作為中文知識(shí)圖譜領(lǐng)域的最高比賽,在國(guó)內(nèi)知識(shí)圖譜問答技術(shù)等相關(guān)研究中有著重要地位,該項(xiàng)賽事的評(píng)測(cè)也成為全國(guó)知識(shí)圖譜與語(yǔ)義計(jì)算大會(huì)上最受關(guān)注環(huán)節(jié)之一。
12月25日-26日,第十五屆全國(guó)知識(shí)圖譜與語(yǔ)義計(jì)算大會(huì)(CCKS 2021)正式召開,會(huì)上發(fā)布了“2021 CCKS知識(shí)圖譜問答大賽”最終結(jié)果,百分點(diǎn)認(rèn)知智能實(shí)驗(yàn)室在“CCKS 2021:生活服務(wù)知識(shí)圖譜問答評(píng)測(cè)”任務(wù)中榮獲季軍和技術(shù)創(chuàng)新獎(jiǎng)兩項(xiàng)榮譽(yù)。
百分點(diǎn)認(rèn)知智能實(shí)驗(yàn)室
榮獲大賽季軍及技術(shù)創(chuàng)新獎(jiǎng)
CCKS由中國(guó)中文信息學(xué)會(huì)語(yǔ)言與知識(shí)計(jì)算專業(yè)委員會(huì)主辦,是國(guó)內(nèi)知識(shí)圖譜和計(jì)算語(yǔ)義領(lǐng)域的核心學(xué)術(shù)盛會(huì),聚集了知識(shí)表示、自然語(yǔ)言理解、知識(shí)獲取、智能問答等相關(guān)技術(shù)領(lǐng)域的和研究人員的學(xué)者和研究人員。
本次大會(huì)以“知識(shí)圖譜賦能新基建”為主題,致力于為研究者們提供一個(gè)測(cè)試技術(shù)、算法、及系統(tǒng)的平臺(tái),共同探討大數(shù)據(jù)環(huán)境下語(yǔ)言理解、知識(shí)獲取、知識(shí)融合、知識(shí)推理等方面的關(guān)鍵技術(shù),以及在新基建背景下的各種智能應(yīng)用。
2021 CCKS知識(shí)圖譜問答大賽于2021年3月啟動(dòng),吸引了2300多支參賽隊(duì)伍,其中,在“CCKS 2021:生活服務(wù)知識(shí)圖譜問答評(píng)測(cè)”任務(wù)中,有430支隊(duì)伍、460人參賽,該任務(wù)是自然語(yǔ)言處理領(lǐng)域兼具前沿性和綜合性的任務(wù),開發(fā)難度較大。
經(jīng)過(guò)激烈的競(jìng)爭(zhēng),最終進(jìn)入排名的僅16支隊(duì)伍,百分點(diǎn)認(rèn)知智能實(shí)驗(yàn)室“系統(tǒng)之神與我同在”團(tuán)隊(duì)提交的技術(shù)方案榮獲季軍,以明顯的優(yōu)勢(shì)進(jìn)入第一梯隊(duì),與第二梯隊(duì)拉開較大的差距。
知識(shí)圖譜作為承載底層海量知識(shí)并支持上層智能應(yīng)用的重要載體,在智能時(shí)代中扮演了極其重要的角色,但由于知識(shí)圖譜高度結(jié)構(gòu)化的特點(diǎn),常常需要構(gòu)建結(jié)構(gòu)化查詢語(yǔ)句(SPARQL等)來(lái)查找相關(guān)知識(shí),這為普通用戶使用知識(shí)圖譜造成了不便,因此在知識(shí)圖譜上進(jìn)行自然語(yǔ)言問答(KBQA)近年來(lái)也成為了前者的熱門應(yīng)用之一。
本次評(píng)測(cè)任務(wù)是希望參賽者們可以提出創(chuàng)新性的KBQA系統(tǒng),同時(shí)處理“專而深”的特定領(lǐng)域和“廣而淺”的開放領(lǐng)域知識(shí)圖譜,對(duì)用戶提出的復(fù)雜多樣的自然語(yǔ)言問題給出準(zhǔn)確答案。此外,更希望此次評(píng)測(cè)可以為KBQA的下一步研究和落地提供一些理論及實(shí)踐層面的啟發(fā)。
傳統(tǒng)問題類型
賽題任務(wù)的問題分為傳統(tǒng)問題類型和特殊問題類型,特殊問題類型添加了filter、order等函數(shù)和http://www.w3.org/2001/XMLSchema#float等RDF標(biāo)準(zhǔn)類型后綴的美團(tuán)生活服務(wù)類問題。
經(jīng)典問題
問題:
武漢大學(xué)出了哪些科學(xué)家
查詢語(yǔ)句:
select ?x where {?x<職業(yè)><科學(xué)家_(從事科學(xué)研究的人群)>.?x<畢業(yè)院校><武漢大學(xué)>.}
答案:
"<郭傳杰> <張貽明> <劉西堯> <石正麗> <王小村>"
問題:
凱文·杜蘭特得過(guò)哪些獎(jiǎng)?
查詢語(yǔ)句:
select ?x where { <凱文·杜蘭特> <主要獎(jiǎng)項(xiàng)> ?x . }
答案:
"7次全明星(2010-2016)” “5次NBA最佳陣容一陣(2010-2014)” “NBA得分王(2010-2012;2014)” “NBA全明星賽MVP(2012)” "NBA常規(guī)賽MVP(2014)"
問題:
獲得性免疫缺陷綜合征涉及哪些癥狀?
查詢語(yǔ)句:
select ?x where {<獲得性免疫缺陷綜合征><涉及癥狀>?x.}
答案:
"<淋巴結(jié)腫大><脾腫大> <心力衰竭> <腎源性水腫> <抑郁> <心源性呼吸困難> <低蛋白血癥> <不明原因發(fā)熱> <免疫缺陷> <高凝狀態(tài)> <右下腹痛伴嘔吐> "
問題:
詹妮弗·安妮斯頓出演了一部1994年上映的美國(guó)情景劇,這部美劇共有多少集?
查詢語(yǔ)句:
select ?y where {?x<主演><詹妮弗·安妮斯頓>.?x<上映時(shí)間>""1994"".?x<集數(shù)>?y.}
答案:
"236"
本次CCKS評(píng)測(cè)任務(wù)中還添加了排序、過(guò)濾條件、聚合函數(shù)、limit等問題,例如:
在競(jìng)賽過(guò)程中,百分點(diǎn)認(rèn)知智能實(shí)驗(yàn)室總結(jié)了本次評(píng)測(cè)任務(wù)的四大挑戰(zhàn):
知識(shí)圖譜量級(jí)巨大,檢索和召回復(fù)雜度高;
無(wú)效實(shí)體數(shù)量極多, 定位實(shí)體的難度較大;
賽題涉及的子任務(wù)多,且周期長(zhǎng),容易造成誤差傳播,且難以定位誤差;
自然語(yǔ)言問法變化多,復(fù)雜程度高,機(jī)器難以理解中文的博大精深。
對(duì)此,百分點(diǎn)認(rèn)知智能實(shí)驗(yàn)室創(chuàng)造性地提出了信息檢索與語(yǔ)義解析結(jié)合的技術(shù)方案,通過(guò)實(shí)體鏈接、路徑生成、路徑排序等方式進(jìn)行信息檢索和語(yǔ)義解析,形成集成互補(bǔ),對(duì)比信息檢索和語(yǔ)義解析的答案路徑分?jǐn)?shù),選取分?jǐn)?shù)更高的路徑,并結(jié)合NL2SQL算法,將知識(shí)圖譜與預(yù)訓(xùn)練模型融合,通過(guò)邏輯推理進(jìn)行復(fù)雜問題查詢,讓問答查詢更接近于人的解析能力,更接近強(qiáng)人工智能。
業(yè)務(wù)賦能
實(shí)現(xiàn)復(fù)雜場(chǎng)景問題查詢
本次評(píng)測(cè)得分及獲獎(jiǎng)證明該技術(shù)方案性能優(yōu)異,執(zhí)行效率高,具有良好的可擴(kuò)展性,適用于眾多不同業(yè)務(wù)場(chǎng)景的知識(shí)圖譜系統(tǒng)中,能夠?qū)崿F(xiàn)多跳和夾式等包含多種語(yǔ)法現(xiàn)象的復(fù)雜問題的查詢。
例如,在“運(yùn)動(dòng)員李娜的丈夫的主要獎(jiǎng)項(xiàng)有哪些”問題查詢中,首先進(jìn)行語(yǔ)義解析生成Sparql語(yǔ)句。
第一步:利用句法解析技術(shù),我們將其中與“修飾”關(guān)系相關(guān)的字詞取出,得到“運(yùn)動(dòng)員-李娜&李娜-丈夫&丈夫-獎(jiǎng)項(xiàng)&主要-獎(jiǎng)。
第二步:利用百分點(diǎn)科技自研的基于知識(shí)圖譜的知識(shí)預(yù)訓(xùn)練生成模型對(duì)問句進(jìn)行語(yǔ)義解析,按照從序列到樹的形式,先生成問句的意圖,再生成意圖的中間路徑,然后生成問句中實(shí)體的約束條件,最終合并得到解析后的Sparql語(yǔ)。
但由于直接生成的Sparql可能與KG中存在的實(shí)體關(guān)系有差異,例如“李娜”的“丈夫”是用“配偶”存儲(chǔ)的,故不能直接查詢到答案。因此,百分點(diǎn)科技從Sparql中的實(shí)體出發(fā)(若不存在該實(shí)體,則利用信息檢索中的實(shí)體鏈接模塊),生成候選路徑,以Sparql為參考,彌補(bǔ)差異。
知識(shí)圖譜、NLP
數(shù)據(jù)智能技術(shù)應(yīng)用實(shí)踐
本次評(píng)測(cè)任務(wù)屬于中文知識(shí)圖譜自然語(yǔ)言問答任務(wù),是百分點(diǎn)認(rèn)知智能實(shí)驗(yàn)室的重點(diǎn)研究方向。
早在2018年,百分點(diǎn)科技就成立了認(rèn)知智能實(shí)驗(yàn)室,并將自然語(yǔ)言處理技術(shù)(NLP)與知識(shí)圖譜技術(shù)相結(jié)合,將非結(jié)構(gòu)化數(shù)據(jù)集成到知識(shí)圖譜產(chǎn)品系統(tǒng)中,通過(guò)語(yǔ)音識(shí)別、機(jī)器視覺和自然語(yǔ)言處理技術(shù)(NLP)從多模態(tài)數(shù)據(jù)中提取語(yǔ)義標(biāo)簽,并融合知識(shí)圖譜技術(shù)將其轉(zhuǎn)化為知識(shí),基于在知識(shí)理解、知識(shí)問答和知識(shí)挖掘方面的優(yōu)勢(shì),幫助客戶進(jìn)行科學(xué)、精準(zhǔn)的決策。
實(shí)踐中,百分點(diǎn)科技不斷實(shí)現(xiàn)創(chuàng)新突破,尤其是對(duì)認(rèn)知層和決策層的智能技術(shù)和產(chǎn)品的投入,依托自然語(yǔ)言處理等技術(shù),為客戶提供最前沿、最全面的技術(shù)產(chǎn)品支撐。
目前,百分點(diǎn)認(rèn)知智能實(shí)驗(yàn)室已經(jīng)打造了業(yè)界領(lǐng)先的AI認(rèn)知引擎,推出了智能問答機(jī)器人、智能翻譯系統(tǒng)和智能審校系統(tǒng)等認(rèn)知智能產(chǎn)品。
未來(lái),百分點(diǎn)科技將繼續(xù)深耕數(shù)據(jù)智能領(lǐng)域,充分發(fā)揮大數(shù)據(jù)全棧技術(shù)和NLP、知識(shí)圖譜、智能交互等認(rèn)知智能技術(shù)的優(yōu)勢(shì),服務(wù)更多政府和企業(yè)進(jìn)行智能化轉(zhuǎn)型,助推數(shù)字經(jīng)濟(jì)產(chǎn)業(yè)發(fā)展。
免責(zé)聲明:市場(chǎng)有風(fēng)險(xiǎn),選擇需謹(jǐn)慎!此文僅供參考,不作買賣依據(jù)。
相關(guān)閱讀
-
阿寬開放透明車間,品控監(jiān)督覆蓋產(chǎn)品全...
2月18日下午,第一食品資訊前往四川白家阿寬食品產(chǎn)業(yè)股份有限公司(... -
智能測(cè)試助力企業(yè)實(shí)現(xiàn)業(yè)務(wù)場(chǎng)景數(shù)字化改...
近年來(lái),在人工智能、云計(jì)算、大數(shù)據(jù)、物聯(lián)網(wǎng)等先進(jìn)技術(shù)的賦能下,萬(wàn)... -
《人工智能基礎(chǔ)設(shè)施發(fā)展態(tài)勢(shì)報(bào)告》發(fā)布...
人工智能基礎(chǔ)設(shè)施作為新基建的重要部分,是人工智能產(chǎn)業(yè)賦能經(jīng)濟(jì)社會(huì)... -
精心調(diào)校面面俱到 HyperX火星2游戲機(jī)械鍵盤
態(tài)度決定一切,這不僅是專業(yè)廠商立足的根本,也是每一款產(chǎn)品可以收... -
北京冬奧會(huì)背后的黑科技:訊飛聽見用A.I...
近期,全民關(guān)注的頂流無(wú)疑就是北京2022年冬奧會(huì),前有驚艷世界的天... -
草本魔力是什么長(zhǎng)肉鬼才?我家貓一個(gè)月...
擁有一只胖嘟嘟的軟萌小貓咪,是每一位鏟屎官的夢(mèng)想。那么如何讓貓...