當(dāng)前關(guān)注:科大訊飛人崗匹配Top1方案總結(jié)
2022-11-22 21:27:52 來源:程序員客棧
(資料圖片僅供參考)
九月份的時候胡蘿卜參加了訊飛的人崗匹配挑戰(zhàn)賽,后面機(jī)緣巧合和老肥組隊打團(tuán)。比賽過程可謂跌宕起伏,非常有意思。在這里和大家分享一下我們的建模方案。
賽題任務(wù)智能人崗匹配需要強(qiáng)大的數(shù)據(jù)作為支撐,本次大賽提供了大量的崗位JD和求職者簡歷的加密脫敏數(shù)據(jù)作為訓(xùn)練樣本,參賽選手需基于提供的樣本構(gòu)建模型,預(yù)測簡歷與崗位匹配與否。實質(zhì)上,可以看做一個多分類問題。賽題數(shù)據(jù)本次比賽為參賽選手提供了大量的崗位JD和求職者簡歷,其中:崗位JD數(shù)據(jù)包含4個特征字段:job_id, 職位名稱, 職位描述, 職位要求。求職者簡歷數(shù)據(jù)包含15個特征字段:id, 學(xué)校類別, 第一學(xué)歷, 第一學(xué)歷學(xué)校, 第一學(xué)歷專業(yè), 最高學(xué)歷, 最高學(xué)歷學(xué)校, 最高學(xué)歷專業(yè), 教育經(jīng)歷, 學(xué)術(shù)成果, 校園經(jīng)歷, 實習(xí)經(jīng)歷, 獲獎信息, 其他證書信息, job_id。這里面的數(shù)據(jù)都是加密脫敏的,不太會bert的我們只能說:xgb/lgb yyds!評估指標(biāo)本模型依據(jù)提交的結(jié)果文件,采用macro-F1 score進(jìn)行評價。建模方案要點(diǎn)1 模型有l(wèi)gb和xgb,其中xgb要比lgb效果好?。。。? 10折比5折好3 特征工程包括業(yè)務(wù)特征如下圖,還有一些類別特征之間count、nunique和count/nunique計算,以及計算個人信息與每一個職位之間的余弦相似度(個人信息=學(xué)校類別+教育經(jīng)歷+學(xué)術(shù)成果+校園經(jīng)歷+實習(xí)經(jīng)歷+獲獎信息+其他證書信息,職位信息=職位名稱+職位描述+職位要求,采用TFIDF(2-gram)算法處理),人個信息用TFIDF(2-gram)進(jìn)一步處理生成文本特征矩陣。4 個人信息生成的文本特征矩陣非常高維,降維處理會降低精度,不降維訓(xùn)練時間長,需要人工調(diào)整min_df和max_df參數(shù)。5 結(jié)果概率后處理提分,老肥神操作,看不懂!知乎的包包大人有關(guān)于這方面的詳細(xì)解答,詳見https://zhuanlan.zhihu.com/p/106766826。6 調(diào)調(diào)參和模型融合有進(jìn)一步提升。寫在末尾,數(shù)據(jù)挖掘一些的tricks基本有用,關(guān)鍵是多做特征和多嘗試。溫馨提示:如果你覺得離冠軍很遠(yuǎn),直接艾特前排冠軍組隊就好。老肥說:感謝胡蘿卜同學(xué)的精彩分享,如果還有同學(xué)想要分享比賽相關(guān)內(nèi)容的,可以在群內(nèi)或者私聊戳我,大家一起交流學(xué)習(xí)!相關(guān)閱讀
-
世界熱推薦:今晚7:00直播丨下一個突破...
今晚19:00,Cocos視頻號直播馬上點(diǎn)擊【預(yù)約】啦↓↓↓在運(yùn)營了三年... -
NFT周刊|Magic Eden宣布支持Polygon網(wǎng)...
Block-986在NFT這樣的市場,每周都會有相當(dāng)多項目起起伏伏。在過去... -
環(huán)球今亮點(diǎn)!頭條觀察 | DeFi的興衰與...
在比特幣得到機(jī)構(gòu)關(guān)注之后,許多財務(wù)專家預(yù)測世界將因為加密貨幣的... -
重新審視合作,體育Crypto的可靠關(guān)系才能雙贏
Block-987即使在體育Crypto領(lǐng)域,人們的目光仍然集中在FTX上。隨著... -
簡訊:前端單元測試,更進(jìn)一步
前端測試@2022如果從2014年Jest的第一個版本發(fā)布開始計算,前端開發(fā)... -
焦點(diǎn)熱訊:劉強(qiáng)東這波操作秀
近日,劉強(qiáng)東發(fā)布京東全員信,信中提到:自2023年1月1日起,逐步為...