国产精品夜色视频一级区_hh99m福利毛片_国产一区二区成人久久免费影院_伊人久久大香线蕉综合影院75_国产精品久久果冻传媒

您的位置:首頁 >聚焦 >

當(dāng)前關(guān)注:科大訊飛人崗匹配Top1方案總結(jié)

2022-11-22 21:27:52    來源:程序員客棧


(資料圖片僅供參考)

九月份的時候胡蘿卜參加了訊飛的人崗匹配挑戰(zhàn)賽,后面機(jī)緣巧合和老肥組隊打團(tuán)。比賽過程可謂跌宕起伏,非常有意思。在這里和大家分享一下我們的建模方案。

賽題任務(wù)智能人崗匹配需要強(qiáng)大的數(shù)據(jù)作為支撐,本次大賽提供了大量的崗位JD和求職者簡歷的加密脫敏數(shù)據(jù)作為訓(xùn)練樣本,參賽選手需基于提供的樣本構(gòu)建模型,預(yù)測簡歷與崗位匹配與否。實質(zhì)上,可以看做一個多分類問題。賽題數(shù)據(jù)本次比賽為參賽選手提供了大量的崗位JD和求職者簡歷,其中:崗位JD數(shù)據(jù)包含4個特征字段:job_id, 職位名稱, 職位描述, 職位要求。求職者簡歷數(shù)據(jù)包含15個特征字段:id, 學(xué)校類別, 第一學(xué)歷, 第一學(xué)歷學(xué)校, 第一學(xué)歷專業(yè), 最高學(xué)歷, 最高學(xué)歷學(xué)校, 最高學(xué)歷專業(yè), 教育經(jīng)歷, 學(xué)術(shù)成果, 校園經(jīng)歷, 實習(xí)經(jīng)歷, 獲獎信息, 其他證書信息, job_id。這里面的數(shù)據(jù)都是加密脫敏的,不太會bert的我們只能說:xgb/lgb yyds!評估指標(biāo)本模型依據(jù)提交的結(jié)果文件,采用macro-F1 score進(jìn)行評價。建模方案要點(diǎn)1 模型有l(wèi)gb和xgb,其中xgb要比lgb效果好?。。。? 10折比5折好3 特征工程包括業(yè)務(wù)特征如下圖,還有一些類別特征之間count、nunique和count/nunique計算,以及計算個人信息與每一個職位之間的余弦相似度(個人信息=學(xué)校類別+教育經(jīng)歷+學(xué)術(shù)成果+校園經(jīng)歷+實習(xí)經(jīng)歷+獲獎信息+其他證書信息,職位信息=職位名稱+職位描述+職位要求,采用TFIDF(2-gram)算法處理),人個信息用TFIDF(2-gram)進(jìn)一步處理生成文本特征矩陣。4 個人信息生成的文本特征矩陣非常高維,降維處理會降低精度,不降維訓(xùn)練時間長,需要人工調(diào)整min_df和max_df參數(shù)。5 結(jié)果概率后處理提分,老肥神操作,看不懂!知乎的包包大人有關(guān)于這方面的詳細(xì)解答,詳見https://zhuanlan.zhihu.com/p/106766826。6 調(diào)調(diào)參和模型融合有進(jìn)一步提升。寫在末尾,數(shù)據(jù)挖掘一些的tricks基本有用,關(guān)鍵是多做特征和多嘗試。溫馨提示:如果你覺得離冠軍很遠(yuǎn),直接艾特前排冠軍組隊就好。老肥說:感謝胡蘿卜同學(xué)的精彩分享,如果還有同學(xué)想要分享比賽相關(guān)內(nèi)容的,可以在群內(nèi)或者私聊戳我,大家一起交流學(xué)習(xí)!

關(guān)鍵詞: 個人信息 特征矩陣 職位要求

相關(guān)閱讀