每日速訊:Efficient-HRNet | EfficientNet思想+HRNet技術(shù)會(huì)不會(huì)更強(qiáng)更快呢?
1、簡(jiǎn)介許多新興智能物聯(lián)網(wǎng)應(yīng)用對(duì)輕量級(jí)多人姿勢(shì)估計(jì)的需求越來(lái)越大。然而,現(xiàn)有算法往往具有較大的模型尺寸和密集的計(jì)算需求,使得它們不適合實(shí)時(shí)應(yīng)用和在資源受限的硬件上部署。輕量級(jí)和實(shí)時(shí)的方法非常罕見(jiàn),更多都是以低的精度為代價(jià)。
(相關(guān)資料圖)
在本文中提出了EfficientHRNet,這是一個(gè)輕量級(jí)多人人體姿勢(shì)估計(jì)器,能夠在資源受限的設(shè)備上實(shí)時(shí)執(zhí)行。通過(guò)將模型縮放的最新進(jìn)展與高分辨率特征表示相結(jié)合,EfficientHRNet可以創(chuàng)建高精確的模型,同時(shí)減少計(jì)算量以實(shí)現(xiàn)實(shí)時(shí)性能。最大的模型能夠達(dá)到當(dāng)前最先進(jìn)技術(shù)的4.4%的精度差距以內(nèi),同時(shí)具有1/3的模型尺寸和1/6的計(jì)算,在Nvidia Jetson Xavier上達(dá)到23 FPS。與頂級(jí)實(shí)時(shí)方法相比,EfficientHRNet提高了22%的精度,同時(shí)以1/3的功率實(shí)現(xiàn)了類似的FPS。在每一個(gè)層面上,EfficientHRNet都被證明比其他自下而上的2D人體姿勢(shì)估計(jì)方法更具計(jì)算效率,同時(shí)達(dá)到了極具競(jìng)爭(zhēng)力的精度。
2D人體姿態(tài)估計(jì)是許多流行的智能應(yīng)用程序中常用的任務(wù),近年來(lái)取得了長(zhǎng)足進(jìn)展。2D人體姿態(tài)估計(jì)有兩種主要方法。第一種是自上而下的方法,其中提供了人類的裁剪圖像,網(wǎng)絡(luò)使用這些裁剪圖像生成人類關(guān)鍵點(diǎn)。自頂向下方法依賴于目標(biāo)檢測(cè)器來(lái)提供初始人類作物,因此它們通常具有相對(duì)較高的計(jì)算成本,并且不是真正的端到端方法。第二種是自下而上的方法,網(wǎng)絡(luò)從原始圖像開(kāi)始工作,并為圖像中的所有人生成人類關(guān)鍵點(diǎn)。雖然這些方法往往達(dá)不到最先進(jìn)的自頂向下方法所能達(dá)到的精度,但它們的模型大小和計(jì)算開(kāi)銷相對(duì)較低。即使如此,最先進(jìn)的自下而上方法仍然相當(dāng)大,計(jì)算成本也很高。目前的最先進(jìn)技術(shù)有6380萬(wàn)個(gè)參數(shù),需要1543億浮點(diǎn)運(yùn)算。
許多新興的物聯(lián)網(wǎng)(IoT)應(yīng)用程序需要在攝像機(jī)旁邊的邊緣進(jìn)行輕量級(jí)實(shí)時(shí)多人姿勢(shì)估計(jì)。這在廣泛的智能互聯(lián)應(yīng)用程序中更為明顯,這些應(yīng)用程序需要持續(xù)的人類活動(dòng)分析和行為監(jiān)控。視頻監(jiān)控、患者監(jiān)控和公共安全等例子很少。所有這些應(yīng)用程序都需要能夠在物聯(lián)網(wǎng)邊緣設(shè)備上靠近攝像頭運(yùn)行的靈活但高度準(zhǔn)確的人體姿勢(shì)估計(jì)。盡管如此,對(duì)于開(kāi)發(fā)能夠在有限的計(jì)算資源下實(shí)時(shí)執(zhí)行的輕量級(jí)自下而上方法,卻缺乏關(guān)注。為了解決這一差距,需要一系列輕量級(jí)實(shí)時(shí)人體姿勢(shì)估計(jì)模型,這些模型的精度與最先進(jìn)的方法相當(dāng)。
在本文中提出了EfficientHRNet,這是一個(gè)輕量級(jí)可擴(kuò)展網(wǎng)絡(luò)家族,用于高分辨率和高效的實(shí)時(shí)自下而上的多人姿勢(shì)估計(jì)。EfficientHRNet統(tǒng)一了最先進(jìn)的EfficientNet和HRNet的原理,并提出了一種新的公式,可以實(shí)現(xiàn)接近最先進(jìn)的人體姿勢(shì)估計(jì),同時(shí)比所有其他自下而上的方法更具計(jì)算效率。
與HRNet類似,EfficientHRNet使用多種功能分辨率來(lái)生成關(guān)鍵點(diǎn),但效率更高。同時(shí),它使用EfficientNet作為主干,并調(diào)整其縮放方法,以更好地適合人類姿勢(shì)估計(jì)。為了實(shí)現(xiàn)輕量級(jí)實(shí)時(shí)執(zhí)行,EfficientHRNet進(jìn)一步擴(kuò)展了EfficientNet公式,不僅可以縮小基線,還可以聯(lián)合縮小輸入分辨率、高分辨率網(wǎng)絡(luò)和熱圖預(yù)測(cè)網(wǎng)絡(luò)。通過(guò)這一點(diǎn)能夠創(chuàng)建一系列網(wǎng)絡(luò),這些網(wǎng)絡(luò)能夠解決實(shí)時(shí)2D人體姿勢(shì)估計(jì)的整個(gè)領(lǐng)域,同時(shí)能夠靈活滿足應(yīng)用程序的精度和計(jì)算要求。
作者評(píng)估了COCO數(shù)據(jù)集的準(zhǔn)確性和英偉達(dá)NX Xavier的實(shí)時(shí)性能。圖1展示了本文的模型如何在較低的計(jì)算成本下提供與直接模型相同或更高的精度。
與最先進(jìn)的模型相比,基線EfficientNet在精度方面具有競(jìng)爭(zhēng)力,但需要的計(jì)算量要少得多,因此推斷速度更快。與HRNet相比,EfficientHRNet的精度提高了0.4%,同時(shí)計(jì)算需求減少了34%。與HigherHRNet和PersonLab相比,EfficientHRNet的準(zhǔn)確度下降了1.7%至5.1%,計(jì)算需求下降了83%至93%,令人印象深刻。這導(dǎo)致FPS比HigherHRNet增加3.4倍。
即使與專門為輕量級(jí)執(zhí)行而設(shè)計(jì)的模型(如lightweight OpenPose)相比,縮小的EfficientHRNet也能夠?qū)崿F(xiàn)10.1%的精度超越,同時(shí)進(jìn)一步減少15%的計(jì)算量,保持相似的FPS。
此外,已在ImageNet上對(duì)縮小的主干模型進(jìn)行了單獨(dú)評(píng)估。結(jié)果表明,在取得比同行更高的效率的同時(shí),具有競(jìng)爭(zhēng)力的準(zhǔn)確性。
總之,本文有以下貢獻(xiàn):
將EfficientHRNet作為第一種方法為自下而上的實(shí)時(shí)多人2D人體姿勢(shì)估計(jì)提供輕量級(jí)、可縮放的模型,從而達(dá)到與最先進(jìn)技術(shù)相當(dāng)?shù)木?。提出了一種新的公式,將EfficientNet的可擴(kuò)展性整合到整個(gè)高分辨率網(wǎng)絡(luò)中,以降低計(jì)算復(fù)雜性并允許實(shí)時(shí)執(zhí)行。是第一個(gè)提供向下縮放公式創(chuàng)建一系列緊湊的EfficientNet模型,這些模型可擴(kuò)展到計(jì)算能力受限的嵌入式和邊緣物聯(lián)網(wǎng)設(shè)備的基線以下。對(duì)具有挑戰(zhàn)性的COCO數(shù)據(jù)集進(jìn)行了全面分析,以顯示模型在準(zhǔn)確性、模型大小、計(jì)算復(fù)雜性、效率和實(shí)時(shí)執(zhí)行方面與最先進(jìn)和實(shí)時(shí)方法的對(duì)比情況。對(duì)最先進(jìn)的嵌入式物聯(lián)網(wǎng)GPU(Nvidia Jetson NX)進(jìn)行了廣泛的性能分析,以證明EfficientHRNet相對(duì)于現(xiàn)有算法的執(zhí)行優(yōu)勢(shì)。2、相關(guān)工作2.1、Top-down Methods自頂向下的方法依賴于首先使用對(duì)象檢測(cè)器識(shí)別圖像中的所有人,然后在定義的邊界框內(nèi)檢測(cè)單個(gè)人的關(guān)鍵點(diǎn)。這些單人和多人姿勢(shì)估計(jì)方法通常使用對(duì)象檢測(cè)器生成人物邊界框。例如,RMPE在單人姿勢(shì)估計(jì)器疊加沙漏網(wǎng)絡(luò)的基礎(chǔ)上添加對(duì)稱空間變換網(wǎng)絡(luò),以從不精確的邊界框中獲得高質(zhì)量的區(qū)域,然后使用參數(shù)非最大值抑制檢測(cè)姿勢(shì)。
2.2、Bottom-up Methods自底向上方法檢測(cè)圖像中的無(wú)身份關(guān)鍵點(diǎn),并使用各種關(guān)鍵點(diǎn)分組技術(shù)將其分組為人。方法類似于并通過(guò)整數(shù)線性程序和非最大值抑制執(zhí)行分組。與具有幾乎相似精度的自頂向下方法相比,這允許更快的推理時(shí)間。其他方法通過(guò)使用貪婪分組技術(shù)以及其他優(yōu)化進(jìn)一步改進(jìn)預(yù)測(cè)時(shí)間。例如,OpenPose是一個(gè)多階段網(wǎng)絡(luò),其中一個(gè)分支以熱圖的形式檢測(cè)關(guān)鍵點(diǎn),而另一個(gè)分支生成用于將關(guān)鍵點(diǎn)彼此關(guān)聯(lián)的Part Affinity Fields。
分組是通過(guò)計(jì)算所有關(guān)鍵點(diǎn)之間的線積分并對(duì)積分最高的一對(duì)進(jìn)行分組來(lái)完成的。輕量級(jí)OpenPose用MobileNet取代更大的主干網(wǎng),以更少的參數(shù)和FLOP實(shí)現(xiàn)實(shí)時(shí)性能,同時(shí)降低準(zhǔn)確性。PifPaf使用“零件強(qiáng)度場(chǎng)”檢測(cè)身體部位,使用“零件關(guān)聯(lián)場(chǎng)”將零件相互關(guān)聯(lián)以形成人體姿勢(shì)。堆疊沙漏網(wǎng)絡(luò)用于預(yù)測(cè)熱圖和分組關(guān)鍵點(diǎn)。
分組是通過(guò)為每個(gè)關(guān)鍵點(diǎn)分配一個(gè)嵌入(稱為標(biāo)記),然后根據(jù)標(biāo)記向量之間的L2距離關(guān)聯(lián)這些關(guān)鍵點(diǎn)來(lái)完成的。
2.3、Multi-scale High-Resolution Networks特征金字塔網(wǎng)絡(luò)增強(qiáng)了多尺度表示,廣泛應(yīng)用于復(fù)雜和必要的計(jì)算機(jī)視覺(jué)應(yīng)用,如分割和姿勢(shì)估計(jì)。使用上采樣、擴(kuò)展卷積和反卷積等技術(shù)恢復(fù)高分辨率特征圖在目標(biāo)檢測(cè)、語(yǔ)義分割和姿勢(shì)估計(jì)方面也非常流行。此外,有幾項(xiàng)工作側(cè)重于直接生成高分辨率特征圖。
HRNet建議在整個(gè)網(wǎng)絡(luò)中維護(hù)高分辨率特征圖。HRNet由跨多個(gè)階段具有不同分辨率的多個(gè)分支組成。通過(guò)多尺度融合,HRNet能夠生成高分辨率的特征地圖,并將其應(yīng)用于目標(biāo)檢測(cè)、語(yǔ)義分割和姿勢(shì)估計(jì),從而獲得顯著的精度。
最近,提出了用于多人姿勢(shì)估計(jì)的HigherHRNet,它使用HRNet作為基礎(chǔ)網(wǎng)絡(luò)來(lái)生成高分辨率特征圖,并進(jìn)一步添加了反卷積模塊來(lái)預(yù)測(cè)準(zhǔn)確、高質(zhì)量的熱力圖。HigherHRNet在COCO數(shù)據(jù)集上實(shí)現(xiàn)了一流的精度,超過(guò)了所有現(xiàn)有的自底向上方法。本文采用HigherHRNet原理,通過(guò)多尺度融合生成高分辨率特征圖預(yù)測(cè)高質(zhì)量的熱力圖。
2.4、Model Scaling以前關(guān)于自底向上姿勢(shì)估計(jì)的工作通常依賴于大型主干網(wǎng)絡(luò),如ResNet或VGGNet,或大輸入分辨率和多尺度訓(xùn)練,以達(dá)到最先進(jìn)的精度。最近的一些工作表明,增加其他相同模型的通道尺寸可以進(jìn)一步提高精度。EfficientNet和RegNet表明,通過(guò)聯(lián)合縮放網(wǎng)絡(luò)寬度、深度和輸入分辨率,與以前使用更大模型的先進(jìn)網(wǎng)絡(luò)相比,可以實(shí)現(xiàn)更好的圖像分類效率。最近,EfficientNet的精簡(jiǎn)模型刪除了一些元素,例如squeeze and excite層和swish層,使網(wǎng)絡(luò)更加硬件友好。
受EfficientNet啟發(fā),EfficientDet提出了一種用于目標(biāo)檢測(cè)的復(fù)合縮放方法以及高效的多尺度特征融合。對(duì)于多人姿勢(shì)估計(jì),尤其是嵌入式設(shè)備,缺乏有效的縮放方法。對(duì)于注重實(shí)時(shí)性能的計(jì)算機(jī)視覺(jué)應(yīng)用,需要具有可擴(kuò)展性和相對(duì)精確性的輕量級(jí)姿態(tài)估計(jì)模型。作者提出的復(fù)合縮放也受到了EfficientNet的啟發(fā),是一種聯(lián)合縮放EfficientHRNet的寬度、深度和輸入分辨率以及高分辨率模塊內(nèi)的重復(fù)的方法。此外,這種復(fù)合縮放允許EfficinentNet主干擴(kuò)展到B0以下,從而創(chuàng)建更輕的模型。
2.5、Real-Time Pose Estimation雖然該領(lǐng)域的大多數(shù)工作都側(cè)重于孤立的準(zhǔn)確性,但最近的一些工作已經(jīng)發(fā)展起來(lái),將重點(diǎn)更多地轉(zhuǎn)移到實(shí)時(shí)推斷上。專注于實(shí)時(shí)執(zhí)行,使用密集連接的殘差模塊和高分辨率特征圖,實(shí)現(xiàn)精確和輕量級(jí)的單人姿勢(shì)估計(jì),能夠在Nvidia 1080TI上實(shí)現(xiàn)39 FPS。Lightweight OpenPose將OpenPose修改為使用MobileNet主干和更少的細(xì)化階段,并使用Intel OpenVINO Toolkit在Intel NUC 6i7KYB上獲得28 FPS。Nvidia還專注于實(shí)時(shí)推理,發(fā)布了trt位姿,這是一種使用TensorRT和DeepStream優(yōu)化的單人位姿估計(jì)模型,在英偉達(dá)Jetson Xavier上實(shí)現(xiàn)了高達(dá)251幀/秒的速度。
3、本文方法3.1、Network Architecture and Formulation1、Backbone NetworkEfficientHRNet的第一個(gè)階段是主干,由修改后的EfficientNet組成,其比例低于基線。主干輸出四個(gè)不同分辨率的特征圖,分辨率為輸入圖像大小的1/4、1/8、1/16和1/32。這些特征圖被傳遞到網(wǎng)絡(luò)主體中,稱為高分辨率網(wǎng)絡(luò)。
2、High-Resolution Network高分辨率網(wǎng)絡(luò)的靈感來(lái)自HRNet和HigherHRNet。借用這些高分辨率網(wǎng)絡(luò)的原理帶來(lái)了兩大優(yōu)勢(shì):
通過(guò)在整個(gè)網(wǎng)絡(luò)中維護(hù)多個(gè)高分辨率特征表示,可以生成具有更高空間精度的熱力圖。重復(fù)的多尺度融合允許高分辨率特征表示通知低分辨率表示,反之亦然,從而產(chǎn)生理想的魯棒多分辨率特征表示用于多人姿勢(shì)估計(jì)。圖2顯示了EfficientHRNet的詳細(xì)架構(gòu)圖。它顯示了3個(gè)子網(wǎng)絡(luò):主干網(wǎng)絡(luò)、高分辨率網(wǎng)絡(luò)和熱圖預(yù)測(cè)網(wǎng)絡(luò)。它還提供了顯示網(wǎng)絡(luò)如何縮放輸入分辨率
高分辨率網(wǎng)絡(luò)有3個(gè)階段
例如,第2級(jí)(
熱力圖預(yù)測(cè)網(wǎng)絡(luò)用于生成人類關(guān)鍵點(diǎn)預(yù)測(cè)。為了預(yù)測(cè)更準(zhǔn)確的熱力圖,在高分辨率網(wǎng)絡(luò)的頂部添加了一個(gè)DeConv塊。轉(zhuǎn)置卷積用于生成高質(zhì)量的特征圖,其分辨率為原始輸入分辨率的1/2。DeConv塊的輸入是特征圖和來(lái)自高分辨率網(wǎng)絡(luò)的預(yù)測(cè)熱圖的串聯(lián),如下式所示:
反卷積后添加兩個(gè)殘差塊,以細(xì)化上采樣特征圖。在DeConv塊之后,使用1×1卷積預(yù)測(cè)熱力圖和標(biāo)記圖,每個(gè)熱力圖的特征圖大小如下所示:
分組過(guò)程通過(guò)將標(biāo)簽具有最小L2距離的關(guān)鍵點(diǎn)分組,將關(guān)鍵點(diǎn)分組為多個(gè)人。高分辨率網(wǎng)絡(luò)具有尺度感知能力,在訓(xùn)練期間對(duì)熱圖使用多分辨率監(jiān)控,使網(wǎng)絡(luò)能夠更精確地學(xué)習(xí),即使是對(duì)小尺度人也是如此。根據(jù)GT生成不同分辨率的熱力圖,以匹配不同尺度的預(yù)測(cè)關(guān)鍵點(diǎn)。
因此,最終熱力圖損失是所有分辨率的均方誤差之和。然而,由于高分辨率標(biāo)記映射不能很好地收斂,標(biāo)記映射的分辨率是原始輸入分辨率的1/4。
3.2、Compound Scaling Method本節(jié)詳細(xì)介紹了復(fù)合縮放方法,該方法可聯(lián)合縮放EfficientHRNet的所有部分,如圖2和表1所示。EfficientHRNet的目標(biāo)是提供一系列針對(duì)精度和效率進(jìn)行優(yōu)化的模型,這些模型可以縮放以滿足不同的內(nèi)存和計(jì)算約束集。
以前關(guān)于自下而上的人體姿勢(shì)估計(jì)和語(yǔ)義分割的工作主要通過(guò)使用更大的主干網(wǎng)絡(luò)(如ResNet和VGGNet)、使用較大的輸入圖像大小或使用多尺度訓(xùn)練來(lái)實(shí)現(xiàn)高精度來(lái)縮放基礎(chǔ)網(wǎng)絡(luò)。然而,這些方法僅依賴于單個(gè)維度的縮放,其效果有限。
最近的研究表明,通過(guò)聯(lián)合縮放寬度、深度和輸入圖像分辨率,圖像分類具有顯著的性能。受EfficientNet啟發(fā),EfficientDet提出了一種類似的目標(biāo)檢測(cè)復(fù)合縮放方法,它聯(lián)合縮放主干網(wǎng)絡(luò)、多尺度特征網(wǎng)絡(luò)和目標(biāo)檢測(cè)器網(wǎng)絡(luò)。
本文使用EfficientHRNet為計(jì)算機(jī)視覺(jué)應(yīng)用提出了一種基于啟發(fā)式的復(fù)合縮放方法,特別是自底向上的人體姿勢(shì)估計(jì)和語(yǔ)義分割。EfficientHRNet的方法使用縮放系數(shù)
寬度和深度縮放系數(shù)與EfficientNet保持相同。為了滿足在受限設(shè)備上運(yùn)行模型的需求,提供了一種新的公式,用于將EfficientNet擴(kuò)展到基線以下,并使其成為更緊湊的模型。
從基線EfficientNet-B0縮放系數(shù)開(kāi)始:
高分辨率網(wǎng)絡(luò)有3個(gè)階段和4個(gè)分支,具有4種不同的特征圖尺寸。每個(gè)分支n也有不同的寬度
其中n是一個(gè)特定的分支數(shù),
此外,在每個(gè)階段內(nèi),每個(gè)高分辨率模塊都有多個(gè)重復(fù)多次的塊Msn,如表1所示。在基線EfficientHRNet
DeConv塊的縮放方式與高分辨率網(wǎng)絡(luò)的寬度相同(5)。熱圖預(yù)測(cè)網(wǎng)絡(luò)輸出標(biāo)簽和熱圖,其寬度在所有模型中保持不變。
4、Input Image ResolutionEfficientNet將原始輸入圖像分辨率分層采樣降低32倍。因此,EfficientHRNet的輸入分辨率必須可除以32,并按線性比例縮小,如下式所示:
4、實(shí)驗(yàn)4.1、ImageNet4.2、COCO-Pose4.3、可視化結(jié)果5、參考[1].EfficientHRNet:Efficient and Scalable High-Resolution Networks for Real-Time Multi-Person 2D Human Pose Estimation.
6、推薦閱讀輕量級(jí)網(wǎng)絡(luò)論文-VoVNet詳解
DETR也需要學(xué)習(xí) | DETR-Distill模型蒸餾讓DETR系類模型持續(xù)發(fā)光發(fā)熱!??!
目標(biāo)檢測(cè)落地技能 | 擁擠目標(biāo)檢測(cè)你是如何解決的呢?改進(jìn)Copy-Paste解決擁擠問(wèn)題!
掃描上方二維碼可聯(lián)系小書童加入交流群~
想要了解更多前沿AI視覺(jué)感知全棧知識(shí)【分類、檢測(cè)、分割、關(guān)鍵點(diǎn)、車道線檢測(cè)、3D視覺(jué)(分割、檢測(cè))、多模態(tài)、目標(biāo)跟蹤、NerF】、行業(yè)技術(shù)方案【AI安防、AI醫(yī)療、AI自動(dòng)駕駛以及AI元宇宙】、AI模型部署落地實(shí)戰(zhàn)【CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平線框架等】,歡迎掃描下方二維碼,加入集智書童知識(shí)星球,日常分享論文、學(xué)習(xí)筆記、問(wèn)題解決方案、部署方案以及全棧式答疑,期待交流!
相關(guān)閱讀
-
每日速訊:Efficient-HRNet | Efficie...
許多新興智能物聯(lián)網(wǎng)應(yīng)用對(duì)輕量級(jí)多人姿勢(shì)估計(jì)的需求越來(lái)越大。然而... -
從鐘南山35歲開(kāi)始從醫(yī),談?wù)劤绦騿T的中...
最近在網(wǎng)上看到一個(gè)故事覺(jué)得很有意思,想和大家分享一下。故事是關(guān)... -
32歲女博士在國(guó)企寫代碼,單身至今,父...
紅霞姐是我們村里出的第一個(gè)女博士,也是第一個(gè)女碼農(nóng),這個(gè)記錄至... -
如果沒(méi)有攝像頭,他們會(huì)承認(rèn)嗎?
上班打男人,下班摟女人。用這句話來(lái)描述廖主任的雙面人生最合適不... -
世界最資訊丨都來(lái)做核酸的,憑什么慣著你?
最近我們這基本是一天一做核酸,因?yàn)椴挥蒙习?,所以我也?xí)慣了掐著... -
前端圖形學(xué)實(shí)戰(zhàn): 從零實(shí)現(xiàn)編輯器的圖層...
前言hello,大家好,我是徐小夕,今天又到了我們的博學(xué)時(shí)間。本文是100...