#本文僅代表作者觀點(diǎn),不代表IPRdaily立場(chǎng)#
原標(biāo)題:專利深一度|計(jì)算機(jī)視覺(jué)技術(shù)專利分析
人隨著深度學(xué)習(xí)的快速發(fā)展,計(jì)算機(jī)視覺(jué)與語(yǔ)音識(shí)別、自然語(yǔ)言處理共同構(gòu)成了人工智能的三個(gè)關(guān)鍵應(yīng)用技術(shù)。計(jì)算機(jī)視覺(jué)賦予機(jī)器感知和認(rèn)知世界的功能。
基于行業(yè)發(fā)展需求,國(guó)家知識(shí)產(chǎn)權(quán)局專利分析普及推廣項(xiàng)目人工智能關(guān)鍵技術(shù)課題組從計(jì)算機(jī)視覺(jué)技術(shù)專利整體現(xiàn)狀,智能安防、自動(dòng)駕駛和醫(yī)療影像三大應(yīng)用領(lǐng)域?qū)@季?,?duì)計(jì)算機(jī)視覺(jué)技術(shù)進(jìn)行了深度剖析。
專利整體現(xiàn)狀
受益于深度學(xué)習(xí)算法的優(yōu)化、計(jì)算能力的突破以及數(shù)據(jù)的積累,計(jì)算機(jī)視覺(jué)技術(shù)從2012年開(kāi)始快速迭代,不斷推陳出新。2012年,ImageNet大規(guī)模視覺(jué)識(shí)別挑戰(zhàn)賽中,冠軍團(tuán)隊(duì)使用深度學(xué)習(xí)算法將識(shí)別錯(cuò)誤率降低了10%,成為影響人工智能進(jìn)程的里程碑事件,從此計(jì)算機(jī)視覺(jué)技術(shù)商業(yè)化落地能力不斷提高,迎來(lái)了突破性發(fā)展。
伴隨著技術(shù)的創(chuàng)新與突破,全球計(jì)算機(jī)視覺(jué)技術(shù)專利申請(qǐng)量開(kāi)始激增,呈現(xiàn)指數(shù)增長(zhǎng),從2010年的200多件激增至2016年4000多件。中國(guó)近年來(lái)專利申請(qǐng)量連續(xù)取得世界第一,再加上中國(guó)對(duì)人工智能技術(shù)的重視,又是世界上最大的目標(biāo)市場(chǎng),因此中國(guó)以67.7%的占比,排在目標(biāo)國(guó)申請(qǐng)量的首位,美國(guó)以近22%位居第二。
計(jì)算機(jī)視覺(jué)應(yīng)用領(lǐng)域。
01、助力智能安防
隨著安防產(chǎn)品應(yīng)用領(lǐng)域的不斷擴(kuò)張,傳統(tǒng)安防技術(shù)的計(jì)算能力不足以應(yīng)對(duì)日益增長(zhǎng)的視頻和圖像數(shù)據(jù),識(shí)別效率和識(shí)別準(zhǔn)確率也阻礙安防產(chǎn)業(yè)進(jìn)一步發(fā)展。計(jì)算機(jī)視覺(jué)技術(shù)中人臉識(shí)別技術(shù)具備超越人眼的實(shí)時(shí)識(shí)別準(zhǔn)確率,與安防使用場(chǎng)景契合度較高,已成為智能安防的關(guān)鍵技術(shù)之一。
智能安防中的人臉識(shí)別算法經(jīng)歷了早期算法、人工特征+分類器、深度學(xué)習(xí)三個(gè)階段。早期算法有基于幾何特征的算法,基于模板匹配的算法,子空間算法等多種類型,這些算法嚴(yán)重依賴訓(xùn)練集和測(cè)試集場(chǎng)景,且對(duì)光照、人臉的表情、姿態(tài)敏感,泛化能力不足,不具有太多的實(shí)用價(jià)值;第二階段的人臉識(shí)別算法普遍采用了人工特征+分類器的思路,部分解決了光照敏感問(wèn)題,但還是存在姿態(tài)和表情的問(wèn)題;目前利用深度學(xué)習(xí)的人臉識(shí)別算法已成主流,極大地提高了智能安防實(shí)時(shí)監(jiān)控精度,推動(dòng)這一技術(shù)真正走向?qū)嵱谩?br/>
2013年,臉書(shū)(Facebook)的Yaniv Taigman等人提出了DeepFace算法,該算法基于檢測(cè)點(diǎn)實(shí)現(xiàn)人臉檢測(cè),通過(guò)對(duì)檢測(cè)后的圖片進(jìn)行二維裁剪,將人臉部分裁剪出來(lái),然后轉(zhuǎn)換為3D模型,利用CNN模型對(duì)3D模型進(jìn)行特征提取、歸一和分類完成人臉識(shí)別。DeepFace算法是人臉識(shí)別的奠基之作,直接影響了后續(xù)的DeepID和FaceNet等算法。
同年,香港中文大學(xué)的湯曉鷗教授及其團(tuán)隊(duì)提出了DeepID算法,并憑借該算法參加2014年ImageNet大規(guī)模物體檢測(cè)任務(wù)比賽獲得第二名優(yōu)異成績(jī)。隨后團(tuán)隊(duì)對(duì)DeepID算法進(jìn)行改進(jìn)提出DeepID2算法。DeepID2采用深度學(xué)習(xí)的方法來(lái)提取人臉高級(jí)特征,其采用的CNN網(wǎng)絡(luò)結(jié)構(gòu)共為10層,包括輸入層、4個(gè)卷積層、3個(gè)池化層、1個(gè)DeepID層和1個(gè)Softmax層;在提取特征后,使用了Joint Bayesian和Neural Network兩種方法進(jìn)行區(qū)人臉比對(duì),最終得出識(shí)別結(jié)果。
同年,谷歌的Christian Szegedy等人提出了Inception網(wǎng)絡(luò)結(jié)構(gòu),該結(jié)構(gòu)構(gòu)造了一種“基礎(chǔ)神經(jīng)元”結(jié)構(gòu),來(lái)搭建一個(gè)稀疏性、高計(jì)算性能的網(wǎng)絡(luò)結(jié)構(gòu),將CNN中常用的卷積(1x1,3x3,5x5)、池化操作(3x3)堆疊在一起(卷積、池化后的尺寸相同,將通道相加),一方面增加了網(wǎng)絡(luò)的寬度,另一方面也增加了網(wǎng)絡(luò)對(duì)尺度的適應(yīng)性。谷歌基于Inception搭建了GoogleNet。GoogleNet憑借其優(yōu)秀的表現(xiàn),得到了很多研究人員的學(xué)習(xí)和使用。隨后,谷歌的Philbin James William等人又提出了FaceNet,與其他的深度學(xué)習(xí)方法在人臉上的應(yīng)用不同,F(xiàn)aceNet并沒(méi)有用傳統(tǒng)的softmax的方式去進(jìn)行分類學(xué)習(xí),然后抽取其中某一層作為特征,而是直接進(jìn)行端對(duì)端學(xué)習(xí)一種從圖像到歐式空間的編碼方法,然后基于這個(gè)編碼再做人臉識(shí)別、人臉驗(yàn)證和人臉聚類等;將圖像輸入卷積神經(jīng)網(wǎng)絡(luò)去掉sofmax后的結(jié)構(gòu),經(jīng)過(guò)L2的歸一化,然后得到特征表示,基于這個(gè)特征表示計(jì)算三元組損失,其可使用兩種卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),第一種是Zeiler&Fergus架構(gòu),22層,第二種是GoogleNet式的Inception模型。在LFW上,使用了兩種模式:直接取LFW圖片的中間部分進(jìn)行訓(xùn)練,效果98.87左右;使用額外的人臉對(duì)齊工具,效果99.63左右,超過(guò)DeepID。
2014年至2016年期間,GoogleNet團(tuán)隊(duì)對(duì)GoogleNet進(jìn)行了進(jìn)一步的發(fā)掘改進(jìn),研發(fā)出了Inception v2,Inception v3和Inception v4。最終基于Inception v4提出了inception-ResNet-v2。專利(申請(qǐng)?zhí)枺篣S15395530)披露了將nxn的卷積通過(guò)1xn卷積后接nx1卷積來(lái)替代以加速計(jì)算,又可以將1個(gè)卷積拆成2個(gè)卷積,使得網(wǎng)絡(luò)深度進(jìn)一步增加,增加了網(wǎng)絡(luò)的非線性;或者使用了兩個(gè)并行化的模塊(卷積、池化并行執(zhí)行,再進(jìn)行合并)來(lái)降低計(jì)算量,以及將ResNet與Inception 結(jié)合。
同在2016年,谷歌的Barret ZOPH等提出了NasNet,并以此提交了專利申請(qǐng)(申請(qǐng)?zhí)枺篣S62414300)。這個(gè)模型并非是人為設(shè)計(jì)出來(lái)的,而是通過(guò)谷歌很早之前推出的AutoML自動(dòng)訓(xùn)練出來(lái)的。該項(xiàng)目目的是實(shí)現(xiàn)“自動(dòng)化的機(jī)器學(xué)習(xí)”,即訓(xùn)練機(jī)器學(xué)習(xí)的軟件來(lái)打造機(jī)器學(xué)習(xí)的軟件,自行開(kāi)發(fā)新系統(tǒng)的代碼層,它也是一種神經(jīng)架構(gòu)搜索技術(shù)(Neural Architecture Search technology)。其模型就是基于AutoML首先在CIFAR-10這種數(shù)據(jù)集上進(jìn)行神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索,以便AutoML找到最佳層并靈活進(jìn)行多次堆疊來(lái)創(chuàng)建最終網(wǎng)絡(luò),并將學(xué)到的最好架構(gòu)轉(zhuǎn)移到 ImageNet 圖像分類和COCO對(duì)象檢測(cè)中,其在圖像分類任務(wù)中表現(xiàn)極為優(yōu)秀。
為了更好地適應(yīng)移動(dòng)端平臺(tái),2017年,谷歌的Howard Andrew Gerald等推出了MobileNet。該技術(shù)使用了一種稱之為deep-wise的卷積方式來(lái)替代原有的傳統(tǒng)3D卷積,減少了卷積核的冗余表達(dá),在計(jì)算量和參數(shù)數(shù)量明顯下降之后,卷積網(wǎng)絡(luò)可以應(yīng)用在更多的移動(dòng)端平臺(tái)。其他創(chuàng)新主體也圍繞移動(dòng)端應(yīng)用進(jìn)行大量技術(shù)創(chuàng)新,如通過(guò)神經(jīng)網(wǎng)絡(luò)模型的壓縮、大型網(wǎng)絡(luò)的特性遷移至小型網(wǎng)絡(luò)等。
02、賦能醫(yī)療影像
傳統(tǒng)的醫(yī)學(xué)影像依賴于醫(yī)師根據(jù)影像提供的信息進(jìn)行診斷,而計(jì)算機(jī)視覺(jué)技術(shù)為醫(yī)療影像帶來(lái)了新機(jī)會(huì)。自2006年,全球涉及醫(yī)療影像的計(jì)算機(jī)視覺(jué)相關(guān)專利近2000件。
醫(yī)療影像的計(jì)算機(jī)視覺(jué)技術(shù)可以分為前期的圖像獲取,中期的圖像處理,以及后期的圖像診斷。圖像獲取進(jìn)一步細(xì)分為圖像構(gòu)建、圖像生成、目標(biāo)跟蹤,圖像處理包括圖像增強(qiáng)、圖像修復(fù)、圖像分割,圖像診斷分為圖像匹配、圖像構(gòu)建、圖像分類。無(wú)論從專利布局?jǐn)?shù)量還是布局質(zhì)量,西門子、通用電氣和飛利浦是該領(lǐng)域最重要的專利申請(qǐng)主體。三家企業(yè)在醫(yī)療圖像構(gòu)建、醫(yī)療圖像生成、醫(yī)療圖像增強(qiáng)和醫(yī)療圖像修復(fù)等細(xì)分技術(shù)均進(jìn)行了大量的專利布局,上述專利技術(shù)主要關(guān)注如何通過(guò)計(jì)算機(jī)視覺(jué)技術(shù)更高效地分析處理醫(yī)療數(shù)據(jù),提升圖像檢測(cè)設(shè)備的性能,使其能獲取更加準(zhǔn)確、更加豐富的信息。
03、革新自動(dòng)駕駛
除了智能安防、醫(yī)療影像,視覺(jué)技術(shù)在自動(dòng)駕駛方面的應(yīng)用越來(lái)越受到眾多科技型企業(yè)、傳感器企業(yè)、汽車企業(yè)的重視。自動(dòng)駕駛的圖像視覺(jué)處理領(lǐng)域,Mobileye公司具有絕對(duì)的技術(shù)優(yōu)勢(shì)和市場(chǎng)優(yōu)勢(shì),Mobileye也一次又一次地利用技術(shù)的革新推動(dòng)著產(chǎn)業(yè)的發(fā)展。
2006年,深度學(xué)習(xí)算法剛提出不久,Mobileye就嘗試?yán)蒙疃葘W(xué)習(xí)算法對(duì)車燈進(jìn)行了識(shí)別,并利用車燈信息對(duì)車輛進(jìn)行識(shí)別導(dǎo)航。與此同時(shí),福特提出利用人工智能技術(shù)修復(fù)低分辨率的圖像,使得汽車在夜間也能獲得更加清晰的圖像。早稻田大學(xué)嘗試將視覺(jué)系統(tǒng)和激光點(diǎn)云相融合,并融入人工智能技術(shù)。松下提出了專門處理環(huán)視視覺(jué)的處理器架構(gòu),其布局可謂十分超前。因?yàn)橹钡讲痪们?,Mobileye推出新的視覺(jué)輔助駕駛系統(tǒng)才開(kāi)始采用多攝像頭的環(huán)視技術(shù)。Mobileye也在硬件系統(tǒng)上進(jìn)行了嘗試,如對(duì)片上系統(tǒng)的中斷技術(shù)進(jìn)行了研究。在這一階段,由于技術(shù)的不成熟,車輛控制技術(shù)所出現(xiàn)的關(guān)鍵技術(shù)較少。
2013年以后,人工智能在計(jì)算機(jī)視覺(jué)方面的技術(shù)發(fā)展得越來(lái)越成熟,大量的關(guān)鍵性技術(shù)涌現(xiàn)出來(lái)。比如Mobileye采用了人工智能識(shí)別算法,識(shí)別道路輪廓。百度也利用人工智能算法識(shí)別車道線。這些都對(duì)車輛行駛路徑的規(guī)劃提供了技術(shù)保障。福特、蘋(píng)果等也在算法領(lǐng)域進(jìn)行了各種探索。
在硬件設(shè)備領(lǐng)域,同樣出現(xiàn)了一批代表性技術(shù)。隨著傳感技術(shù)和算法的發(fā)展,智能網(wǎng)聯(lián)汽車獲得的數(shù)據(jù)越來(lái)越多,而車輛的操控具備及時(shí)性,這就要求處理器能在短時(shí)間內(nèi)處理大量的數(shù)據(jù)。
Mobileye在硬件系統(tǒng)方面做出了大量的嘗試,研發(fā)了多核多線程處理設(shè)備。從產(chǎn)品上來(lái)看,Mobileye也一直自主設(shè)計(jì)芯片,其擁有多代EyeQ芯片,芯片和算法的融合設(shè)計(jì)使得其計(jì)算能力得到了進(jìn)一步提升。其他的創(chuàng)新主體,比如法雷奧、東芝也在硬件設(shè)備的改造上進(jìn)行了嘗試。
國(guó)家知識(shí)產(chǎn)權(quán)局專利分析普及推廣項(xiàng)目人工智能關(guān)鍵技術(shù)課題組
來(lái)源:國(guó)家知識(shí)產(chǎn)權(quán)局微信
編輯:IPRdaily王穎 校對(duì):IPRdaily縱橫君
推薦閱讀(點(diǎn)擊圖文,閱讀全文)
官宣!2019全球知識(shí)產(chǎn)權(quán)生態(tài)大會(huì)(GIPC)即將來(lái)襲!
官宣!首屆“全球科技創(chuàng)新與知識(shí)產(chǎn)權(quán)總裁研修班”招生簡(jiǎn)章
“投稿”請(qǐng)投郵箱“iprdaily@163.com”
「關(guān)于IPRdaily」
IPRdaily成立于2014年,是全球影響力的知識(shí)產(chǎn)權(quán)媒體+產(chǎn)業(yè)服務(wù)平臺(tái),致力于連接全球知識(shí)產(chǎn)權(quán)人,用戶匯聚了中國(guó)、美國(guó)、德國(guó)、俄羅斯、以色列、澳大利亞、新加坡、日本、韓國(guó)等15個(gè)國(guó)家和地區(qū)的高科技公司、成長(zhǎng)型科技企業(yè)IP高管、研發(fā)人員、法務(wù)、政府機(jī)構(gòu)、律所、事務(wù)所、科研院校等全球近50多萬(wàn)產(chǎn)業(yè)用戶(國(guó)內(nèi)25萬(wàn)+海外30萬(wàn));同時(shí)擁有近百萬(wàn)條高質(zhì)量的技術(shù)資源+專利資源,通過(guò)媒體構(gòu)建全球知識(shí)產(chǎn)權(quán)資產(chǎn)信息第一入口。2016年獲啟賦資本領(lǐng)投和天使匯跟投的Pre-A輪融資。
(英文官網(wǎng):iprdaily.com 中文官網(wǎng):iprdaily.cn)
本文來(lái)自國(guó)家知識(shí)產(chǎn)權(quán)局微信并經(jīng)IPRdaily.cn中文網(wǎng)編輯。轉(zhuǎn)載此文章須經(jīng)權(quán)利人同意,并附上出處與作者信息。文章不代表IPRdaily.cn立場(chǎng),如若轉(zhuǎn)載,請(qǐng)注明出處:“http://jupyterflow.com/”
文章不錯(cuò),犒勞下辛苦的作者吧