#本文僅代表作者觀點,不代表IPRdaily立場,未經作者許可,禁止轉載#
“基于專利關聯度分析的專利地圖有其特定價值,專利分析不是固定的模板,不是固定的標準,通過方法改進結論是一個有趣的過程?!?br/>
來源:IPRdaily中文網(iprdaily.cn)
作者:閆文龍
段曉玲 蘇州京昀知識產權代理事務所
PART 01
背景
“專利地圖”是將多件專利投射到二維空間的形象名稱,每件專利在二維空間的絕對坐標可以不具有實際含義,但彼此之間的位置關系應該與專利之間的關系特征存在關聯。因此作者認為按照一維方向展開的柱狀圖、二維方向展開的氣泡圖、以及具有時間序列屬性的趨勢圖,甚至將地區(qū)申請量投射到世界地圖的地區(qū)熱力圖不符合上述“專利地圖”的定義。
目前為止,專利與二維空間的映射主要基于專利之間的關聯度信息創(chuàng)建,專利之間的距離是專利之間關聯度的函數。專利在二維空間中形成具有不同密度的區(qū)域分布,一個區(qū)域內的專利可以具有相同的技術主題,不同區(qū)域的專利密度表征技術熱度。技術主題可以通過人工概括或利用算法抽取的方式得到。
基于專利關聯度的專利地圖相對于傳統的柱狀圖實現存在如下挑戰(zhàn):
a.實現更復雜。
b.通常需要對原始數據進行預處理,實現過程中還需根據技術領域進行人工干預。
c.需要熟悉數據挖掘技術和工具。
d.了解專利數據與科技文獻、文學作品之間的差異,及其對數據挖掘技術造成的影響。
盡管如此,基于專利關聯度的專利地圖仍具有其他分析方法所無法比擬的優(yōu)勢:
a.從多維度展現專利之間的關系。
基于柱狀圖的分析需要對專利進行一維歸類,本質相當于將每個專利放入對應的封閉抽屜,一旦放入就再無法體現抽屜之間的關聯。
例如柱狀圖中橫坐標軸可以采用技術環(huán)節(jié)分類展開,如器件類,量測標定,軟件算法,驅動電路等,不同的分類之間的關聯被完全忽略。而在產品研發(fā)過程中,針對同一問題會有多個環(huán)節(jié)的部門共同參與討論,確認問題可能的原因有哪些,通常情況下,問題可能是多個環(huán)節(jié)共同作用的結果,例如需要器件方面、量測標定方面、軟件算法方面、驅動電路方面分別做出各自的改進,才能使得問題得到徹底解決。相應輸出的專利中,同一個技術問題往往具有不同技術環(huán)節(jié)的專利方案。這類相關性信息無法通過柱狀圖體現。
當然二維氣泡圖可以實現兩個維度(如技術環(huán)節(jié)和技術問題)交叉點上的專利數量統計,但無法進一步展開交叉點氣泡內的專利之間的關聯度和差異大小,因此其結果仍然是相對粗糙的。
b.作為統計圖表和專利全文展示之間的過渡
目前我們所熟知的專利分析框架中,第一部分是專利宏觀分析,包含趨勢、技術、主體類的分析,分析類型包括時間序列分析(如申請趨勢)、類別比較分析(如技術分布柱狀圖/雷達圖/餅狀圖、專利申請主體和發(fā)明人主體柱狀圖)、地理空間分析(如世界各區(qū)域專利申請熱力圖、同一國家內各區(qū)域申請熱力圖)、層次關系分析(如技術分類魚骨圖/樹狀圖/旭日圖)。這部分的特點是“宏觀”,如果宏觀結論是已知的,又或者宏觀結論受外在環(huán)境影響而與實際產業(yè)發(fā)展情況不符,都會影響其實際價值,但這一部分在數據處理和標引所投入的時間和人力成本往往是最大的,為此需要進一步挖掘宏觀分析輸出數據的利用價值。
第二部分是微觀分析,涉及選取至少一個子主題、篩選業(yè)界關鍵/基礎專利或使用對象更關注的專利作為數據集,進行第二輪精細閱讀和分析。微觀分析是聚焦思想、和分階段項目推進理念的體現,也是有限時間預算內輸出可用結論的現實選擇。這一部分的輸出盡管有技術路線圖等圖表的輔助,但最終仍然無法省略對專利全文或部分實現細節(jié)的展示。實際上,微觀分析目前證明切實有用的部分仍然是“展示全文”。
由此可見,宏觀分析和微觀分析在分析方法、結論、和展現形式方面存在巨大的差別,二者能夠被讀懂的對象群體完全不同,前者偏向技術管理人員,后者傾向技術實現人員。產品的成功離不開管理和實現的密切配合和相互了解,相應地,專利分析報告中的宏觀分析和微觀分析應該力求可以讓兩類人群都感興趣。專利關聯度分析的專利地圖可以在宏觀分析和微觀分析之間架起一座橋梁,讓報告使用者更容易理解報告的全部內容。
PART 02
專利關聯度模型
本文采用的專利關聯度模型分為三類:
1.基于多維分類的專利關聯度模型;
2.基于文本的專利關聯度模型;
3.將1和2疊加的專利關聯度模型。
PART 03
基于多維分類的專利關聯度模型
在沒有文本挖掘技術基礎,或者沒有高質量專利文本數據的情況下,基于多維分類的專利關聯度模型是一個不錯的選擇,其與目前的“宏觀分析”工作相兼容,幾乎無需額外數據加工工作,并且當多維分類標引由人工給出時,基于其進行計算的專利關聯度結果準確性也更高。
這里定義基于多維分類的專利關聯度Sc如下式
(公式1)
ki為第i個維度近似度占總的專利關聯度Sc的權重系數,Si為專利之間在第i個維度上的近似度,由專利之間在第i個維度的分類計算得出 。
以下圖示出的分類框架為例,每件專利至少從四個維度進行分類,包括技術領域,技術分類,技術問題和技術環(huán)節(jié)等。每個維度進一步以樹形結構形成相應的分類結構。對每件專利進行分類的策略是:盡量分到樹形結構中靠近葉子節(jié)點對應的類別,除非專利涵蓋多個節(jié)點對應的類別,這時可以賦予對應的多個分類,也可以賦予其共同的父節(jié)點對應的分類,例如一件專利的技術方案同時適用于快門式眼鏡和偏振眼鏡式3D產品,則可以將其技術分類賦予父節(jié)點對應的分類“眼鏡式3D”。
接下來將分類框架中的描述型文字轉換為代碼類型的標識,以方便后續(xù)定量計算。
如下圖所示,將四個分類維度對應的代碼分別為F,T,P和S。每個維度下的樹形分類結構的描述型文字及其對應的代碼如每個方框中的第一行和第二行文本所示。例如領域A1對應分類代碼F11。分類代碼的格式應與其樹形分類框架存在對應。如本文中的分類代碼通過字符串中從左到右逐位表示各層的分類標識。例如F111對應技術領域的第三層節(jié)點,其是第二層節(jié)點F11的一個子節(jié)點,而節(jié)點F11又是第一層節(jié)點F1的一個子節(jié)點,F11和F12是兄弟節(jié)點。
下面確定節(jié)點之間的近似度計算方法,即基于分類結果確定兩兩專利在每個維度上的近似度。
本文中定義同一維度內節(jié)點之間近似度為:(節(jié)點向上最近的共同父節(jié)點所在的層數)/(兩個節(jié)點所在層數的最大值)。
例如領域A11和領域A2節(jié)點之間的近似度可以定義為:2/3。本文將分類代碼的每一位含義定義為分類框架樹形結構完全對應,因此可以通過字符串逐位比對,計算上述近似度,以簡化實現邏輯。
簡化后的近似度計算公式為:(兩個節(jié)點代碼之間從左側第一位字符開始連續(xù)匹配的數量)/(兩個節(jié)點代碼長度的最大值)。
示例如下圖所示,左側的專利在四個維度的分類代碼分別為F111,T11,P1和S1,右側的專利在四個維度的分類代碼分別為F12,T12,P1和S2。需要說明的是,分類代碼中的第一位表示僅用于提示的維度信息,計算近似度時應忽略。由此不斷得出,左右兩個專利在F代表的維度的近似度=1/3,在T代表的維度的近似度=1/2,在P代表的維度的近似度=1/1,在S代表的維度的近似度=0/1。
通過上述過程確定各個維度的近似度后,可以代入公式1計算兩兩專利之間總的關聯度Sc。
當一件專利在同一個維度賦予多個分類時,兩兩專利之間在該維度上的近似度計算從兩個分類之間的近似度計算,擴展為兩個分類集合之間的近似度計算問題。本文采用的方案是將兩個專利的分類集合中的元素兩兩計算近似度,以最大的近似度數值作為兩個專利之間的近似度。
PART 04
專利地圖-基于專利關聯度的可視化
為了便于了解專利關聯度在專利可視化中的應用,在介紹其他兩類專利關聯度模型之前,首先提供基于多維分類的專利關聯度進行可視化的示例結果,如下圖所示。
實驗條件如下:
a.輸入:帶有多維分類代碼結果的專利清單Excel文件,編寫VBA函數計算兩兩專利之間的關聯度。
b.工具支撐:本地網頁文件嵌入Javascript,導入Excel數據,完成數據預處理;嵌入Echarts組件,以專利數據作為節(jié)點,以關聯度數據做為節(jié)點之間的連接屬性,創(chuàng)建力導圖進行顯示。
c.主題提?。?/strong>人工完成,預覽各個簇內部的專利摘要,確定各個簇的專利主題。
上述實現條件借助Excel+Javascript+Echarts的工具組合可以實現數據量小于300條以內的專利地圖繪制,超過300條以上的數據集,建議更換為后文將介紹的R語言進行處理和可視化,否則可能出現渲染不成功的現象。
PART 05
基于專利IPC分類號計算專利近似度的陷阱
采用專利自有的IPC分類號作為上述模型中的分類代碼輸入,看起來可以省去人工標引的工作量,尤其專利數據量非常龐大的情況,但是需要正視如下問題:
a.專利IPC分類與產業(yè)界或報告使用者認同的分類體系有一定差異。
b.專利IPC分類號(即便同級別分類)之間存在涵義重疊問題,不能夠完全區(qū)分某些技術的多個技術分支。
c.專利IPC分類號整體上屬于一個維度的分類,無法映射多個維度的分類信息。
d.專利IPC分類號小組層面的樹形結構分類體系依托于分類號中的“."點符號的層級構建,而不是IPC分類號的號碼格式,因此無法直接使用本文中提到的字符串匹配方式計算近似度,仍需要根據小組內的樹形結構分類構建一套直接對應的分類代碼體系,考慮到前三點的問題,這類重建工作所耗費的精力未必有價值。
e.某些專利的IPC分類號不是很準。
因此,作者不推薦直接或間接使用IPC分類號計算專利之間近似度。
PART 06
基于文本的專利關聯度模型
基于文本的專利關聯度計算是將文本挖掘技術轉用到專利分析領域的產物。
文本挖掘是從文本數據中抽取有價值的信息和知識的計算機處理技術,是自然語言處理(NLP)的熱門話題?;谖谋就诰蚶缈梢苑治鑫恼碌那楦行畔?、確認文章之間的相關性、對文章進行分類。計算文章之間的相關性的主要處理流程如下:
S1.對文章分詞,統計詞頻。
S2.去掉停用詞,以避免無實際含義的虛詞,連詞等對后續(xù)計算結果造成不利影響。
S3.利用文章的詞頻數據通過Pearson公式等相關性公式計算進文章之間的相關性。
S4.基于相關性數據進行可視化。
將文章替換為專利的文本數據,即可實現基于文本的專利關聯度計算。
由于R語言提供了豐富的文本挖掘工具包和完善的數據可視化工具包,作者建議在R語言環(huán)境下完成一站式專利文本導入、專利關聯度計算、以及力導圖渲染。
下圖是實際的一個算例。
基于文本的專利關聯度計算強烈依賴專利的文本特征,為此需要了解專利文本與常見的文章類文本之間的不同,以及對關聯度計算造成的影響,尤其是為了提升效率,只將專利摘要或權利要求作為專利文本參與計算的情況。
a.專利摘要,權利要求的語言抽象,部分詞匯含義需結合說明書上下文或附圖方可理解,與自然語言中的通常含義存在差別。
b.專利權利要求中的語言有上下位關系,而基于詞頻統計的專利近似度計算,無法識別上位詞匯和下位詞匯之間的關系,這使得上位專利和下位專利之間的關聯度計算不準確。
以上兩點可以看出需要重寫摘要的必要性,一方面實現統一的術語表述,另一方面將下位概念的列舉補入重寫的摘要中,當然也可以補入技術問題技術效果的描述。
c.文本挖掘技術中通用的停用詞集合,對于具體主題的專利分析是不夠用的。還需結合專利的檢索式,專利的詞頻統計結果增加一些額外的停用詞,例如檢索式中的關鍵詞、本主題專利普遍攜帶的詞匯(如“顯示”,“設備”“方法”……)。在實際操作中,停用詞的增補需要根據具體主題的專利實際情況進行人工干預,類似一種“調試”操作。
PART 07
基于多維分類和文本的專利關聯度模型
考慮基于多維分類和文本的兩種關聯度模型可以優(yōu)勢互補,在實際中可以將二者采用線性加權求和方式計算綜合專利關聯度信息。
以下是該方法的實際算例。
代碼下載
本文算例示例代碼已通過Gitee平臺開源,訪問鏈接如下:
https://gitee.com/yanwenlongair/patent-analysis-r
PART 08
小結
綜上,基于專利關聯度分析的專利地圖有其特定價值,專利分析不是固定的模板,不是固定的標準,通過方法改進結論是一個有趣的過程。目前的方法顯然不是專利分析的終點。
(原標題:專利關聯度模型及應用)
來源:IPRdaily中文網(iprdaily.cn)
作者:閆文龍 段曉玲
編輯:IPRdaily辛夷 校對:IPRdaily縱橫君
注:原文鏈接:專利關聯度模型及應用(點擊標題查看原文)
「關于IPRdaily」
IPRdaily是全球領先的知識產權綜合信息服務提供商,致力于連接全球知識產權與科技創(chuàng)新人才。匯聚了來自于中國、美國、歐洲、俄羅斯、以色列、澳大利亞、新加坡、日本、韓國等15個國家和地區(qū)的高科技公司及成長型科技企業(yè)的管理者及科技研發(fā)或知識產權負責人,還有來自政府、律師及代理事務所、研發(fā)或服務機構的全球近100萬用戶(國內70余萬+海外近30萬),2019年全年全網頁面瀏覽量已經突破過億次傳播。
(英文官網:iprdaily.com 中文官網:iprdaily.cn)
本文來自IPRdaily中文網(iprdaily.cn)并經IPRdaily.cn中文網編輯。轉載此文章須經權利人同意,并附上出處與作者信息。文章不代表IPRdaily.cn立場,如若轉載,請注明出處:“http://jupyterflow.com
文章不錯,犒勞下辛苦的作者吧