返回
頂部
我們已發(fā)送驗證鏈接到您的郵箱,請查收并驗證
沒收到驗證郵件?請確認郵箱是否正確或 重新發(fā)送郵件
確定
產(chǎn)業(yè)行業(yè)政策訴訟TOP100招聘灣區(qū)IP動態(tài)職場人物國際視野許可交易深度專題活動商標版權Oversea晨報董圖產(chǎn)品公司審查員說法官說首席知識產(chǎn)權官G40領袖機構企業(yè)專利大洋洲律所

專利關聯(lián)度模型及應用

專利
納暮5個月前
專利關聯(lián)度模型及應用

#本文僅代表作者觀點,不代表IPRdaily立場,未經(jīng)作者許可,禁止轉(zhuǎn)載#


“基于專利關聯(lián)度分析的專利地圖有其特定價值,專利分析不是固定的模板,不是固定的標準,通過方法改進結(jié)論是一個有趣的過程?!?br/>


來源:IPRdaily中文網(wǎng)(iprdaily.cn)

作者:閆文龍

段曉玲 蘇州京昀知識產(chǎn)權代理事務所


專利關聯(lián)度模型及應用


PART 01
背景


“專利地圖”是將多件專利投射到二維空間的形象名稱,每件專利在二維空間的絕對坐標可以不具有實際含義,但彼此之間的位置關系應該與專利之間的關系特征存在關聯(lián)。因此作者認為按照一維方向展開的柱狀圖、二維方向展開的氣泡圖、以及具有時間序列屬性的趨勢圖,甚至將地區(qū)申請量投射到世界地圖的地區(qū)熱力圖不符合上述“專利地圖”的定義。

目前為止,專利與二維空間的映射主要基于專利之間的關聯(lián)度信息創(chuàng)建,專利之間的距離是專利之間關聯(lián)度的函數(shù)。專利在二維空間中形成具有不同密度的區(qū)域分布,一個區(qū)域內(nèi)的專利可以具有相同的技術主題,不同區(qū)域的專利密度表征技術熱度。技術主題可以通過人工概括或利用算法抽取的方式得到。


基于專利關聯(lián)度的專利地圖相對于傳統(tǒng)的柱狀圖實現(xiàn)存在如下挑戰(zhàn):


a.實現(xiàn)更復雜。

b.通常需要對原始數(shù)據(jù)進行預處理,實現(xiàn)過程中還需根據(jù)技術領域進行人工干預。

c.需要熟悉數(shù)據(jù)挖掘技術和工具。

d.了解專利數(shù)據(jù)與科技文獻、文學作品之間的差異,及其對數(shù)據(jù)挖掘技術造成的影響。

盡管如此,基于專利關聯(lián)度的專利地圖仍具有其他分析方法所無法比擬的優(yōu)勢:

a.從多維度展現(xiàn)專利之間的關系。

基于柱狀圖的分析需要對專利進行一維歸類,本質(zhì)相當于將每個專利放入對應的封閉抽屜,一旦放入就再無法體現(xiàn)抽屜之間的關聯(lián)。

例如柱狀圖中橫坐標軸可以采用技術環(huán)節(jié)分類展開,如器件類,量測標定,軟件算法,驅(qū)動電路等,不同的分類之間的關聯(lián)被完全忽略。而在產(chǎn)品研發(fā)過程中,針對同一問題會有多個環(huán)節(jié)的部門共同參與討論,確認問題可能的原因有哪些,通常情況下,問題可能是多個環(huán)節(jié)共同作用的結(jié)果,例如需要器件方面、量測標定方面、軟件算法方面、驅(qū)動電路方面分別做出各自的改進,才能使得問題得到徹底解決。相應輸出的專利中,同一個技術問題往往具有不同技術環(huán)節(jié)的專利方案。這類相關性信息無法通過柱狀圖體現(xiàn)。

當然二維氣泡圖可以實現(xiàn)兩個維度(如技術環(huán)節(jié)和技術問題)交叉點上的專利數(shù)量統(tǒng)計,但無法進一步展開交叉點氣泡內(nèi)的專利之間的關聯(lián)度和差異大小,因此其結(jié)果仍然是相對粗糙的。

b.作為統(tǒng)計圖表和專利全文展示之間的過渡

目前我們所熟知的專利分析框架中,第一部分是專利宏觀分析,包含趨勢、技術、主體類的分析,分析類型包括時間序列分析(如申請趨勢)、類別比較分析(如技術分布柱狀圖/雷達圖/餅狀圖、專利申請主體和發(fā)明人主體柱狀圖)、地理空間分析(如世界各區(qū)域?qū)@暾垷崃D、同一國家內(nèi)各區(qū)域申請熱力圖)、層次關系分析(如技術分類魚骨圖/樹狀圖/旭日圖)。這部分的特點是“宏觀”,如果宏觀結(jié)論是已知的,又或者宏觀結(jié)論受外在環(huán)境影響而與實際產(chǎn)業(yè)發(fā)展情況不符,都會影響其實際價值,但這一部分在數(shù)據(jù)處理和標引所投入的時間和人力成本往往是最大的,為此需要進一步挖掘宏觀分析輸出數(shù)據(jù)的利用價值。

第二部分是微觀分析,涉及選取至少一個子主題、篩選業(yè)界關鍵/基礎專利或使用對象更關注的專利作為數(shù)據(jù)集,進行第二輪精細閱讀和分析。微觀分析是聚焦思想、和分階段項目推進理念的體現(xiàn),也是有限時間預算內(nèi)輸出可用結(jié)論的現(xiàn)實選擇。這一部分的輸出盡管有技術路線圖等圖表的輔助,但最終仍然無法省略對專利全文或部分實現(xiàn)細節(jié)的展示。實際上,微觀分析目前證明切實有用的部分仍然是“展示全文”。

由此可見,宏觀分析和微觀分析在分析方法、結(jié)論、和展現(xiàn)形式方面存在巨大的差別,二者能夠被讀懂的對象群體完全不同,前者偏向技術管理人員,后者傾向技術實現(xiàn)人員。產(chǎn)品的成功離不開管理和實現(xiàn)的密切配合和相互了解,相應地,專利分析報告中的宏觀分析和微觀分析應該力求可以讓兩類人群都感興趣。專利關聯(lián)度分析的專利地圖可以在宏觀分析和微觀分析之間架起一座橋梁,讓報告使用者更容易理解報告的全部內(nèi)容。


PART 02

專利關聯(lián)度模型


本文采用的專利關聯(lián)度模型分為三類:


1.基于多維分類的專利關聯(lián)度模型;
2.基于文本的專利關聯(lián)度模型;
3.將1和2疊加的專利關聯(lián)度模型。


PART 03
基于多維分類的專利關聯(lián)度模型


在沒有文本挖掘技術基礎,或者沒有高質(zhì)量專利文本數(shù)據(jù)的情況下,基于多維分類的專利關聯(lián)度模型是一個不錯的選擇,其與目前的“宏觀分析”工作相兼容,幾乎無需額外數(shù)據(jù)加工工作,并且當多維分類標引由人工給出時,基于其進行計算的專利關聯(lián)度結(jié)果準確性也更高。

這里定義基于多維分類的專利關聯(lián)度Sc如下式


專利關聯(lián)度模型及應用

(公式1)


ki為第i個維度近似度占總的專利關聯(lián)度Sc的權重系數(shù),Si為專利之間在第i個維度上的近似度,由專利之間在第i個維度的分類計算得出 。


以下圖示出的分類框架為例,每件專利至少從四個維度進行分類,包括技術領域,技術分類,技術問題和技術環(huán)節(jié)等。每個維度進一步以樹形結(jié)構形成相應的分類結(jié)構。對每件專利進行分類的策略是:盡量分到樹形結(jié)構中靠近葉子節(jié)點對應的類別,除非專利涵蓋多個節(jié)點對應的類別,這時可以賦予對應的多個分類,也可以賦予其共同的父節(jié)點對應的分類,例如一件專利的技術方案同時適用于快門式眼鏡和偏振眼鏡式3D產(chǎn)品,則可以將其技術分類賦予父節(jié)點對應的分類“眼鏡式3D”。


專利關聯(lián)度模型及應用


接下來將分類框架中的描述型文字轉(zhuǎn)換為代碼類型的標識,以方便后續(xù)定量計算。

如下圖所示,將四個分類維度對應的代碼分別為F,T,P和S。每個維度下的樹形分類結(jié)構的描述型文字及其對應的代碼如每個方框中的第一行和第二行文本所示。例如領域A1對應分類代碼F11。分類代碼的格式應與其樹形分類框架存在對應。如本文中的分類代碼通過字符串中從左到右逐位表示各層的分類標識。例如F111對應技術領域的第三層節(jié)點,其是第二層節(jié)點F11的一個子節(jié)點,而節(jié)點F11又是第一層節(jié)點F1的一個子節(jié)點,F(xiàn)11和F12是兄弟節(jié)點。


專利關聯(lián)度模型及應用


下面確定節(jié)點之間的近似度計算方法,即基于分類結(jié)果確定兩兩專利在每個維度上的近似度。

本文中定義同一維度內(nèi)節(jié)點之間近似度為:(節(jié)點向上最近的共同父節(jié)點所在的層數(shù))/(兩個節(jié)點所在層數(shù)的最大值)。

例如領域A11和領域A2節(jié)點之間的近似度可以定義為:2/3。本文將分類代碼的每一位含義定義為分類框架樹形結(jié)構完全對應,因此可以通過字符串逐位比對,計算上述近似度,以簡化實現(xiàn)邏輯。

簡化后的近似度計算公式為:(兩個節(jié)點代碼之間從左側(cè)第一位字符開始連續(xù)匹配的數(shù)量)/(兩個節(jié)點代碼長度的最大值)。

示例如下圖所示,左側(cè)的專利在四個維度的分類代碼分別為F111,T11,P1和S1,右側(cè)的專利在四個維度的分類代碼分別為F12,T12,P1和S2。需要說明的是,分類代碼中的第一位表示僅用于提示的維度信息,計算近似度時應忽略。由此不斷得出,左右兩個專利在F代表的維度的近似度=1/3,在T代表的維度的近似度=1/2,在P代表的維度的近似度=1/1,在S代表的維度的近似度=0/1。


專利關聯(lián)度模型及應用


通過上述過程確定各個維度的近似度后,可以代入公式1計算兩兩專利之間總的關聯(lián)度Sc。

當一件專利在同一個維度賦予多個分類時,兩兩專利之間在該維度上的近似度計算從兩個分類之間的近似度計算,擴展為兩個分類集合之間的近似度計算問題。本文采用的方案是將兩個專利的分類集合中的元素兩兩計算近似度,以最大的近似度數(shù)值作為兩個專利之間的近似度。


PART 04
專利地圖-基于專利關聯(lián)度的可視化


為了便于了解專利關聯(lián)度在專利可視化中的應用,在介紹其他兩類專利關聯(lián)度模型之前,首先提供基于多維分類的專利關聯(lián)度進行可視化的示例結(jié)果,如下圖所示。

實驗條件如下:

a.輸入:帶有多維分類代碼結(jié)果的專利清單Excel文件,編寫VBA函數(shù)計算兩兩專利之間的關聯(lián)度。

b.工具支撐:本地網(wǎng)頁文件嵌入Javascript,導入Excel數(shù)據(jù),完成數(shù)據(jù)預處理;嵌入Echarts組件,以專利數(shù)據(jù)作為節(jié)點,以關聯(lián)度數(shù)據(jù)做為節(jié)點之間的連接屬性,創(chuàng)建力導圖進行顯示。

c.主題提?。?/strong>人工完成,預覽各個簇內(nèi)部的專利摘要,確定各個簇的專利主題。

上述實現(xiàn)條件借助Excel+Javascript+Echarts的工具組合可以實現(xiàn)數(shù)據(jù)量小于300條以內(nèi)的專利地圖繪制,超過300條以上的數(shù)據(jù)集,建議更換為后文將介紹的R語言進行處理和可視化,否則可能出現(xiàn)渲染不成功的現(xiàn)象。


專利關聯(lián)度模型及應用


PART 05

基于專利IPC分類號計算專利近似度的陷阱


采用專利自有的IPC分類號作為上述模型中的分類代碼輸入,看起來可以省去人工標引的工作量,尤其專利數(shù)據(jù)量非常龐大的情況,但是需要正視如下問題:

a.專利IPC分類與產(chǎn)業(yè)界或報告使用者認同的分類體系有一定差異。

b.專利IPC分類號(即便同級別分類)之間存在涵義重疊問題,不能夠完全區(qū)分某些技術的多個技術分支。

c.專利IPC分類號整體上屬于一個維度的分類,無法映射多個維度的分類信息。

d.專利IPC分類號小組層面的樹形結(jié)構分類體系依托于分類號中的“."點符號的層級構建,而不是IPC分類號的號碼格式,因此無法直接使用本文中提到的字符串匹配方式計算近似度,仍需要根據(jù)小組內(nèi)的樹形結(jié)構分類構建一套直接對應的分類代碼體系,考慮到前三點的問題,這類重建工作所耗費的精力未必有價值。

e.某些專利的IPC分類號不是很準。

因此,作者不推薦直接或間接使用IPC分類號計算專利之間近似度。


PART 06
基于文本的專利關聯(lián)度模型


基于文本的專利關聯(lián)度計算是將文本挖掘技術轉(zhuǎn)用到專利分析領域的產(chǎn)物。


文本挖掘是從文本數(shù)據(jù)中抽取有價值的信息和知識的計算機處理技術,是自然語言處理(NLP)的熱門話題?;谖谋就诰蚶缈梢苑治鑫恼碌那楦行畔?、確認文章之間的相關性、對文章進行分類。計算文章之間的相關性的主要處理流程如下:

S1.對文章分詞,統(tǒng)計詞頻。

S2.去掉停用詞,以避免無實際含義的虛詞,連詞等對后續(xù)計算結(jié)果造成不利影響。

S3.利用文章的詞頻數(shù)據(jù)通過Pearson公式等相關性公式計算進文章之間的相關性。

S4.基于相關性數(shù)據(jù)進行可視化。

將文章替換為專利的文本數(shù)據(jù),即可實現(xiàn)基于文本的專利關聯(lián)度計算。

由于R語言提供了豐富的文本挖掘工具包和完善的數(shù)據(jù)可視化工具包,作者建議在R語言環(huán)境下完成一站式專利文本導入、專利關聯(lián)度計算、以及力導圖渲染。

下圖是實際的一個算例。


專利關聯(lián)度模型及應用


基于文本的專利關聯(lián)度計算強烈依賴專利的文本特征,為此需要了解專利文本與常見的文章類文本之間的不同,以及對關聯(lián)度計算造成的影響,尤其是為了提升效率,只將專利摘要或權利要求作為專利文本參與計算的情況。

a.專利摘要,權利要求的語言抽象,部分詞匯含義需結(jié)合說明書上下文或附圖方可理解,與自然語言中的通常含義存在差別。

b.專利權利要求中的語言有上下位關系,而基于詞頻統(tǒng)計的專利近似度計算,無法識別上位詞匯和下位詞匯之間的關系,這使得上位專利和下位專利之間的關聯(lián)度計算不準確。

以上兩點可以看出需要重寫摘要的必要性,一方面實現(xiàn)統(tǒng)一的術語表述,另一方面將下位概念的列舉補入重寫的摘要中,當然也可以補入技術問題技術效果的描述。

c.文本挖掘技術中通用的停用詞集合,對于具體主題的專利分析是不夠用的。還需結(jié)合專利的檢索式,專利的詞頻統(tǒng)計結(jié)果增加一些額外的停用詞,例如檢索式中的關鍵詞、本主題專利普遍攜帶的詞匯(如“顯示”,“設備”“方法”……)。在實際操作中,停用詞的增補需要根據(jù)具體主題的專利實際情況進行人工干預,類似一種“調(diào)試”操作。


PART 07

基于多維分類和文本的專利關聯(lián)度模型


考慮基于多維分類和文本的兩種關聯(lián)度模型可以優(yōu)勢互補,在實際中可以將二者采用線性加權求和方式計算綜合專利關聯(lián)度信息。

以下是該方法的實際算例。


專利關聯(lián)度模型及應用


代碼下載
本文算例示例代碼已通過Gitee平臺開源,訪問鏈接如下:
https://gitee.com/yanwenlongair/patent-analysis-r


PART 08
小結(jié)


綜上,基于專利關聯(lián)度分析的專利地圖有其特定價值,專利分析不是固定的模板,不是固定的標準,通過方法改進結(jié)論是一個有趣的過程。目前的方法顯然不是專利分析的終點。


(原標題:專利關聯(lián)度模型及應用)


來源:IPRdaily中文網(wǎng)(iprdaily.cn)

作者:閆文龍 段曉玲

編輯:IPRdaily辛夷          校對:IPRdaily縱橫君


注:原文鏈接專利關聯(lián)度模型及應用點擊標題查看原文)


專利關聯(lián)度模型及應用

「關于IPRdaily」


IPRdaily是全球領先的知識產(chǎn)權綜合信息服務提供商,致力于連接全球知識產(chǎn)權與科技創(chuàng)新人才。匯聚了來自于中國、美國、歐洲、俄羅斯、以色列、澳大利亞、新加坡、日本、韓國等15個國家和地區(qū)的高科技公司及成長型科技企業(yè)的管理者及科技研發(fā)或知識產(chǎn)權負責人,還有來自政府、律師及代理事務所、研發(fā)或服務機構的全球近100萬用戶(國內(nèi)70余萬+海外近30萬),2019年全年全網(wǎng)頁面瀏覽量已經(jīng)突破過億次傳播。


(英文官網(wǎng):iprdaily.com  中文官網(wǎng):iprdaily.cn) 


本文來IPRdaily中文網(wǎng)(iprdaily.cn)并經(jīng)IPRdaily.cn中文網(wǎng)編輯。轉(zhuǎn)載此文章須經(jīng)權利人同意,并附上出處與作者信息。文章不代表IPRdaily.cn立場,如若轉(zhuǎn)載,請注明出處:“http://jupyterflow.com

納暮投稿作者
共發(fā)表文章3824
最近文章
關鍵詞
首席知識產(chǎn)權官 世界知識產(chǎn)權日 美國專利訴訟管理策略 大數(shù)據(jù) 軟件著作權登記 專利商標 商標注冊人 人工智能 版權登記代理 如何快速獲得美國專利授權? 材料科學 申請注冊商標 軟件著作權 虛擬現(xiàn)實與增強現(xiàn)實 專利侵權糾紛行政處理 專利預警 知識產(chǎn)權 全球視野 中國商標 版權保護中心 智能硬件 新材料 新一代信息技術產(chǎn)業(yè) 躲過商標轉(zhuǎn)讓的陷阱 航空航天裝備 樂天 產(chǎn)業(yè) 海洋工程裝備及高技術船舶 著作權 電子版權 醫(yī)藥及高性能醫(yī)療器械 中國專利年報 游戲動漫 條例 國際專利 商標 實用新型專利 專利費用 專利管理 出版管理條例 版權商標 知識產(chǎn)權侵權 商標審查協(xié)作中心 法律和政策 企業(yè)商標布局 新商標審查「不規(guī)范漢字」審理標準 專利機構排名 商標分類 專利檢索 申請商標注冊 法規(guī) 行業(yè) 法律常識 設計專利 2016知識產(chǎn)權行業(yè)分析 發(fā)明專利申請 國家商標總局 電影版權 專利申請 香港知識產(chǎn)權 國防知識產(chǎn)權 國際版權交易 十件 版權 顧問 版權登記 發(fā)明專利 亞洲知識產(chǎn)權 版權歸屬 商標辦理 商標申請 美國專利局 ip 共享單車 一帶一路商標 融資 馳名商標保護 知識產(chǎn)權工程師 授權 音樂的版權 專利 商標數(shù)據(jù) 知識產(chǎn)權局 知識產(chǎn)權法 專利小白 商標是什么 商標注冊 知識產(chǎn)權網(wǎng) 中超 商標審查 維權 律所 專利代理人 知識產(chǎn)權案例 專利運營 現(xiàn)代產(chǎn)業(yè)
本文來自于iprdaily,永久保存地址為http://jupyterflow.com/article_37200.html,發(fā)布時間為2024-06-07 11:33:59

文章不錯,犒勞下辛苦的作者吧

    我也說兩句
    還可以輸入140個字
    我要評論
    回復
    還可以輸入 70 個字
    請選擇打賞金額