返回
頂部
我們已發(fā)送驗(yàn)證鏈接到您的郵箱,請查收并驗(yàn)證
沒收到驗(yàn)證郵件?請確認(rèn)郵箱是否正確或 重新發(fā)送郵件
確定
產(chǎn)業(yè)行業(yè)法院投稿訴訟招聘TOP100政策國際視野人物許可交易深度專題活動灣區(qū)IP動態(tài)職場商標(biāo)Oversea晨報(bào)董圖公司審查員說法官說首席知識產(chǎn)權(quán)官G40領(lǐng)袖機(jī)構(gòu)企業(yè)專利律所

人工智能、區(qū)塊鏈、圖靈測試....這些大數(shù)據(jù)熱詞,你真的都懂嗎?

國際視野
豆豆7年前
人工智能、區(qū)塊鏈、圖靈測試....這些大數(shù)據(jù)熱詞,你真的都懂嗎?

人工智能、區(qū)塊鏈、圖靈測試....這些大數(shù)據(jù)熱詞,你真的都懂嗎?

#文章僅代表作者觀點(diǎn),不代表IPRdaily立場#


原標(biāo)題:人工智能、區(qū)塊鏈、圖靈測試....這30個大數(shù)據(jù)熱詞你真的都懂嗎?


2017年,大數(shù)據(jù)產(chǎn)業(yè)依舊保持高速增長態(tài)勢,并從單一的技術(shù)概念逐漸轉(zhuǎn)化為新要素、新戰(zhàn)略、新思維。鑒別真假內(nèi)行的時候來了,你真的明白這些科技熱詞的意思嗎?小編為您挑選了這些和大數(shù)據(jù)相關(guān)的網(wǎng)絡(luò)熱詞,或許無實(shí)際用處僅有助談資。


AI人工智能 Artificial Intelligence


人工智能、區(qū)塊鏈、圖靈測試....這些大數(shù)據(jù)熱詞,你真的都懂嗎?


人工智能(Artificial Intelligence),英文縮寫為AI。它是研究、開發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)。


人工智能是計(jì)算機(jī)科學(xué)的一個分支,它企圖了解智能的實(shí)質(zhì),并生產(chǎn)出一種新的能以人類智能相似的方式做出反應(yīng)的智能機(jī)器,該領(lǐng)域的研究包括機(jī)器人、語言識別、圖像識別、自然語言處理和專家系統(tǒng)等。人工智能從誕生以來,理論和技術(shù)日益成熟,應(yīng)用領(lǐng)域也不斷擴(kuò)大,可以設(shè)想,未來人工智能帶來的科技產(chǎn)品,將會是人類智慧的“容器”。人工智能可以對人的意識、思維的信息過程的模擬。人工智能不是人的智能,但能像人那樣思考、也可能超過人的智能。


人工智能是一門極富挑戰(zhàn)性的科學(xué),從事這項(xiàng)工作的人必須懂得計(jì)算機(jī)知識,心理學(xué)和哲學(xué)。人工智能是包括十分廣泛的科學(xué),它由不同的領(lǐng)域組成,如機(jī)器學(xué)習(xí),計(jì)算機(jī)視覺等等,總的說來,人工智能研究的一個主要目標(biāo)是使機(jī)器能夠勝任一些通常需要人類智能才能完成的復(fù)雜工作。但不同的時代、不同的人對這種“復(fù)雜工作”的理解是不同的。2017年12月,人工智能入選“2017年度中國媒體十大流行語”。


區(qū)塊鏈


人工智能、區(qū)塊鏈、圖靈測試....這些大數(shù)據(jù)熱詞,你真的都懂嗎?


狹義來講,區(qū)塊鏈?zhǔn)且环N按照時間順序?qū)?shù)據(jù)區(qū)塊以順序相連的方式組合成的一 種鏈?zhǔn)綌?shù)據(jù)結(jié)構(gòu), 并以密碼學(xué)方式保證的不可篡改和不可偽造的分布式賬本。廣義來講,區(qū)塊鏈技術(shù)是利用塊鏈?zhǔn)綌?shù)據(jù)結(jié)構(gòu)來驗(yàn)證與存儲數(shù)據(jù)、利用分布式節(jié)點(diǎn)共識算法來生成和更新數(shù)據(jù)、利用密碼學(xué)的方式保證數(shù)據(jù)傳輸和訪問的安全、利用由自動化腳本代碼組成的智能合約來編程和操作數(shù)據(jù)的一種全新的分布式基礎(chǔ)架構(gòu)與計(jì)算范式。


圖靈測試 The Turing test


人工智能、區(qū)塊鏈、圖靈測試....這些大數(shù)據(jù)熱詞,你真的都懂嗎?


圖靈測試(The Turing test)由艾倫·麥席森·圖靈發(fā)明,指測試者與被測試者(一個人和一臺機(jī)器)隔開的情況下,通過一些裝置(如鍵盤)向被測試者隨意提問。


進(jìn)行多次測試后,如果有超過30%的測試者不能確定出被測試者是人還是機(jī)器,那么這臺機(jī)器就通過了測試,并被認(rèn)為具有人類智能。圖靈測試一詞來源于計(jì)算機(jī)科學(xué)和密碼學(xué)的先驅(qū)阿蘭·麥席森·圖靈寫于1950年的一篇論文《計(jì)算機(jī)器與智能》,其中30%是圖靈對2000年時的機(jī)器思考能力的一個預(yù)測,目前我們已遠(yuǎn)遠(yuǎn)落后于這個預(yù)測。


回歸分析 regression analysis


人工智能、區(qū)塊鏈、圖靈測試....這些大數(shù)據(jù)熱詞,你真的都懂嗎?


回歸分析(regression analysis)是確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計(jì)分析方法。運(yùn)用十分廣泛,回歸分析按照涉及的變量的多少,分為一元回歸和多元回歸分析;按照因變量的多少,可分為簡單回歸分析和多重回歸分析;按照自變量和因變量之間的關(guān)系類型,可分為線性回歸分析和非線性回歸分析。如果在回歸分析中,只包括一個自變量和一個因變量,且二者的關(guān)系可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。如果回歸分析中包括兩個或兩個以上的自變量,且自變量之間存在線性相關(guān),則稱為多重線性回歸分析。


MapReduce


人工智能、區(qū)塊鏈、圖靈測試....這些大數(shù)據(jù)熱詞,你真的都懂嗎?


MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運(yùn)算。概念"Map(映射)"和"Reduce(歸約)",是它們的主要思想,都是從函數(shù)式編程語言里借來的,還有從矢量編程語言里借來的特性。它極大地方便了編程人員在不會分布式并行編程的情況下,將自己的程序運(yùn)行在分布式系統(tǒng)上。 當(dāng)前的軟件實(shí)現(xiàn)是指定一個Map(映射)函數(shù),用來把一組鍵值對映射成一組新的鍵值對,指定并發(fā)的Reduce(歸約)函數(shù),用來保證所有映射的鍵值對中的每一個共享相同的鍵組。


貪心算法


人工智能、區(qū)塊鏈、圖靈測試....這些大數(shù)據(jù)熱詞,你真的都懂嗎?


貪心算法(又稱貪婪算法)是指,在對問題求解時,總是做出在當(dāng)前看來是最好的選擇。也就是說,不從整體最優(yōu)上加以考慮,他所做出的是在某種意義上的局部最優(yōu)解。


貪心算法不是對所有問題都能得到整體最優(yōu)解,關(guān)鍵是貪心策略的選擇,選擇的貪心策略必須具備無后效性,即某個狀態(tài)以前的過程不會影響以后的狀態(tài),只與當(dāng)前狀態(tài)有關(guān)。


貪心算法的基本思路是從問題的某一個初始解出發(fā)一步一步地進(jìn)行,根據(jù)某個優(yōu)化測度,每一步都要確保能獲得局部最優(yōu)解。每一步只考慮一個數(shù)據(jù),他的選取應(yīng)該滿足局部優(yōu)化的條件。若下一個數(shù)據(jù)和部分最優(yōu)解連在一起不再是可行解時,就不把該數(shù)據(jù)添加到部分解中,直到把所有數(shù)據(jù)枚舉完,或者不能再添加算法停止[3] 。


數(shù)據(jù)挖掘


人工智能、區(qū)塊鏈、圖靈測試....這些大數(shù)據(jù)熱詞,你真的都懂嗎?


數(shù)據(jù)挖掘(英語:Data mining),又譯為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫知識發(fā)現(xiàn)(英語:Knowledge-Discovery in Databases,簡稱:KDD)中的一個步驟。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān),并通過統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)(依靠過去的經(jīng)驗(yàn)法則)和模式識別等諸多方法來實(shí)現(xiàn)上述目標(biāo)。


數(shù)據(jù)可視化


人工智能、區(qū)塊鏈、圖靈測試....這些大數(shù)據(jù)熱詞,你真的都懂嗎?


數(shù)據(jù)可視化,是關(guān)于數(shù)據(jù)視覺表現(xiàn)形式的科學(xué)技術(shù)研究。其中,這種數(shù)據(jù)的視覺表現(xiàn)形式被定義為,一種以某種概要形式抽提出來的信息,包括相應(yīng)信息單位的各種屬性和變量。


它是一個處于不斷演變之中的概念,其邊界在不斷地?cái)U(kuò)大。主要指的是技術(shù)上較為高級的技術(shù)方法,而這些技術(shù)方法允許利用圖形、圖像處理、計(jì)算機(jī)視覺以及用戶界面,通過表達(dá)、建模以及對立體、表面、屬性以及動畫的顯示,對數(shù)據(jù)加以可視化解釋。與立體建模之類的特殊技術(shù)方法相比,數(shù)據(jù)可視化所涵蓋的技術(shù)方法要廣泛得多。


分布式計(jì)算 Distributed computing


人工智能、區(qū)塊鏈、圖靈測試....這些大數(shù)據(jù)熱詞,你真的都懂嗎?


在計(jì)算機(jī)科學(xué)中,分布式計(jì)算(英語:Distributed computing,又譯為分散式計(jì)算)這個研究領(lǐng)域,主要研究分散系統(tǒng)(Distributed system)如何進(jìn)行計(jì)算。分散系統(tǒng)是一組電子計(jì)算機(jī)(computer),通過計(jì)算機(jī)網(wǎng)絡(luò)相互鏈接與通信后形成的系統(tǒng)。把需要進(jìn)行大量計(jì)算的工程數(shù)據(jù)分區(qū)成小塊,由多臺計(jì)算機(jī)分別計(jì)算,在上傳運(yùn)算結(jié)果后,將結(jié)果統(tǒng)一合并得出數(shù)據(jù)結(jié)論的科學(xué)。


分布式架構(gòu)


人工智能、區(qū)塊鏈、圖靈測試....這些大數(shù)據(jù)熱詞,你真的都懂嗎?


分布式架構(gòu)是 分布式計(jì)算技術(shù)的應(yīng)用和工具,目前成熟的技術(shù)包括J2EE, CORBA和.NET(DCOM),這些技術(shù)牽扯的內(nèi)容非常廣,相關(guān)的書籍也非常多,本文不介紹這些技術(shù)的內(nèi)容,也沒有涉及這些技術(shù)的細(xì)節(jié),只是從各種分布式系統(tǒng)平臺產(chǎn)生的背景和在軟件開發(fā)中應(yīng)用的情況來探討它們的主要異同。


Hadoop


人工智能、區(qū)塊鏈、圖靈測試....這些大數(shù)據(jù)熱詞,你真的都懂嗎?


Hadoop是一個由Apache基金會所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。


用戶可以在不了解分布式底層細(xì)節(jié)的情況下,開發(fā)分布式程序。充分利用集群的威力進(jìn)行高速運(yùn)算和存儲。


Hadoop實(shí)現(xiàn)了一個分布式文件系統(tǒng)(Hadoop Distributed File System),簡稱HDFS。HDFS有高容錯性的特點(diǎn),并且設(shè)計(jì)用來部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)來訪問應(yīng)用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集(large data set)的應(yīng)用程序。HDFS放寬了(relax)POSIX的要求,可以以流的形式訪問(streaming access)文件系統(tǒng)中的數(shù)據(jù)。


Hadoop的框架最核心的設(shè)計(jì)就是:HDFS和MapReduce。HDFS為海量的數(shù)據(jù)提供了存儲,則MapReduce為海量的數(shù)據(jù)提供了計(jì)算。


BI 商業(yè)智能


人工智能、區(qū)塊鏈、圖靈測試....這些大數(shù)據(jù)熱詞,你真的都懂嗎?


BI(Business Intelligence)即商務(wù)智能,它是一套完整的解決方案,用來將企業(yè)中現(xiàn)有的數(shù)據(jù)進(jìn)行有效的整合,快速準(zhǔn)確的提供報(bào)表并提出決策依據(jù),幫助企業(yè)做出明智的業(yè)務(wù)經(jīng)營決策。


商業(yè)智能的概念最早在1996年提出。當(dāng)時將商業(yè)智能定義為一類由數(shù)據(jù)倉庫(或數(shù)據(jù)集市)、查詢報(bào)表、數(shù)據(jù)分析、數(shù)據(jù)挖掘、數(shù)據(jù)備份和恢復(fù)等部分組成的、以幫助企業(yè)決策為目的技術(shù)及其應(yīng)用。而這些數(shù)據(jù)可能來自企業(yè)的CRM、SCM等業(yè)務(wù)系統(tǒng)。


商業(yè)智能能夠輔助的業(yè)務(wù)經(jīng)營決策,既可以是操作層的,也可以是戰(zhàn)術(shù)層和戰(zhàn)略層的決策。為了將數(shù)據(jù)轉(zhuǎn)化為知識,需要利用數(shù)據(jù)倉庫、聯(lián)機(jī)分析處理(OLAP)工具和數(shù)據(jù)挖掘等技術(shù)。因此,從技術(shù)層面上講,商業(yè)智能不是什么新技術(shù),它只是數(shù)據(jù)倉庫、OLAP和數(shù)據(jù)挖掘等技術(shù)的綜合運(yùn)用。


把商業(yè)智能看成一種解決方案應(yīng)該比較恰當(dāng)。商業(yè)智能的關(guān)鍵是從許多來自不同的企業(yè)運(yùn)作系統(tǒng)的數(shù)據(jù)中提取出有用的數(shù)據(jù)并進(jìn)行清理,以保證數(shù)據(jù)的正確性,然后經(jīng)過抽?。‥xtraction)、轉(zhuǎn)換(Transformation)和裝載(Load),即ETL過程,合并到一個企業(yè)級的數(shù)據(jù)倉庫里,從而得到企業(yè)數(shù)據(jù)的一個全局視圖,在此基礎(chǔ)上利用合適的查詢和分析工具、數(shù)據(jù)挖掘工具、OLAP工具等對其進(jìn)行分析和處理(這時信息變?yōu)檩o助決策的知識),最后將知識呈現(xiàn)給管理者,為管理者的決策過程提供數(shù)據(jù)支持。商業(yè)智能產(chǎn)品及解決方案大致可分為數(shù)據(jù)倉庫產(chǎn)品、數(shù)據(jù)抽取產(chǎn)品、OLAP產(chǎn)品、展示產(chǎn)品、和集成以上幾種產(chǎn)品的針對某個應(yīng)用的整體解決方案等。


非關(guān)系型數(shù)據(jù)庫 NoSQL


人工智能、區(qū)塊鏈、圖靈測試....這些大數(shù)據(jù)熱詞,你真的都懂嗎?


非關(guān)系型數(shù)據(jù)庫,又被稱為NoSQL(Not Only SQL ),意為不僅僅是SQL( Stmuctured QueryLanguage,結(jié)構(gòu)化查詢語言),據(jù)維基百科介紹,NoSQL最早出現(xiàn)于1998 年,是由Carlo Storzzi最早開發(fā)的個輕量、開源、不兼容SQL 功能的關(guān)系型數(shù)據(jù)庫,2009 年,在一次分布式開源數(shù)據(jù)庫的討論會上,再次提出了NOSQL 的概念,此時NOSQL主要是指I非關(guān)系型、分布式、不提供ACID (數(shù)據(jù)庫事務(wù)處理的四個本要素)的數(shù)據(jù)庫設(shè)計(jì)模式。同年,在業(yè)特蘭大舉行的“NO:SQL(east)”討論會上,對NOSQL 最普遍的定義是“非關(guān)聯(lián)型的”,強(qiáng)調(diào)Key-Value 存儲和文檔數(shù)據(jù)庫的優(yōu)點(diǎn),而不是單純地反對RDBMS,至此,NoSQL 開始正式出現(xiàn)在世人面前。


結(jié)構(gòu)化數(shù)據(jù)


人工智能、區(qū)塊鏈、圖靈測試....這些大數(shù)據(jù)熱詞,你真的都懂嗎?


結(jié)構(gòu)化數(shù)據(jù),簡單來說就是數(shù)據(jù)庫。結(jié)合到典型場景中更容易理解,比如企業(yè)ERP、財(cái)務(wù)系統(tǒng);醫(yī)療HIS數(shù)據(jù)庫;教育一卡通;政府行政審批;其他核心數(shù)據(jù)庫等。


基本包括高速存儲應(yīng)用需求、數(shù)據(jù)備份需求、數(shù)據(jù)共享需求以及數(shù)據(jù)容災(zāi)需求。


半結(jié)構(gòu)化數(shù)據(jù)


人工智能、區(qū)塊鏈、圖靈測試....這些大數(shù)據(jù)熱詞,你真的都懂嗎?


和普通純文本相比,半結(jié)構(gòu)化數(shù)據(jù)具有一定的結(jié)構(gòu)性,但和具有嚴(yán)格理論模型的關(guān)系數(shù)據(jù)庫的數(shù)據(jù)相比。OEM(Object exchange Model)是一種典型的半結(jié)構(gòu)化數(shù)據(jù)模型。


在做一個信息系統(tǒng)設(shè)計(jì)時肯定會涉及到數(shù)據(jù)的存儲,一般我們都會將系統(tǒng)信息保存在某個指定的關(guān)系數(shù)據(jù)庫中。我們會將數(shù)據(jù)按業(yè)務(wù)分類,并設(shè)計(jì)相應(yīng)的表,然后將對應(yīng)的信息保存到相應(yīng)的表中。比如我們做一個業(yè)務(wù)系統(tǒng),要保存員工基本信息:工號、姓名、性別、出生日期等等;我們就會建立一個對應(yīng)的staff表。


非結(jié)構(gòu)化數(shù)據(jù)


人工智能、區(qū)塊鏈、圖靈測試....這些大數(shù)據(jù)熱詞,你真的都懂嗎?


非結(jié)構(gòu)化數(shù)據(jù)庫是指其字段長度可變,并且每個字段的記錄又可以由可重復(fù)或不可重復(fù)的子字段構(gòu)成的數(shù)據(jù)庫,用它不僅可以處理結(jié)構(gòu)化數(shù)據(jù)(如數(shù)字、符號等信息)而且更適合處理非結(jié)構(gòu)化數(shù)據(jù)(全文文本、圖象、聲音、影視、超媒體等信息)。


數(shù)據(jù)清洗


人工智能、區(qū)塊鏈、圖靈測試....這些大數(shù)據(jù)熱詞,你真的都懂嗎?


數(shù)據(jù)清洗從名字上也看的出就是把“臟”的“洗掉”,指發(fā)現(xiàn)并糾正數(shù)據(jù)文件中可識別的錯誤的最后一道程序,包括檢查數(shù)據(jù)一致性,處理無效值和缺失值等。因?yàn)閿?shù)據(jù)倉庫中的數(shù)據(jù)是面向某一主題的數(shù)據(jù)的集合,這些數(shù)據(jù)從多個業(yè)務(wù)系統(tǒng)中抽取而來而且包含歷史數(shù)據(jù),這樣就避免不了有的數(shù)據(jù)是錯誤數(shù)據(jù)、有的數(shù)據(jù)相互之間有沖突,這些錯誤的或有沖突的數(shù)據(jù)顯然是我們不想要的,稱為“臟數(shù)據(jù)”。我們要按照一定的規(guī)則把“臟數(shù)據(jù)”“洗掉”,這就是數(shù)據(jù)清洗。而數(shù)據(jù)清洗的任務(wù)是過濾那些不符合要求的數(shù)據(jù),將過濾的結(jié)果交給業(yè)務(wù)主管部門,確認(rèn)是否過濾掉還是由業(yè)務(wù)單位修正之后再進(jìn)行抽取。不符合要求的數(shù)據(jù)主要是有不完整的數(shù)據(jù)、錯誤的數(shù)據(jù)、重復(fù)的數(shù)據(jù)三大類。數(shù)據(jù)清洗是與問卷審核不同,錄入后的數(shù)據(jù)清理一般是由計(jì)算機(jī)而不是人工完成。


算法 Algorithm


人工智能、區(qū)塊鏈、圖靈測試....這些大數(shù)據(jù)熱詞,你真的都懂嗎?


算法(Algorithm)是指解題方案的準(zhǔn)確而完整的描述,是一系列解決問題的清晰指令,算法代表著用系統(tǒng)的方法描述解決問題的策略機(jī)制。也就是說,能夠?qū)σ欢ㄒ?guī)范的輸入,在有限時間內(nèi)獲得所要求的輸出。如果一個算法有缺陷,或不適合于某個問題,執(zhí)行這個算法將不會解決這個問題。不同的算法可能用不同的時間、空間或效率來完成同樣的任務(wù)。一個算法的優(yōu)劣可以用空間復(fù)雜度與時間復(fù)雜度來衡量。


深度學(xué)習(xí) Deep Learning


人工智能、區(qū)塊鏈、圖靈測試....這些大數(shù)據(jù)熱詞,你真的都懂嗎?



深度學(xué)習(xí)的概念源于人工神經(jīng)網(wǎng)絡(luò)的研究。含多隱層的多層感知器就是一種深度學(xué)習(xí)結(jié)構(gòu)。深度學(xué)習(xí)通過組合低層特征形成更加抽象的高層表示屬性類別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。


深度學(xué)習(xí)的概念由Hinton等人于2006年提出?;谏钚哦染W(wǎng)(DBN)提出非監(jiān)督貪心逐層訓(xùn)練算法,為解決深層結(jié)構(gòu)相關(guān)的優(yōu)化難題帶來希望,隨后提出多層自動編碼器深層結(jié)構(gòu)。此外Lecun等人提出的卷積神經(jīng)網(wǎng)絡(luò)是第一個真正多層結(jié)構(gòu)學(xué)習(xí)算法,它利用空間相對關(guān)系減少參數(shù)數(shù)目以提高訓(xùn)練性能。


深度學(xué)習(xí)是機(jī)器學(xué)習(xí)研究中的一個新的領(lǐng)域,其動機(jī)在于建立、模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),它模仿人腦的機(jī)制來解釋數(shù)據(jù),例如圖像,聲音和文本。


人工神經(jīng)網(wǎng)絡(luò) Artificial Neural Networks


人工智能、區(qū)塊鏈、圖靈測試....這些大數(shù)據(jù)熱詞,你真的都懂嗎?


人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,簡寫為ANNs)也簡稱為神經(jīng)網(wǎng)絡(luò)(NNs)或稱作連接模型(Connection Model),它是一種模仿動物神經(jīng)網(wǎng)絡(luò)行為特征,進(jìn)行分布式并行信息處理的算法數(shù)學(xué)模型。這種網(wǎng)絡(luò)依靠系統(tǒng)的復(fù)雜程度,通過調(diào)整內(nèi)部大量節(jié)點(diǎn)之間相互連接的關(guān)系,從而達(dá)到處理信息的目的。


數(shù)據(jù)聚類 Cluster analysis


人工智能、區(qū)塊鏈、圖靈測試....這些大數(shù)據(jù)熱詞,你真的都懂嗎?


數(shù)據(jù)聚類 (英語 : Cluster analysis) 是對于靜態(tài)數(shù)據(jù)分析的一門技術(shù),在許多領(lǐng)域受到廣泛應(yīng)用,包括機(jī)器學(xué)習(xí),數(shù)據(jù)挖掘,模式識別,圖像分析以及生物信息。聚類是把相似的對象通過靜態(tài)分類的方法分成不同的組別或者更多的子集(subset),這樣讓在同一個子集中的成員對象都有相似的一些屬性,常見的包括在坐標(biāo)系中更加短的空間距離等。


隨機(jī)森林 Random forest


人工智能、區(qū)塊鏈、圖靈測試....這些大數(shù)據(jù)熱詞,你真的都懂嗎?


在機(jī)器學(xué)習(xí)中,隨機(jī)森林是一個包含多個決策樹的分類器, 并且其輸出的類別是由個別樹輸出的類別的眾數(shù)而定。 Leo Breiman和Adele Cutler發(fā)展出推論出隨機(jī)森林的算法。 而 “Random Forests” 是他們的商標(biāo)。 這個術(shù)語是1995年由貝爾實(shí)驗(yàn)室的Tin Kam Ho所提出的隨機(jī)決策森林(random decision forests)而來的。這個方法則是結(jié)合 Breimans 的 “Bootstrap aggregating” 想法和 Ho 的”random subspace method”” 以建造決策樹的集合。


分治法 Divide and Conquer


人工智能、區(qū)塊鏈、圖靈測試....這些大數(shù)據(jù)熱詞,你真的都懂嗎?


在計(jì)算機(jī)科學(xué)中,分治法是一種很重要的算法。字面上的解釋是“分而治之”,就是把一個復(fù)雜的問題分成兩個或更多的相同或相似的子問題,再把子問題分成更小的子問題……直到最后子問題可以簡單的直接求解,原問題的解即子問題的解的合并。這個技巧是很多高效算法的基礎(chǔ),如排序算法(快速排序,歸并排序),傅立葉變換(快速傅立葉變換)。


支持向量機(jī) Support Vector Machine


人工智能、區(qū)塊鏈、圖靈測試....這些大數(shù)據(jù)熱詞,你真的都懂嗎?


在機(jī)器學(xué)習(xí)領(lǐng)域,支持向量機(jī)SVM(Support Vector Machine)是一個有監(jiān)督的學(xué)習(xí)模型,通常用來進(jìn)行模式識別、分類、以及回歸分析。


SVM的主要思想可以概括為兩點(diǎn):⑴它是針對線性可分情況進(jìn)行分析,對于線性不可分的情況,通過使用非線性映射算法將低維輸入空間線性不可分的樣本轉(zhuǎn)化為高維特征空間使其線性可分,從而 使得高維特征空間采用線性算法對樣本的非線性特征進(jìn)行線性分析成為可能;


熵 entropy


人工智能、區(qū)塊鏈、圖靈測試....這些大數(shù)據(jù)熱詞,你真的都懂嗎?


熵(entropy)指的是體系的混亂的程度,它在控制論、概率論、數(shù)論、天體物理、生命科學(xué)等領(lǐng)域都有重要應(yīng)用,在不同的學(xué)科中也有引申出的更為具體的定義,是各領(lǐng)域十分重要的參量。熵的概念由魯?shù)婪颉た藙谛匏梗≧udolf Clausius)于1850年提出,并應(yīng)用在熱力學(xué)中。1948年,克勞德·艾爾伍德·香農(nóng)(Claude Elwood Shannon)第一次將熵的概念引入信息論中。


辛普森悖論 Simpson’s Paradox


人工智能、區(qū)塊鏈、圖靈測試....這些大數(shù)據(jù)熱詞,你真的都懂嗎?


辛普森悖論亦有人譯為辛普森詭論,為英國統(tǒng)計(jì)學(xué)家E.H.辛普森(E.H.Simpson)于1951年提出的悖論,即在某個條件下的兩組數(shù)據(jù),分別討論時都會滿足某種性質(zhì),可是一旦合并考慮,卻可能導(dǎo)致相反的結(jié)論。


當(dāng)人們嘗試探究兩種變量是否具有相關(guān)性的時候,比如新生錄取率與性別,報(bào)酬與性別等,會分別對之進(jìn)行分組研究。辛普森悖論是在這種研究中,在某些前提下有時會產(chǎn)生的一種現(xiàn)象。即在分組比較中都占優(yōu)勢的一方,會在總評中反而是失勢的一方。該現(xiàn)象于20世紀(jì)初就有人討論,但一直到1951年E.H.辛普森在他發(fā)表的論文中,該現(xiàn)象才算正式被描述解釋。后來就以他的名字命名該悖論。


為了避免辛普森悖論的出現(xiàn),就需要斟酌各分組的權(quán)重,并乘以一定的系數(shù)去消除以分組數(shù)據(jù)基數(shù)差異而造成的影響。同時必需了解清楚情況,是否存在潛在因素,綜合考慮。


樸素貝葉斯模型Naive Bayesian Model,NBM


人工智能、區(qū)塊鏈、圖靈測試....這些大數(shù)據(jù)熱詞,你真的都懂嗎?


貝葉斯分類是一系列分類算法的總稱,這類算法均以貝葉斯定理為基礎(chǔ),故統(tǒng)稱為貝葉斯分類。樸素貝葉斯算法(Naive Bayesian) 是其中應(yīng)用最為廣泛的分類算法之一。


樸素貝葉斯分類器基于一個簡單的假定:給定目標(biāo)值時屬性之間相互條件獨(dú)立。


通過以上定理和“樸素”的假定,我們知道:P( Category | Document) = P ( Document | Category ) * P( Category) / P(Document)。


數(shù)據(jù)科學(xué)家Data scientist


人工智能、區(qū)塊鏈、圖靈測試....這些大數(shù)據(jù)熱詞,你真的都懂嗎?


數(shù)據(jù)科學(xué)家是指能采用科學(xué)方法、運(yùn)用數(shù)據(jù)挖掘工具對復(fù)雜多量的數(shù)字、符號、文字、網(wǎng)址、音頻或視頻等信息進(jìn)行數(shù)字化重現(xiàn)與認(rèn)識,并能尋找新的數(shù)據(jù)洞察的工程師或?qū)<?不同于統(tǒng)計(jì)學(xué)家或分析師)。一個優(yōu)秀的數(shù)據(jù)科學(xué)家需要具備的素質(zhì)有:懂?dāng)?shù)據(jù)采集、懂?dāng)?shù)學(xué)算法、懂?dāng)?shù)學(xué)軟件、懂?dāng)?shù)據(jù)分析、懂預(yù)測分析、懂市場應(yīng)用、懂決策分析等。


并行處理 Parallel Processing


人工智能、區(qū)塊鏈、圖靈測試....這些大數(shù)據(jù)熱詞,你真的都懂嗎?


并行處理是計(jì)算機(jī)系統(tǒng)中能同時執(zhí)行兩個或更多個處理機(jī)的一種計(jì)算方法。處理機(jī)可同時工作于同一程序的不同方面。并行處理的主要目的是節(jié)省大型和復(fù)雜問題的解決時間。為使用并行處理,首先需要對程序進(jìn)行并行化處理,也就是說將工作各部分分配到不同處理機(jī)中。而主要問題是并行是一個相互依靠性問題,而不能自動實(shí)現(xiàn)。此外,并行也不能保證加速。但是一個在 n 個處理機(jī)上執(zhí)行的程序速度可能會是在單一處理機(jī)上執(zhí)行的速度的 n 倍。


來源:唧唧堂

編輯:IPRdaily趙珍          校對:IPRdaily縱橫君


推薦閱讀


人工智能、區(qū)塊鏈、圖靈測試....這些大數(shù)據(jù)熱詞,你真的都懂嗎?

國知局:發(fā)布《知識產(chǎn)權(quán)重點(diǎn)支持產(chǎn)業(yè)目錄(2018年本)》


“投稿”請投郵箱“iprdaily@163.com”


人工智能、區(qū)塊鏈、圖靈測試....這些大數(shù)據(jù)熱詞,你真的都懂嗎?

「關(guān)于IPRdaily」


IPRdaily成立于2014年,是全球影響力的知識產(chǎn)權(quán)媒體+產(chǎn)業(yè)服務(wù)平臺,致力于連接全球知識產(chǎn)權(quán)人,用戶匯聚了中國、美國、德國、俄羅斯、以色列、澳大利亞、新加坡、日本、韓國等15個國家和地區(qū)的高科技公司、成長型科技企業(yè)IP高管、研發(fā)人員、法務(wù)、政府機(jī)構(gòu)、律所、事務(wù)所、科研院校等全球近50多萬產(chǎn)業(yè)用戶(國內(nèi)25萬+海外30萬);同時擁有近百萬條高質(zhì)量的技術(shù)資源+專利資源,通過媒體構(gòu)建全球知識產(chǎn)權(quán)資產(chǎn)信息第一入口。2016年獲啟賦資本領(lǐng)投和天使匯跟投的Pre-A輪融資。

(英文官網(wǎng):iprdaily.com  中文官網(wǎng):iprdaily.cn) 


人工智能、區(qū)塊鏈、圖靈測試....這些大數(shù)據(jù)熱詞,你真的都懂嗎?

本文來自唧唧堂并經(jīng)IPRdaily.cn中文網(wǎng)編輯。轉(zhuǎn)載此文章須經(jīng)權(quán)利人同意,并附上出處與作者信息。文章不代表IPRdaily.cn立場,如若轉(zhuǎn)載,請注明出處:“http://jupyterflow.com/”

豆豆投稿作者
共發(fā)表文章4690
最近文章
關(guān)鍵詞
首席知識產(chǎn)權(quán)官 世界知識產(chǎn)權(quán)日 美國專利訴訟管理策略 大數(shù)據(jù) 軟件著作權(quán)登記 專利商標(biāo) 商標(biāo)注冊人 人工智能 版權(quán)登記代理 如何快速獲得美國專利授權(quán)? 材料科學(xué) 申請注冊商標(biāo) 軟件著作權(quán) 虛擬現(xiàn)實(shí)與增強(qiáng)現(xiàn)實(shí) 專利侵權(quán)糾紛行政處理 專利預(yù)警 知識產(chǎn)權(quán) 全球視野 中國商標(biāo) 版權(quán)保護(hù)中心 智能硬件 新材料 新一代信息技術(shù)產(chǎn)業(yè) 躲過商標(biāo)轉(zhuǎn)讓的陷阱 航空航天裝備 樂天 產(chǎn)業(yè) 海洋工程裝備及高技術(shù)船舶 著作權(quán) 電子版權(quán) 醫(yī)藥及高性能醫(yī)療器械 中國專利年報(bào) 游戲動漫 條例 國際專利 商標(biāo) 實(shí)用新型專利 專利費(fèi)用 專利管理 出版管理?xiàng)l例 版權(quán)商標(biāo) 知識產(chǎn)權(quán)侵權(quán) 商標(biāo)審查協(xié)作中心 法律和政策 企業(yè)商標(biāo)布局 新商標(biāo)審查「不規(guī)范漢字」審理標(biāo)準(zhǔn) 專利機(jī)構(gòu)排名 商標(biāo)分類 專利檢索 申請商標(biāo)注冊 法規(guī) 行業(yè) 法律常識 設(shè)計(jì)專利 2016知識產(chǎn)權(quán)行業(yè)分析 發(fā)明專利申請 國家商標(biāo)總局 電影版權(quán) 專利申請 香港知識產(chǎn)權(quán) 國防知識產(chǎn)權(quán) 國際版權(quán)交易 十件 版權(quán) 顧問 版權(quán)登記 發(fā)明專利 亞洲知識產(chǎn)權(quán) 版權(quán)歸屬 商標(biāo)辦理 商標(biāo)申請 美國專利局 ip 共享單車 一帶一路商標(biāo) 融資 馳名商標(biāo)保護(hù) 知識產(chǎn)權(quán)工程師 授權(quán) 音樂的版權(quán) 專利 商標(biāo)數(shù)據(jù) 知識產(chǎn)權(quán)局 知識產(chǎn)權(quán)法 專利小白 商標(biāo)是什么 商標(biāo)注冊 知識產(chǎn)權(quán)網(wǎng) 中超 商標(biāo)審查 維權(quán) 律所 專利代理人 知識產(chǎn)權(quán)案例 專利運(yùn)營 現(xiàn)代產(chǎn)業(yè)
本文來自于iprdaily,永久保存地址為http://jupyterflow.com/article_18215.html,發(fā)布時間為2018-01-31 10:11:22。

文章不錯,犒勞下辛苦的作者吧

    我也說兩句
    還可以輸入140個字
    我要評論
    回復(fù)
    還可以輸入 70 個字
    請選擇打賞金額