av免费网址在线观看-俄罗斯黄色录像-亚洲最色网-日本午夜一级|www.skffagnsk.com

文本挖掘——大數(shù)據(jù)新技能get√

來源于: 日期:2014-08-13

何為大數(shù)據(jù)?顧名思義,即數(shù)據(jù)規(guī)模龐大之意,但至少要滿足規(guī)模性、多樣性、高速性和價值密度低四個特點。規(guī)模性無疑是指數(shù)據(jù)量大,是大數(shù)據(jù)的基本屬性;多樣性強調(diào)數(shù)據(jù)類型齊全,既包括定義好的結(jié)構(gòu)化數(shù)據(jù),又包括文本數(shù)據(jù)、圖表數(shù)據(jù)等非結(jié)構(gòu)化數(shù)據(jù),是廣義概念上的數(shù)據(jù);高速性要求數(shù)據(jù)處理速度快,是區(qū)別于傳統(tǒng)海量數(shù)據(jù)處理的重要特征;價值密度低是大數(shù)據(jù)關(guān)注的非結(jié)構(gòu)化數(shù)據(jù)的重要屬性,大數(shù)據(jù)關(guān)注事物的全部細(xì)節(jié),直接采用原始數(shù)據(jù),保留數(shù)據(jù)的原貌,無疑也引入了大量沒有意義的信息,因而價值密度低。

大數(shù)據(jù)的發(fā)展離不開相關(guān)技術(shù)的支撐。互聯(lián)網(wǎng)和物聯(lián)網(wǎng)將現(xiàn)實世界中的一切用數(shù)據(jù)化的方式描述和儲存下來,積累了大量數(shù)據(jù),保證了大數(shù)據(jù)的規(guī)模性和多樣性;云計算將分散在各個角落的計算能力、儲存設(shè)備通過網(wǎng)絡(luò)整合起來,大大提高了大數(shù)據(jù)的運算和存儲能力;數(shù)據(jù)挖掘則將這些海量的原始數(shù)據(jù)進行處理以得到“被證實的知識”,從而克服大數(shù)據(jù)價值密度低的特點。

作為數(shù)據(jù)挖掘的一種,文本挖掘是指為了發(fā)現(xiàn)知識,從文本數(shù)據(jù)中抽取隱含的以前未知的潛在有用的模式的過程,它是一個分析文本數(shù)據(jù),抽取文本信息,進而發(fā)現(xiàn)文本知識的過程。相較于百度等搜索引擎所采用的文本檢索技術(shù),文本挖掘有其本質(zhì)區(qū)別:文本挖掘的目的是為了揭示文本中隱含的知識,而文本檢索技術(shù)是為了幫助用戶發(fā)現(xiàn)資源;文本挖掘的結(jié)果獨立于用戶的信息需求,是用戶所無法預(yù)知的,而信息檢索是目標(biāo)驅(qū)動的,用戶需要提出明確的查詢要求。

文本挖掘是一個系統(tǒng)化的工程,一般由軟件程序執(zhí)行,該過程由文本預(yù)處理、文本知識提取、文本模式評價和文本模式的呈現(xiàn)等組成。文本預(yù)處理過程對文本挖掘效果的影響至關(guān)重要,其占整個過程80%的工作量。文本預(yù)處理包括文本特征表示和特征提取兩個階段,文本特征表示就是將文本的描述性和語義性特征用標(biāo)準(zhǔn)的結(jié)構(gòu)化形式表達(dá)和儲存,特征提取就是采用語義分析技術(shù)對結(jié)構(gòu)化的文本數(shù)據(jù)進行提取,從而得到形式化表達(dá)的數(shù)據(jù)。文本經(jīng)預(yù)處理后,系統(tǒng)根據(jù)用戶的需求指令,進行學(xué)習(xí),然后通過文檔聚類、文檔分類和摘要抽取等技術(shù)進行挖掘,得到用戶所需的知識或模式,這一過程就是文本知識的發(fā)現(xiàn)和提取過程。經(jīng)挖掘出的文本知識并不一定符合用戶需求,這就需要通過事先定義好的評估指標(biāo)對獲取的知識或模式進行評價,如果評價結(jié)果符合要求,就儲存該知識或模式以備用戶使用;否則系統(tǒng)將返回到前面的某個環(huán)節(jié)重新調(diào)整和改進,以進行新一輪的挖掘。符合要求的知識或模式以可視化的形式展現(xiàn)給用戶,以方便用戶使用。

1文本挖掘過程的示意圖

文本挖掘技術(shù)拓展了現(xiàn)有的數(shù)據(jù)挖掘技術(shù),把挖掘的對象從結(jié)構(gòu)化的數(shù)值數(shù)據(jù)擴展到非結(jié)構(gòu)化的文本數(shù)據(jù),因此可以幫助我們從海量的文本數(shù)據(jù)中發(fā)現(xiàn)新的模式、模型、規(guī)則、趨勢等知識。隨著計算機技術(shù)的發(fā)展,文本挖掘?qū)谄髽I(yè)管理決策支持系統(tǒng)、新聞分析學(xué)等諸多新興領(lǐng)域得到廣泛應(yīng)用。

在企業(yè)管理決策領(lǐng)域的應(yīng)用將是大勢所趨。

作為市場競爭的主體,企業(yè)所面臨的市場環(huán)境日益復(fù)雜,要想在殘酷的競爭中立于不敗之地就需要快速作出正確的決策。而真實信息的及時獲取決定了決策的有效性,文本挖掘就是從海量信息中快速有效獲取有用信息以實現(xiàn)正確決策的一種工具。企業(yè)可以建立一套“管理決策支持系統(tǒng)”,通過鏈接云端數(shù)據(jù),追蹤市場動態(tài),運用文本挖掘技術(shù),對海量文本數(shù)據(jù)充分挖掘,提取隱含在其中的事先未知的、潛在的、深層次的、有價值的信息,輔助決策,以便在復(fù)雜多變的競爭中把握發(fā)展方向。

在新聞分析領(lǐng)域的應(yīng)用將逐步興起。

近幾年,在國外興起了一門新興交叉學(xué)科——新聞分析學(xué),該學(xué)科旨在通過計算機和網(wǎng)絡(luò)等現(xiàn)代工具直接對來自各種新聞渠道的大量新聞信息進行讀取、分類和歸納,并采用相應(yīng)的量化技術(shù)對新聞信息的情緒、關(guān)聯(lián)性和新穎性等特征進行計量分析,以滿足用戶的信息需求。新聞分析的對象為文本、內(nèi)容及反應(yīng)各項信息之間關(guān)聯(lián)性的背景。由此可以看出要想實現(xiàn)新聞分析,首要任務(wù)是實現(xiàn)新聞分析對象的獲取,即文本挖掘,沒有文本挖掘,新聞分析將無從談起。文本挖掘是新聞分析學(xué)的基礎(chǔ)流程,也是核心流程。

在金融交易中的應(yīng)用將會對信息市場帶來革命性變革。

運用文本挖掘技術(shù)可實現(xiàn)金融交易員根據(jù)人們的社會活動來研判金融市場的動態(tài)。比如,宏觀經(jīng)濟數(shù)據(jù)出現(xiàn)明顯下滑,是否會取消限購政策等引發(fā)市場猜測,股市的好空面不明朗,股票交易員可以通過文本挖掘技術(shù)來獲取大數(shù)據(jù)之間潛在的內(nèi)部聯(lián)系,并對政策走向作出研判,判斷股市的發(fā)展動態(tài),以便其作出正確的買賣決策。股票交易員通過發(fā)現(xiàn)公眾尤其是經(jīng)濟學(xué)家和政府官員等政策制定者在微博、微信、博客等社交平臺和新浪、搜狐等門戶網(wǎng)站上發(fā)布的信息,獲取其對宏觀經(jīng)濟運行及未來政策導(dǎo)向的看法以及由此產(chǎn)生的反應(yīng)和行為,進而通過云計算技術(shù)進行分析加工,對未來政策走向作出概率估計,并將其影響拓展到股市,進而作出買空賣空或套期對沖的決定。運用該技術(shù)的交易員將會先人一步實現(xiàn)政策變動帶來的收益,但隨著技術(shù)的進步和文本挖掘在金融交易領(lǐng)域的運用,因信息不對稱所帶來的資本套利空間將不存在,公開市場也將成為強有效市場。

大數(shù)據(jù)時代,不懂不用文本挖掘,將被大數(shù)據(jù)所拋棄。

本文為中國投資咨詢有限責(zé)任公司投資銀行事業(yè)部張一鵬原創(chuàng)作品,轉(zhuǎn)載請注明。