比起此前林灰忽視的標注數據。
暗數據就更沒啥存在感了。
暗數據這類數據幾乎是被無視的。
畢竟這類數據存在于網絡和服務器中,只會佔據了寶貴的空間。
一般來說,暗數據主要有三種類型︰
第一種是傳統的基于文本的數據。這可能包括電子郵件,日志和文檔。
第二種類型是非傳統數據。
這包括未標記的音頻和視頻文件、靜止圖像和聲音文件。
第三種類型是深度數據。
這包括深層網絡中搜索引擎無法觸及的信息。
這些深度數據大多是私有的,由政府或私人機構控制。
它包括由學者、政府機構和當地社區策劃的數據、醫療記錄、法律記錄、財務信息和組織特定數據庫。
以上這些數據都可以稱之為暗數據。
……
暗數據這類數據相比傳統意義上數據要更隱晦一些。
暗數據這種未標注過的數據雖然不能拿來直接用吧。
但卻不能否定這種東西的潛力。
反正絕對不能說這些信息不重要。
至于果子為什麼對這類東西感興趣。
因為收集這類一貫不被視為數據的數據。
實際上通過深耕是能得到跟傳統數據差不多的功效的。
而且使用這類數據的話,通過一些概念性的教育消費者甚至可以形成一種企業從來不涉足一般數據的印象。
這對于樹立企業形象豈不是很有妙用??
總之,對于既當又立的企業不能說是沒有誘惑力。
反正林灰覺得從暗數據入手這倒是符合很多科技巨頭的行事風格。
類比林灰以前估量的價格。
如果說幾千萬美元就能買上千萬條雙語標注數據。
可想而知像蘋淉所謀求的價值兩三個億美元的暗數據肯定是一筆相當龐大的數據。
涉及到標注數據跟暗數據一大區別在于標注數據是結構化進行過一定處理的數據。
而暗數據很大程度上是未被結構化處理甚至很是「亂糟糟」的數據。
結構化的數據一般是即有固定格式和有限長度的數據。
例如填的表格就是結構化的數據。
比如說「國籍,種花家,民族︰漢,性別︰男,姓名︰張三,年齡︰……」
這種央視的都叫結構化數據。
這類數據很容易以固定的格式存儲到數據庫里。
而半結構化數據值得是一些 XML 或者 HTML 的格式的數據。
對這類數據當根據需要可按結構化數據來處理,也可抽取出純文本按非結構化數據來處理。
所謂的非結構化的數據︰就是不定長、無固定格式的數據。
例如網頁,郵件,有時候非常長;有時候非常短,幾句話就沒了,這類就是典型的非結構化數據。
子啊比如說例如 Word 文檔、語音,視頻、圖片都是非結構化的數據。
而半結構化數據和非結構化數據,一般合二為一統稱為「暗數據」。
這個詞語也不是林灰定義的。
相比于標注數據這種結構化數據,暗數據同標注數據此二者的價值是不可同日而語的。
單位標注數據的價值往往幾十倍甚至于幾百倍于單位暗數據。
兩三億美元就算是換取較為昂貴的跨語種語言類標注數據都能換上幾億條。
更何況說拿幾億美元去換暗數據呢?
可想而知,兩三億美元涉及到的暗數據是一筆相當可觀的暗數據。
林灰那有很多前世的信息。
但也絕不可能有滿足蘋淉胃口的暗數據。
不要說是林灰前世那點信息了。
就是像國內有的忝居互聯網巨頭之列外強中干的互聯網公司所擁有的暗數據規模也未必能滿足蘋淉的胃口。
這種情況下如果林灰對蘋淉的這筆巨額收購感興趣的話似乎只能去收集暗數據了。
至于如何去收集呢?
暗數據的收集方式多種多樣。
因為暗數據包括用戶活動日志、客戶對話或電子郵件記錄、服務器監控日志、視頻文件、物聯網產生的機器和傳感器信息。
暗數據還可能包括由于存儲在過時設備上而無法再訪問的數據。
這種情況下很多時候清理活動日志或者說收集存儲碎片的時候都有可能順手牽羊搞到一些暗數據。
除此之外還有很多種收集暗數據的方式。
說起來雖然很容易。
但正所謂拋開劑量談毒性都是耍流氓。
同樣的道理拋開數據規模談咋挖掘數據同樣是耍流氓。
像蘋淉所圖規模的暗數據肯定不是傳統的數據挖掘方式能滿足的。
似乎時下也沒太好的挖掘暗數據的方式。
傳統的公司,在處理暗數據的時候,采用的是笨辦法,想辦法把非結構化的數據轉換成結構化數據。
這種方法費時費力。
不過也僅僅只是對于時下的科技公司來說。
對于林灰來說他還是有很多數據挖掘方式的。
沒人比林灰更懂如何挖掘數據了。
對于大規模的數據挖掘,似乎最方便的方式就是借助于人工智能來挖了。
甚至于林灰前世電腦里有一些現成的挖掘暗數據的方式。
雖然效率受限于時下的硬件可能會大打折扣。
但相比于現在傳統的挖掘方式也是降維打擊般的存在了。
不過新的問題又來了,從哪挖掘暗數據呢?
前面提到了像有些屬于私有的,由政府或私人機構控制的深度數據。
這類包括由學者、政府機構和當地社區策劃的數據、醫療記錄、法律記錄、財務信息和組織特定數據庫在內的數據。
就算是屬于暗數據。
借林灰十個膽子林灰也不敢去挖。
畢竟這玩意另一個名字叫國家機密。
思考了一小會,林灰倒是想到了幾個主意。
但認真琢磨之下,無論是哪個主意似乎都很容易擔風險,短時間內都不具有可行性。
盡管說做事情完全不擔風險幾乎不存在。
但為了區區兩億美元去擔風險似乎沒啥必要。
畢竟以林灰腦海中的信息想賺兩億美元實際上不需要太久的。
總之,完全沒行險的必要。
既然沒行險的必要,而且林灰一貫求穩。
那麼涉及到數據挖掘為什麼林灰會想出一堆有風險的方法呢?
莫非是林灰飄了不成??
再往後幾年的話,林灰想到的主意沒任何問題。
至少以21年年底的思維來看,林灰剛才想到的也不是什麼鋌而走險的辦法。
林灰所想的方法完全可以合乎規矩進行操作。
但很無奈,現在是2014年,想要進行同樣的操作是不可能的。
最根本的原因是因為在前世往後幾年的數據挖掘一應事宜已經完成程序化、規範化。
涉及到數據的利用以及數據安全方面有明確的《數/據/安/全/法》。
該法律開宗明義第一條就說明了︰「為了規範數據處理活動,保障數據安全,促進數據開發利用,保護個人、組織的合法權益,維護國家主權、安全和發展利益,制定本法。」
在《數/據/安/全/法》這部法律中對于數據利用和數據安全的很多東西都進行了相當明確的規定。
涉及到數據安全應急處置機制、數據安全審查、數據出口管制之類的自不必說。
比較關鍵的在于這部法律明確了數據分類分級與核心數據保護制度同時明確了數據安全風險評估與工作協調機制。
按照這兩條的話,無疑意味著將有國家層面出面對一些數據進行安全風險評估從而對于數據分級。
雖然看似是對數據管制更嚴了。
但這對于真正踏踏實實的本分人反而是好消息。
為什麼這麼說呢?
很多事情都是不怕又明確規定,就怕無可無不可那種情況。
有明確的制度代表著正規化和合理化。
這對于從業人員是重大利好。
同樣以該法內容來說吧,在該法中明確表示了國家支持開發利用數據提升公共服務的智能化水平。
明確表示了國家支持數據開發利用和數據安全技術研究,鼓勵數據開發利用和數據安全等領域的技術推廣和商業創新,培育、發展數據開發利用和數據安全產品、產業體系。
此外還明確表示了國家推進數據開發利用技術和數據安全標準體系建設。
這些無疑是像林灰這種本分的技術從業者的福音,因為這代表了國家對合理合規的數據利用的明確承認。
按照該法,在篩選出一些涉及到國家安全以及國家利益的關鍵數據之後。
一些普通數據其實是可以基于此進行合理利用的,哪怕是商用只要不違反規定也是完全可以的。
這對于規規矩矩的技術人員簡直就是重大利好。
可以說在有該法通過後涉及到數據利用在我國才真正步入了正軌。
反正比現在[2014年]的情況要好。
現在的情況是,涉及到數據的挖掘和利用基本沒明確的法律……
別說是涉及到數據挖掘和數據利用這事沒啥法律了。
就是對「數據」、「數據處理」以及「數據安全」的明確立法定義也是在前世2021年才正式出來的。
沒有明確的確定,使得線下涉及到數據利用無論是數據挖掘還是數據處理在我國當下實際上都是灰色地帶的。
雖然說對于一般人來說「法無禁止即可為」,但涉及到數據這東西,林灰覺得還是不要太任性。
普通人對數據可能無感,但技術人員可絲毫不敢小瞧數據的價值。
隨著人類社會進入數字化時代,網絡空間、物理世界和人類社會開始實現深度融合。
數據可不僅是網絡空間自身運行的產物,也是物理世界、人類社會運行的數字畫像,蘊含著數字化世界的運行規律。
在數字化時代,數據同時兼具國家安全、數字經濟、社會治理、個人隱私等多個屬性。
這種情況下,很多時候數據是具有重大意義的。
如此,很多涉及到數據方面的事情即便沒有關于數據本省的法律辦你。
折騰出大動靜來也總有一款法律適用你。
這種情況下,林灰覺得涉及到數據不可以太任性。
甚至于如果有可能,林灰覺得應該盡快推動《數/據/安/全/法》提前問世。
哪怕是花上一定的代價也是值得的。
畢竟比起曾經因為某企業在數據方面的任性導致的大代價而言縱然是花點小代價也不過分。
而且這方面也不是純粹的投入,在有了相應的法律支持的情況下,有了明確的制度規範。
本本分分的技術人員依照規規矩矩的手段也照樣能撐起不錯的市場規模。
而不是非得靠給出賣深度數據這類重要核心數據才能換取到利益。
林灰是覺得加速推動該法是有必要的。
像標注數據本身還可以以訓練集的名義通過淡化「數據」的屬性而進行交易。
但像收集數據這種事情想淡化數據屬性是不可能的。
即便只是收集暗數據。
在明確的相關法律規定出來之前現在是在哪挖數據似乎都不合適。
盡管動因是數據挖掘,但林灰覺得他只是想合規利用數據而已,這似乎沒什麼過分的。
而且,林灰也不完全是出于能合規利用數據的私心。
涉及到數據安全與個人安全和國家安全都月兌不開干系。
即便是前世,《數/據安全/法》也是相當被看重,甚至于在該法問世之後有學者稱《數/據安全/法》、《網絡安全法》、《個人信息保護法》這三部法律共同構成了網絡安全與數據合規領域的基本法律規則框架。
雖然這種說法是否準確有待考量,但也足以由此可見該法律的積極性。
盡管加速相關方面的立法很有必要,但林灰現在沒啥話語權去說啥加速立法。
不過林灰覺得隨著其貢獻越來越突出話語權也會越來越大的。
甚至于以後林灰也不是一個人的聲音,將有很多聲音簇擁在林灰的周圍。
甚至于將來會形成一股以林灰為主心骨的一支活躍在計算機領域、互聯網領域、科技產業方面不容忽視的新興力量集體。
而等林灰能代表相當大的一個或者說幾個群體的利益訴求的時候那似乎才是真正意義的擲地有聲。
這一天似乎不會太遠。
等大家都意識到數據利用合規化更加有利于行業穩健發展之後甚至不需要林灰親歷親為。