簡體版

第258章 巨額的隱形財富

伊芙•卡莉所謂的「內容表示」指的是在自動文本摘要的流程中將原始文本劃分為文本單元的過程。

這一過程包含有分字、詞、句等預處理工作;

其主要目的是通過預處理將原始文本處理成算法容易進行分析的形式。

傳統的抽取式摘要這樣傳統自動文本摘要不怎麼注重內容表示這一環節。

生成式文本摘要則稍稍有些不同。

生成式文本摘要還是比較注重內容表示這一環節的。

尤其是應用了詞嵌入技術和預訓練機制的生成式文本摘要更是格外注重「內容表示」這一環節。

沒辦法,不得不重視,傳統的文本摘要各步驟的重要程度其實是差不多的。

但應用了詞嵌入技術和預訓練機制的生成式文本摘要的工作很多時候都是「頭重腳輕」的。

即開始的環節在整個環節中權重是最高的。

或者說在實際構建生成式文本摘要模型的時候,雖然要設計到很多的步驟。

但通常情況下越靠前的工作也往往更重要。

就以「內容表示」來說吧,在構建生成式文本摘要模型的時候。

很多時候內容表示的完成水平的高下將直接影響到後續的步驟。

而伊芙•卡莉所搞得《文本判斷甄別比較的一種新方法》這項專利在內容表示方面確實有一定的價值。

借助于該專利所提供的價值,林灰以後在進行文本摘要的後續升級換代的過程中可以少一些邏輯層面的漏洞。

但如果僅僅是因為這點價值,還不足以讓林灰大費周章進行一項跨國專利的收購。

林灰之所以煞費苦心將伊芙•卡莉搞出的《文本判斷甄別比較的一種新方法》這項專利最最根本的原因還是因為林灰比較在意伊芙•卡莉在這一專利中所應用的模型。

在《文本判斷甄別比較的一種新方法》這項專利中就文本甄別伊芙•卡莉極其有創意地鼓搗出一個用于文本判斷甄別的模型。

如果僅僅就自然語言處理機器學習方面來看,這不過只是一個平平無奇的用于文本判別的模型。

但當思維跳月兌出自然語言處理這個小領域之後,這個模型可不能夠等閑視之。

當初在翻閱這個時空的學術方面的一些資料時,林灰敏銳地注意該專利所蘊含的價值。

盡管專利所提供的技術路線很多時候都是概要性的。

一些後來者在按照這些技術路線去體悟技術的時候往往只能盲人模象般的探索。

在擁有前世信息的情況下,林灰相當于站在巨人的肩膀上,

雖然偶爾會有些高處不勝寒的感覺,但具體到技術方面的時候林灰往往系統概念更強。

很多時候,林灰只消看到一些公開的技術路線就能了解到其背後所蘊含的價值。

並且這種判斷基本是八九不離十。

當初接觸到伊芙•卡莉搞得這個專利時。

林灰發現根據該專利已經公開的一些資料尤其是該專利公開提及的技術路線。

林灰很快捕捉到這個專利的價值。

林灰料定利用這個模型幾乎稍加變形就能在此基礎上形成一種頗為高效的判別式模型。

事實是後來進行的收購進一步了解了專利信息後更是印證了此前林灰對之的猜測。

僅僅是判別式模型即便是效率高或許沒啥意義。

但是稍微做點小改動那事情就不一樣了。

當高效的判別式模型邂逅高效的生成式模型。

此二者進行有機結合,並在此基礎上再繼續進行一定的專門架構之後。

完全可以藉此搞出全新的效率頗高的深度學習模型。

這個深度學習模型在前世有個大名鼎鼎地稱呼︰

——生成對抗網絡(GAN)

生成對抗網絡由一個生成網絡與一個判別網絡組成。

生成網絡從潛在空間中隨機取樣作為輸入,其輸出結果需要盡量模仿訓練集中的真實樣本。

判別網絡的輸入則為真實樣本或生成網絡的輸出,其目的是將生成網絡的輸出從真實樣本中盡可能分辨出來。

而生成網絡則要盡可能地欺騙判別網絡。

兩個網絡相互對抗、不斷調整參數。

最終目的是使判別網絡無法判斷生成網絡的輸出結果是否真實。

在前世圖靈獎獲得者、卷積神經網路之父Yann Le 在某次學術論壇上甚至將生成對抗網絡模型稱之為機器學習方面二十年來最酷的想法。

能得到圖靈獎級別大佬這樣高度肯定,生成對抗網絡模型的價值可想而知。

前世生成對抗網絡作為非監督式學習的一種方法。

是由伊恩•古德費洛等人于2014年提出的。

不過這個時空由于機器學習方面的研究整體滯後。

這個前世頗為有名的深度學習模型在這個時空想要如約而至似乎是有些難度了。

前世生成式對抗網絡自出現以來,針對不同的應用領域出現了許多變體。

這些變體相對于最原始的生成式對抗網絡都進行了一定的改進。

這些改進有的是單純改進了結構。

有的則是因為理論上的發展而對生成式對抗模型涉及到的一些函數或者說參數進行了一定的改進。

再或者就是單純就應用方面進行了一定的創新調整。

一項技術被頻繁改動不是說明這項技術失敗。

剛好相反,這恰恰說明這項技術很成功。

因為這某種程度上從側面反映了該技術有很多的成長空間。

事實也正是如此,前世生成式對抗網絡是相當成功且應用廣泛的。

在很多機器學習領域都能看到生成式對抗網絡的身影。

之所以如此大概是因為原始的生成式對抗網絡在構建的時候,先驗假設比較少。

正是因為對數據幾乎沒有任何假設使得生成式對抗網絡具有幾乎不設限的建模能力。

借助于生成式對抗網路可以擬合多種分布。

此外,由于生成式對抗網路模型不甚復雜。

很多時候在應用生成式對抗網絡的時候就不需要預先設計較為復雜的函數模型。

在不少生成式對抗網絡的應用場景中,工程師甚至只需要應用反向傳播算法簡單訓練一下對應的網絡。

就可以讓生成式對抗網絡中的生成器和判別器正常工作。

之所以將生成式對抗網絡搞得這麼比較易上手。

跟生成式網絡的設計初衷是為了進行無監督學習也有很大的關系。

不過事物都是有兩面性的,正是因為原始生成式對抗網路過于自由。

訓練過程很容易出現訓練發散的情況。

不止于此,生成式對抗網絡還存在諸如梯度消失等問題。

由于這些問題的存在,生成式對抗網絡是很難學習一些生成離散的分布的。

就比如原始的生成式對抗網路就不是很擅長純粹文本方面的處理。

除了涉及到部分場景下會將生成式對抗網絡用于文本分割之外。

多數時候很少將生成式對抗網絡應用于文本(特指純粹文字形式的文本)方面。

不過尺有所長寸有所短,雖然並不是很擅長對純粹文本信息的處理。

但在其余很多領域生成式對抗網路都可以大顯身手。

在人臉識別方面、超分辨率重建等方面生成對抗網絡更是大有用武之地。

甚至是在語義圖像修復方面生成式對抗網絡同樣是可以大顯身手。

除此之外,生成式對抗網絡還有很多應用方向。

概括地說,生成式對抗網絡的應用前景是相當廣闊的。

說起來因為在這個時空機器學習方面的研究比較滯後。

林灰想搬運生成式對抗網絡這一模型的話其實也不需要擔太多風險。

盡管如此,在將生成式文本摘要方面的徹底搞定之前。

林灰也不著急將生成式對抗網絡相關的研究成果搬運出來。

至于為什麼林灰不將生成式對抗網絡搬出來?

林灰不想給外界其余的學術人員一種割裂感。

就像林灰在過往游戲開發(搬運)時不想給游戲玩家一種割裂感一樣。

雖然林灰現在已經有了一定的將生成式對抗網絡的推出邏輯基礎。

(林灰此前搞得生成式文本摘要里面涉及到的生成式模型,而從伊芙•卡莉那收購來的專利中又涉及到類判別式模型,而生成式對抗網絡其組成正是包含有生成式網路和判別式網路……)

但如果林灰貿然搞出生成式對抗網路依舊不是很好。

畢竟生成式對抗網絡就應用層面來說和林灰現在一向搞得自然語言處理這一學術領域其實關系不太大。

在這種情況下,林灰莫名其妙推出一個和自然語言處理幾乎沒啥關系的模型算怎麼回事呢?

雖然學術方面無心插柳柳成蔭的例子很多,很多學術成果最開始問世的時候目的往往是跑偏的。

但林灰內心信奉的原則是注定了林灰不大可能打破此前延續的慣例。

無論是游戲開發還是學術進展上,林灰都不想給別人一種割裂感。

而且,科技樹還是按順序點比較好。

雖然說作為掛比不按順序點科技樹也可以。

但在多元化的社會下不按規矩辦事往往就意味著風險。

亂點科技樹,自己的科技邏輯鏈沒形成。

潛在對手卻形成了相應的發展脈絡。

那麼科技成果很有可能被對手所竊取。

這是林灰所不願意看到的。

現在在林灰看來學術方面他所要做的依然是深耕自然語言處理。

深耕生成式文本摘要。

通過不斷的深耕,從自然語言處理這一領域找到破局點

或者說點亮相鄰于林灰已點亮科技成果的科技樹分支才是最好的。

(林灰倒也不著急,即便是一時之間未找到合適的破局點其實也關系不大。

起碼是一個月林灰還是不需要太擔心的。

畢竟就生成式文本摘要這方面取得的「突破性進展(成功的搬運)」林灰最起碼也能「混」一個碩士學位。

而這也是要林灰消化一段時間了。

其實林灰原本的估計更加樂觀。

林灰原本是覺得將生成式文本摘要這個方向的論文搞清楚,就差不多能博士了。

不過通過最近跟伊芙•卡莉的交流,林灰覺得是他過于樂觀了。

就像諾獎級成果不一定真的能獲得諾獎一樣。

就算林灰在生成式文本摘要方面鼓搗出的東西對于這個時空能稱得上是博士級甚至更高級別的成果。

但想藉此一步到位獲得博士畢業論文也是很有難度的。

畢竟此前林灰搞得學術內容其主要呈現形式都是圍繞著生成式文本摘要這樣一個算法專利的。

這個時空西方對于專利形式的學術成果更傾向于將之視作偏向于實踐的東西,亦即工程上的成果。

而僅僅依靠工程方面的成果想要一步到位弄到博士方面的成果是很麻煩的。

雖然涉及到生成式文本摘要在學術上的收益這個稍微低于林灰的預期,不過問題不大。

林灰覺得學術上步子太大也不完全是好事情。)

既然短時間不搬運生成式對抗網路。

那剛才關于生成式對抗網路的思考豈不是等同于白白浪費腦細胞?

當然不是。

很多時候思維大概就是在一些漫不經心的思考中獲得新的啟發的。

關于生成式對抗網路這方面的思考,林灰突然意識到他還有一筆巨額的隱形財富。

那就是前世的人工標注數據。

雖然沒太認真翻看前世一同攜帶來的信息。

但人工標注的數據林灰不可能是沒有的。

尤其是前世那些企業級硬盤里面絕對不可能沒有人工標注數據。

就算沒啥圖像的人工標注,涉及到一些文本的人工標注,絕對是不可能少了的。

畢竟這種東西相當實用,而且文本標注其實也不是很佔地方。

要知道涉及到神經網路學習訓練或者說深度學習訓練在模型構建的時候可是需要大量的人工標注數據的。

尤其是監督學習和半監督學習更是需要大量的人工標注數據。

通常一個模型在架構的時候需要很多的人工標注的數據。

在調整的時候也需要很多的人工標注數據。

溫馨提示︰方向鍵左右(← →)前後翻頁,上下(↑ ↓)上下滾用, 回車鍵:返回列表

投推薦票 上一章章節目錄下一章 加入書簽