第130章步步緊逼的追趕者(下)

投推薦票上一章 ← 章節目錄 → 下一章加入書簽

哈雷‧普萊斯知道埃克萊爾‧基爾卡加所說的LSTM神經網絡。

LSTM神經網絡更確切的稱呼應該叫做「長短期記憶神經網絡」。

這是一種特殊的循環神經網絡。

相比普通的循環神經網路，長短期記憶神經網絡在應用中對間隙長度不敏感。

這是長短期記憶神經網絡的一個優勢，使得其能夠在處理更長的序列中有不錯的表現。

哈雷‧普雷斯仔細回想LIN HUI在技術路線中所描述算法特征以及南風APP這款軟件的實際表現。

LIN HUI在生成式摘要算法中提到的技術路線里面明確表示了要將文本信息通過向量來實現序列化標記之後再進一步處理。

而長短期記憶神經網絡恰好可以處理長序列文本。

LIN HUI鼓搗的算法在處理文本摘要時具有極高的準確性。

而長短期記憶神經網絡在處理實際問題的時候一大特點就是具有頗高的準確性。

LIN HUI依托于生成式摘要算法鼓搗出來的南風APP一次只能處理一條新聞摘要。

而長短期記憶神經網絡的缺點就是結構較為復雜，並行處理上存在劣勢。

如果LIN HUI的算法只是一個方面和長短期記憶神經網絡特性比較吻合。

哈雷‧普萊斯或許會以為只是個巧合。

但現在，三個小概率事件湊到一塊。

哈雷‧普萊斯覺得並不是簡單的巧合。

他越發感覺埃克萊爾‧基爾卡加的推斷是正確的，不由得感慨道︰

「我說為什麼LIN HUI算法中應用的那個神經網絡有循環神經網絡的影子但又和傳統的循環神經網絡有些不一樣呢，原來用的居然是長短期記憶神經網絡。

埃克萊爾‧基爾卡加還真有你的！居然能想到這個這個方向。

說實話，我一開始雖然覺得LIN HUI算法中應用的神經網絡特性有點怪異。

但是還真沒往長短期記憶神經網絡那個方向想……」

埃克萊爾‧基爾卡加能理解哈雷‧普萊斯為什麼沒在第一時間想到長短期記憶神經網絡。

近幾年長短期記憶神經網絡主要都是用于語音識別方面的原因。

現在這個階段一般的研究學者還真不會想到會將長短期記憶神經網絡用在文本摘要這方面。

不過理論上講將長短期記憶神經網絡神經網路用于文本識別方面完全是可行的。

但具體如何將長短期記憶神經網絡應用于文本識別，暫時埃克萊爾‧基爾卡加也不太清楚。

這個還需要一段時間的研究來探索。

哈雷‧普萊斯沒有想到長短期記憶神經網絡神經網路應該還有另一方面的原因。

因為長短期記憶神經網絡並不是什麼新鮮玩意。

Hochreiter和Schmidhuber于1997年提出了長短期記憶神經網絡。

距今天已經將近二十年了，可以說是很久遠了。

雖然長短期記憶神經網絡在處理長序列文本的時候可能會有一定的優勢。

但實際上當初提出長短期記憶神經網絡並不是為了文本處理。

當時之所以提出長短期記憶神經網絡神經網路是為了處理訓練傳統循環神經網路時可能遇到的梯度消失和梯度爆炸問題。

在機器學習中，用基于梯度的學習方法和反向傳播訓練人工神經網絡時。

有時會遇到梯度消失和梯度爆炸的問題。

這兩種情況都不是研究人員希望看到的情況。

出現梯度消失或梯度爆炸後，原本的深度學習根本深不起來，只能說是淺度學習。

個別極端情況，別說淺度學習了，連最起碼的機器學習都做不到。

總而言之，梯度消失和梯度爆炸問題會極大地降低利用神經網絡的深度學習的訓練效率。

梯度消失和梯度爆炸問題也是一個極其難纏的問題。

和神經網絡有關的研究人員在1991年就注意到梯度消失和梯度爆炸現象。

該問題在長短期記憶神經網絡出現後得到一定的緩解。

但還是沒有徹底解決梯度消失和梯度爆炸問題。

除了利用長短期記憶神經網絡之外，其他的幾種處理梯度消失和梯度爆炸的問題的方式（比如說多級層次結構、利用更快的硬件、利用其他的激活函數等等。）也各有各的局限性。

總之梯度消失和梯度爆炸問題但還沒有被徹底解決。

到今天梯度消失和梯度爆炸問題已然成為了機器學習上空中一朵烏雲。

這個問題已然嚴重制約機器學習向前發展。

心念及此，埃克萊爾‧基爾卡加不免有些感慨。

也不知道這個問題什麼時候會被什麼人徹底解決？？？

埃克萊爾‧基爾卡加突然感覺他對LIN HUI算法這麼較真也沒什麼必要啊？

諸如梯度消失和梯度爆炸現象這問題都二十多年了還沒徹底解決。

不也沒什麼人著急嗎？至少看起來沒啥人著急？

自己為什麼要為要跟LIN HUI這麼一個算法較勁呢？

埃克萊爾‧基爾卡加突然有些疲乏感。

不過面對興沖沖的同事，埃克萊爾‧基爾卡加還不至于打退堂鼓。

埃克萊爾‧基爾卡加︰「我現在還不能夠肯定LIN HUI算法中用的就是長短期記憶神經網絡。

只能說LIN HUI算法中所采用的神經網絡的特征有點類似于長短期記憶神經網絡。

至于到底是不是還有待驗證。

說起來那些高層跟麻省理工學院自然語言處理文本摘要研究小組那邊鬧得不歡而散還真是個損失。

據我了解伊芙‧卡莉他們在研究抽取式文本摘要算法的時候就用到了循環神經網絡了。

只不過他們用的具體是哪種循環神經網絡暫時還不清楚。

不過不管怎麼說，我覺得能有麻省理工學院那邊的幫助的話對我們來說將會助力不小。」

哈雷‧普萊斯︰「這倒是個問題，不過問題不大。

m國最不缺的就是研究機構。

我前段時間听尼克那家伙說普林斯頓大學的朱爾斯教授正在搞一個循環神經網絡的項目。

或許我們可以跟普林斯頓大學展開合作？」

埃克萊爾‧基爾卡加︰「呃，你確定要跟普林斯頓那些傲慢的數學佬打交道？

他們看我們的就跟我們看那些文科生的一樣？

還有如果我們和他們合作的話，究竟是以誰為主導？研究出來的成果又怎麼劃分？」

哈雷‧普萊斯︰「他們怎麼看我們無所謂。

一群搞數學的現在搞循環神經網絡，誰更佔優勢還不一定呢？

至于誰主導到時候再說吧，一切達者為尊。」

埃克萊爾‧基爾卡加︰「那你去聯系吧，反正我是懶得跟朱爾斯那個老禿驢洽談。」

哈雷‧普萊斯︰「呃，其實我也不想去跟朱爾斯聯系……」

埃克萊爾‧基爾卡加︰「那你還提這個餿主意？」

哈雷‧普萊斯壞壞地道︰「或許我們可以叫阿西萊‧維拉斯克斯去，誰叫他賣專利給那個LIN HUI……」

埃克萊爾‧基爾卡加︰「這是個好主意！」

－－－－－－題外話－－－－－－

處理梯度消失和梯度爆炸有好幾種方法，主角掌握的殘差神經網絡。殘差神經網絡不止能處理這一個問題還能順帶著解決一個很重要的問題。提出殘差神經網絡那個論文，特別大的影響力。論文提出來不到六七年時間，現在引用次數107599次了。感覺主角拿出來這個論文，博士沒問題。而且正常時間線這個論文就是15/16年出現的。不算太離奇。

溫馨提示︰方向鍵左右(← →)前後翻頁，上下(↑ ↓)上下滾用，回車鍵:返回列表

投推薦票上一章 ← 章節目錄 → 下一章加入書簽

第130章 步步緊逼的追趕者(下)

第130章步步緊逼的追趕者(下)