簡體版

第250章 無比巧妙的思路

具體到林灰當時對伊芙•卡莉撰寫的那篇論文的改動。

客觀來說,其實當時那篇論文涉及到生成式文本摘要這方面林灰的改動並不算很多。

林灰只是補充了一些內容。

但林灰補充的內容卻幾乎都是精髓之所在。

通過林灰的補充內容伊芙•卡莉更進一步了解了林灰是如何搞定南風APP里面文本摘要技術的。

林灰在就構建生成式文本摘要算法采取了很多巧妙的方法。

無論是基于深度學習技術設計合適的模型架構和訓練策略。

還是借助遷移學習的思想提出了基于預訓練模型的生成式自動文本摘要算法。

抑或是通過無監督來完成內容表示以及權重計算。

這些都是伊芙•卡莉此前所沒想到,或者說從來沒深刻認識的。

一個相關領域的博士居然還有此前沒認識到位的東西?

听起來似乎有些不可思議,但事實如此。

正所謂聞道有先後,術業有專攻。

一時的落後于人也沒什麼不可承認的。

而且伊芙•卡莉敢肯定她這種情況絕對不會是孤例。

伊芙•卡莉覺得林灰所補充的內容未必只是她本人沒想到。

很多其余的研究者或許也是沒想到的。

林灰提出的一些新的見解不止是相對于傳統的文本摘要這方面的研究

甚至是對于整個NLP方向來說林灰鼓搗的東西都可以稱得上是全新的思路。

反正伊芙•卡莉是覺得這些思路很奇妙,甚至有可以讓人有一種醍醐灌頂之功效。

之所以會有這樣的功效,很大程度上是因為在此之前多數文本摘要的研究人員都是研究抽取式文本摘要的。

抽取式文本摘要和生成式文本摘要雖然都是文本摘要。

但從前者到後者的轉變涉及到一個思路上轉換的過程。

很多時候多數傳統文本摘要方面的研究人員亦即研究抽取式文本摘要的研究人員受先入為主的影響對生成式文本摘要認識不到位也是常有的事情。

舉個例子,就比如說林灰在搞定生成式文本摘要時所提出的預訓練。

按說,這個東西並不算什麼高深的概念。

所謂的預訓練倒是不難理解,無非就是對訓練模型的數據進行粗處理而已。

但這玩意就比較難想到。

以前伊芙•卡莉在進行抽取式文本摘要這方面的調校時候就沒用到預訓練。

多數情況下都是直接進行訓練的。

而沒有應用預訓練這一步驟。

按照林灰在論文中進行的補充。

預訓練的通常做法一般是將大量低成本收集的訓練數據放在一起。

而後以某一種或者某一類特定預訓方法去學習這些訓練數據其中的共性。

然後將其中的共性移植到特定任務的模型中。

再使用相關特定領域的少量標注數據進行更細致的調校。

完成這一過程之後,今後用于實際應用的模型模型只需要從共性出發。

再去學習特定任務的特殊部分即可。

大概類似于對于部分方程先求通解再去找特解的過程。

听起來似乎蠻抽象的。

實際上也沒多麼高深。

涉及到機器學習這方面,無論多麼高深的東西。

其本質上基本都是在模仿人。

在這種情況下,往往我們只要了解人是如何處理問題的。

就能理解機器學習處理問題的思路或者說是方式。

通常我們在學習東西的時候。

或許我們的初衷是想著是將所有想學的內容一次性學懂學精。

但因為學習時間有限、學業任務繁多或者其余各種各樣的客觀要素。

實際學習的時候是很難將所有的知識的學得一步到位的。

在這種情況下,一些擅于學習的人是怎麼學習的呢?

這些人在進行學習時可能采用的做法是先將想學的知識的共性內容搞懂。

而後再花時間放在一些那些「疑難雜癥」上。

雖然這種做法似乎是有點「偷懶」。

但人類一多半的智慧結晶都是因為偷懶才出現的。

不可否認這種看似偷懶的學習方式充滿智慧。

至少從效率角度衡量的話,這種方式很值得稱贊。

畢竟除了像醫學等極其特殊的學科之外。

大部分領域所涉及到的知識,80%都是能夠找出共性的。

在找到共性之後,再去解決另外的20%復雜知識。

這無疑是一種比較省力的思維。

在自然語言處理這個機器學習的典型方向引入預訓練。

無疑等同于將部分優秀學生在學習中會用到的一種特殊的技巧「移植」過來。

這種思路無疑很是很巧妙。

思路固然很巧妙。

但正如路邊李苦的道理一樣。

為什麼這種很巧妙的思路以前卻沒人嘗試過呢?

伊芙•卡莉覺得未必是沒人想過這方面。

但別人卻無一例外的失敗了。

涉及到知識的汲取,或許絕大多數人也知道先將80%有共性的知識搞定再搞定另外的20%可以省力。

但從過往的學業上看,伊芙•卡莉覺得她身邊能夠做到先將知識80%的共性找出來再去攻克疑難處的人少之又少。

甚至于除了伊芙•卡莉眼中的學霸之外根本沒啥人能做到這一點。

伊芙•卡莉眼中的學霸又能有多少人呢?可以說是寥寥無幾了。

也就是說這種先將80%有共性的知識搞定再搞定另外的20%這種很明智的做法實際很少有人應用。

明明是看起來更加容易的方式。

什麼沒多少人這麼做?

伊芙•卡莉覺得主要原因是︰

——大部分人並不善于找到知識的共性。

在不善于找到知識共性的情況下,一部分人雖然會嘗試著找知識共性。

但實際上操作的時候找到80%知識的共性完全是奢望。

可能只能找到30%、20%甚至更少知識的共性。

如此一來這些人非但沒有能夠找到主體知識的共性。

反而在找共性的時候不知不覺將其余一些原本是普通的內容給異化成了這些人眼中的「非共性知識」。

而非共性知識在這些人心中又被這些嘗試找共性的人心理暗示成了比較麻煩的知識。

這些原本並不是特別難的知識,在心理暗示的debuff下。

效率甚至比不找共性時的效率還要低。

如此,未找到共性的人反而有可能成為這些嘗試尋找共性的人的所需要耗費大量時間去攻克的內容。

溫馨提示︰方向鍵左右(← →)前後翻頁,上下(↑ ↓)上下滾用, 回車鍵:返回列表

投推薦票 上一章章節目錄下一章 加入書簽