時間更少意味著什麼呢?
意味著效率的空前提升。
此前伊芙•卡莉一直不是很理解林灰是怎麼突然異軍突起的。
現在她卻已然是心下了然了。
不過這樣的話,伊芙•卡莉覺得先前對林灰進行的有些估計就有點保守了。
同等規模語料庫下的訓練引入基于遷移思想的預訓練機制的訓練要比常規的至少能夠節省70%的時間。
這個數據是比較夸張的了。
如果一如伊芙•卡莉猜測的那樣的話。
那林灰搞出的東西不止是數據夸張,功用也將是很離譜
要知道基于遷移思想搞定的東西某種意義上講是可以「遷移」的,也就是可移植性。
這特麼的就逆天了。
涉及到文本摘要甚至是整個自然語言處理這一領域的研究以前多多少少是有點圈地自萌的意味的。
但如果具有了遷移性那完全是有可能滲透到別的領域的。
心念及此,一時之間伊芙•卡莉感覺林灰的著眼點也一定不是自然語言處理的這個小魚塘。
林灰在下一盤大棋。
盡管和林灰相識不久,但作為一個跟林灰經常學術交流的人。
伊芙•卡莉能篤定林灰在學術方面的野心是極大的。
此前,伊芙•卡莉就感覺林灰能開啟自然語言處理這個方向嶄新的大門。
現在看來,以後林灰所影響的方向絕對不止是自然語言處理這一個方向。
涉及到整個機器學習領域,林灰都將有很大的建樹。
甚至可能還遠遠不止于此,對于這一切伊芙•卡莉很期待。
沒有什麼比見證一位天才的雄起更興奮的了。
(如果有,那或許只能是目睹一位「神」的破滅了。)
縱然現在的林灰還沒有什麼頭餃加持。
不過,過往林灰的成就已經足夠耀眼了。
伊芙•卡莉相信林灰會一點點將其野心所踐行的。
為什麼伊芙•卡莉能得出這樣的判斷呢?
林灰在過往在學術方面取得的璀璨成果只是伊芙•卡莉得出這樣推斷的原因之一。
這不是最重要的原因。
真正讓伊芙•卡莉得出林灰能將其野心踐行的原因在于林灰有自己的學術風格。
相比于看得見的學術成果。
學術風格這種東西很玄學,看不見模不著。
听起來很虛幻的東西。
但學術風格這東西確確實實存在。
關于「學術風格」這一名詞的討論也常常現于各種學術交流以及科研人員日常的討論中。
無論是學術路線、學術習慣這些東西某種意義上都會影響學術風格的形成。
衡量一個科研人員在學術方面是劃水的還是水準之上的一般主要看是否有獨立的學術風格。
一般學術方面只是劃水的科研人員普遍都沒有自己的學術風格。
其研究成果就比較隨心所欲那種,研究課題也以「跟隨研究」為主。
而水準之上的科研人員則普遍有著穩定的學術風格。
學術風格的穩定盡管不能意味著一切。
但起碼也意味著該研究者對學術路線有著比較明確的規劃。
或許林灰本人也沒注意到他的學術風格。
但伊芙•卡莉覺得林灰是有屬于其自己的學術風格的。
而且這風格很明顯。
林灰擁有學術風格這件事也能側面反映出其學術路線的穩定。
故而伊芙•卡莉是很相信林灰能夠按部就班實現其野心的。
而林灰是什麼樣的學術風格呢?
太具體的伊芙•卡莉暫時也無法精準描述。
但就學術習慣方面而言,伊芙•卡莉覺得林灰有一極其鮮明的特征。
那就是林灰總是致力于贏在起跑線上。
當然贏在起跑線上只是比喻說法,確切地表述應該是
——在解決學術問題以及實際上的工程問題的時候林灰很傾向于將可能出現的問題扼殺在萌芽狀態。
得出這一判斷,伊芙•卡莉自然有相應的依據。
就拿前不久林灰在論文補充內容中所提到的預訓練來說吧。
此前涉及到「訓練」的時候人們往往想到是對訓練生成的模型由機器學習方面的專家進行調整。
很少有像林灰這樣的對訓練過程就有想法的。
畢竟涉及到語料訓練這已經是一個語言模型構建很靠前的問題了。
除了這個例子之外,還有此次來到中國和林灰的第一次談話。
當時兩人聊到了對「語料向量化之後再處理可能導致的維度爆炸」相關問題的處理時。
原本伊芙•卡莉設想的降維做法有將高維模型轉化為低維模型、將分析後得到的高維數據降低成低維數據等等。
而林灰提出的思路卻是將語料向量化之後得到原始高維向量數據直接進行降維處理。
要知道在此前涉及到維度爆炸這件事幾乎沒啥研究者想到直接對維度本就比較高的原始數據做文章。
畢竟這涉及到將語料信息抽象成向量原始數據已經差不多其對應研究中特別靠前的一個環節了。
伊芙•卡莉覺得這些都可以佐證她先前的判斷。
依據她先前的判斷的話,還可以在此基礎上進一步推斷。
如果一個科研項目涉及到多個環節,每個環節都有可施為的空間。
那林灰一定會在最初的環節下主要功夫或者是最初環節還要之前的地方開闢新的賽道。
知道這個有什麼用呢?
當然有用,甚至是有大用。
此前伊芙•卡莉對林灰為什麼要收購她搞出的那項專利即《文本判斷甄別比較的一種新方法》這個專利是很不明所以的。
在林灰提出了生成式文本摘要算法之後。
現在的自動文摘實現方法主要分為抽取式方法和生成式方法︰
這兩種摘要方法有很多原理和實際效能的區別。
但此二者本質上都是自動文本摘要。
舉凡是自動文本摘要,其技術框架就都可以概括為︰
內容表示→權重計算→內容選擇→內容組織。
內容表示是將原始文本劃分為文本單元的過程,主要是分字、詞、句等預處理工作;
內容表示的主要目的是通過預處理將原始文本處理成算法容易進行分析的形式。
權重計算則是要對文本單元(即預處理後原始文本)計算相應的權重評分,權重的計算方式多樣,如基于特征評分、序列標注、分類模型等提取內容特征計算權重。