簡體版

第196章 他代表著一個未來

印證了自己的判斷之後。

賀天昌不由得更加欣賞林灰了。

當然了賀天昌知道林灰之所以大大方方毫無避諱地承認這件事是因為林灰構築的壁壘已經實現了。

賀天昌一直在關注林灰專利申報的情況。

因此林灰專利壁壘順利組網這件事賀天昌早就注意到了。

賀天昌覺得如果林灰的規劃尚未實現的話以兩人剛剛初識這種程度即便賀天昌將這個問題拋出來。

林灰也未必痛痛快快地承認這件事。

換作是二十年前的話,這種謹慎且算計較多的性格,賀天昌可能會很反感。

但現在的話,賀天昌反而欣賞這種性格。

_一段時期研究似乎是太渴望進展了。

很多技術不待完成完成技術壁壘的構建就冒冒失失地拿出來。

很多技術明明很有商業價值,可因為準備不足往往被對手鑽空子。

最終導致,明明是金瓖玉,卻只能賣出白菜價。

不免讓人痛心。

跟林灰的交流,賀天昌詢問了一些關于生成式文本摘要算法的問題。

當然賀天昌好奇的不是具體技術本身。

他好奇的是林灰的科研過程。

像林灰這樣一個未經過學術方面系統學習的人是怎樣一個人搞定全球領先算法的呢?

賀天昌問了林灰一些常規的問題。

比如說林灰是怎麼搞定語言模型訓練的語料庫的?

事實上這並不是林灰第一次听到這個問題了。

先前伊芙•卡莉就在信中提問過林灰這個問題。

不過就算林灰以前沒听人提過這個問題也不用擔心被問住。

涉及到生成式文本摘要算法專利,最容易讓這個時空外界不解的就是語料庫的問題了。

不提前想好牽扯到訓練語言模型所用到的語料庫問題該怎麼解釋就貿然拿出文本摘要方面的新成果很容易遭受這樣那樣的質疑。

這樣的問題林灰早就注意到了。

凡事預則立,不預則廢。

對于這個問題,林灰準備了至少三個備選的答案。

林灰將他先前準備好的說辭說給了賀天昌教授。

賀天昌有種茅塞頓開的感覺。

賀不由得感慨果然長江後浪推前浪啊。

不過,在林灰提到的幾種方法中。

賀天昌比較奇怪的還是借助互聯網自動構建文本語料庫這種方法︰

當利用這種方法構建語料庫的時候,用戶只需要提供所需的文本類別體系。

而後從互聯網中采集大量網站,提取並分析網站的內容層次結構和每個主題詞對應的網頁內容信息。

從每個網站中篩選出用戶所需要的文本作為候選語料。

而後對形成的語料庫進行去噪。

事實上這種方法賀天昌記得以前看過國外大學一些學報似乎記錄過這方面的研究。

可國外那次失敗了,因為采集到的語料庫噪點太大,停用詞過多,根本不堪一用。

林灰為什麼會提出這種方法。

莫非林灰對去噪所用的算法一定有獨到的理解。

涉及到NLP什麼的其實賀天昌也不是很擅長。

但問題不大,賀天昌國內可是有些老朋友很是精于此道的。

賀天昌默默將這事記下了。

同賀天昌學術上的交流,林灰收獲還是很大的。

首先就是借賀天昌林灰知道了國內在自然語言處理前沿方向的研究情況。

而國內現在在NLP方向的研究是什麼狀態呢?

簡單的概括就是「白紙一張」

當然並不是說國內沒有研究自然語言處理的,只是這些人研究的進度同國際上研究進度大致相仿。

也就是說整體上落後于前世2014的研究進度的。

在這種情況下,林灰想做學術搬運工的話似乎也是如入無人之境。

整個自然語言處理以及神經網絡學習這兩個方向幾乎就是林灰面前的一張白紙。

等著林灰在上面書寫下華麗的篇章。

不過即便如此,涉及到具體執行的時候林灰也不會大包大攬。

只需要林灰適時搞定一些關鍵的進展。

涉及到一些瑣碎方面的進展就沒必要過于貪功了。

畢竟學術方面的成果並不是一蹴而就的。

隨便一個涉及到生成式摘要算法這樣簡單理論背後的東西也是超級麻煩。

盡管很麻煩但結果值得期許。

在通話臨近結束之時。林灰又幾次三番地感謝了賀天昌教授為了幫他申請一些扶持這事。

賀天昌卻堅稱即便將來有扶持性政策,也都是林灰應得的。

話是這麼說的,賀天昌心里也是這麼想的。

雖然賀天昌的研究方向涉及不到自然語言處理。

但這並不等于賀天昌對一無所知。

他山之石可以攻玉,適當借鑒一下別的行業的研究思路能給自己的研究方向帶來啟發。

因此很多時候對一些計算機以及計算機衍生方向取得的進展賀天昌還是很關心的。

再加上自然語言處理這個方向下限極低,並不是需要很高的門檻。

因此對自然語言處理這方面賀天昌也是涉獵一些的。

至于林灰鼓搗的東西。

因為最近對生成式摘要這個算法相關知識的惡補以及機緣巧合之下參加了一些和生成式摘要算法有關的學術會議。

現在的賀天昌對生成式摘要算法還是很了解的。

涉及到摘要的重要性自然不言而喻。

這並不是賀天昌在牽強附會。

摘要的能力相當直觀地這反應了人們對信息的處理能力。

在信息時代,誰對信息的處理能力越強誰就越能具有信息方面的優勢。

而信息差方面能夠確立了優勢無形中其余領域也具備了優勢。

涉及到摘要這個方向,傳統的摘要算法都是抽取式摘要算法。

這種算法很大程度上工作起來的樣式很像是粗暴地「截搭」。

而生成式則是計算機「通讀」原文後,在理解整篇文章意思的基礎上,按照預先給定的摘要模型生成流暢的概括。

這種方式要求機器理解後概況。

看得出來,相比于抽取式摘要算法生成式摘要算法更像是人的思維。

能夠做到這一點,生成式摘要算法用到的相應模型最起碼要有比現有算法更強的表征能力、理解能力。

雖然不知道林灰具體是怎麼搞定這麼強大的模型。

但涉及到語料庫這個最麻煩的問題林灰都有辦法解決,順手牽羊搞定別的難題也不奇怪。

到現在為止,在賀天昌看來林灰已經創造太多太多的奇跡了。

無論是學業上還是商業上抑或是事業上。

在這堆奇跡光環的加持下,賀天昌覺得林灰即便是能夠搞定生成式摘要算法也不算什麼。

甚至賀天昌還有預感,林灰的成績絕不僅限于一個生成式摘要算法就完事了。

林灰代表著一個未來!

溫馨提示︰方向鍵左右(← →)前後翻頁,上下(↑ ↓)上下滾用, 回車鍵:返回列表

投推薦票 上一章章節目錄下一章 加入書簽