簡體版

第100章 谷歌產生濃厚興趣

因為時差的原因,中國雖然已經夜晚了,海外卻還處于白天。

也就是說林灰雖然休息了,海外仍然有很多人處于忙碌的工作狀態。

在麻省理工學院自然語言處理研究中心的某辦公室里,伊芙•卡莉還在奮戰中。

事實上自從LIN HUI鼓搗的生成式文本摘要算法問世之後。

伊芙•卡莉不知道已經有多久沒合眼了。

之所以睡不著不是因為嫉妒,而是因為興奮。

用興奮形容似乎不夠準確,確切的說是一種異乎尋常的亢奮。

當然了亢奮也不是全部,亢奮之外還帶著一些畏懼。

而畏懼深處卻又是期待。

雖然心情很是扇形圖,但伊芙•卡莉確定她的每一種心情都不是無緣無故的。

作為科研工作者,能夠接觸到一種前所未有的解決問題的方式自然是興奮的。

而越是深入了解生成式摘要算法,這種興奮之感就越來越強。

隨著深入了解,伊芙也越是感覺提出算法的人的實力強勁。

實力上的差距讓伊芙•卡莉有點招架不住,不自覺的生出些許畏懼。

伊芙•卡莉似乎理解了一句話︰

——越接近對方的水平,就越了解對方的強大,就會越來越畏懼。

至于期待就更容易理解了,人類對未知的事物本就是好奇的。

盡管每種感覺都很合理,不過幾種心情混雜在一起總是怪怪的。

尤其是對于伊芙•卡莉這麼一個基本上從來沒啥情緒波動的人來說。

這種感覺更是前所未有的陌生。

呃,雖然不知道該怎麼形容那種奇怪的情愫。

但內心深處伊芙•卡莉是佩服LINHUI這位來自大洋彼岸的天才的。

什麼叫天才呢?雖然伊芙•卡莉25歲就獲得了世界頂級計算機研究機構之一麻省理工學院的計算機學院的博士學位。

但伊芙•卡莉從來不敢自詡為天才,雖然她一路順風順水,但付出的艱辛只有她自己知道。

在她看來天才的重點不在于「才能」,而在于「天分」

什麼「天才是靠99%的汗水和1%的靈感」這樣的話語完全就是騙人的鬼話。

在伊芙•卡莉眼中,歷盡千辛萬苦努力取得成功的人或許可以算作人才。

但這絕對不是天才。天才哪里用得到幾近于費力的努力?

或許天才也需要一點點努力,但絕對不需要這種緣木求魚一般的努力。

就好像所有人似乎都知道的走出房間要找到門卻各種束手無策。

而天才就是那個在眾人茫然眼光之下信步走到門前並輕輕推開門的那個人。

「歷盡千辛」「苦盡甘來」這些詞匯只能描述一般人。

「閑庭信步」、「舉重若輕」這才是屬于天才應該有的描述。

而LIN HUI就是絕對意義上的天才。

在所有人面對著抽取式摘要算法的瓶頸而找不到走出文本摘要這個房間的方法之時。

LINHUI恰到好處地出現了,在所有人的茫然下信步般推開了一扇被稱為是「生成式文本摘要」的嶄新的門。

在伊芙•卡莉心中,LINHUI就是被崇拜的偶像。

……

崇拜歸崇拜,技術沒有國界,技術人員卻有國界。

伊芙•卡莉所在的小組接到的任務是盡快跟進LINHUI提出來的技術。

接到的任務倒不是什麼更上級的科研管理機構發出的。

而是由谷/歌提出的。

谷/歌和伊芙所在的自然語言處理項目是深度戰略合作伙伴。

每年谷/歌贊助該團隊過千萬美元。

說白了谷/歌是伊芙•卡莉所在研究團隊的金主爸爸。

谷/歌的任務很簡單(至少谷/歌自己以為是這樣)︰

——評估LIN HUI提出的算法實現的可行性,並根據實際情況考慮能否短時間實現復現。

至于谷/歌為什麼回對林灰提出的算法感興趣?

這跟谷/歌的歷史有很大的關系。谷/歌之所以能有今天很大程度是因為PageRank算法。

在互聯網早期,隨著網絡上的網頁逐漸增多,如何從海量網頁中檢索出我們想要的頁面,變得非常的重要。

當時著名的雅/虎和其它互聯網公司都試圖解決這個問題,但都沒能有一個很好的解決方案。

直到1998年前後,兩位斯坦福大學的博士生,拉里•佩奇和謝爾蓋•布林一起發明了著名的 PageRank 算法,才完美的解決了網頁排名的問題。

正是因為這個算法,誕生了谷/歌公司。

PageRank 是一種通過網頁之間的超鏈接來計算網頁重要性的技術。

以谷/歌創辦人 Larry Page 之姓來命名,谷/歌用它命名也體現了該算法的重視程度。

該算法可以通過計算計算出數值體現網頁的相關性和重要性。

PageRank 通過網絡浩瀚的超鏈接關系來確定一個頁面的等級,把從 A 頁面到 B 頁面的鏈接解釋為 A 頁面給 B 頁面投票,谷/歌根據 A 頁面(甚至鏈接到 A的頁面)的等級和投票目標的等級來決定 B 的等級。

簡單的說,一個高等級的頁面可以使其他低等級頁面的等級提升。

該算法把整個互聯網可以看作是一張有向圖圖,網頁是圖中的節點,網頁之間的鏈接就是圖中的邊。

借助該算法可以衡量不同網頁的根搜索關鍵詞的關聯程度從而對網頁排序。

在很長一段時間內,當你在谷/歌鍵入關鍵詞後得到的搜索信息。

搜索信息里那一系列網頁對應著的網頁排列順序就是依托PageRank算法進行排序的。

這個算法的重要性可見一斑。

Page Rank算法不止用于搜索引擎領域。

還跨界進入了自然語言處理(NLP)領域。

在NLP方面大名鼎鼎的TextRank算法就是在PageRank算法之上而來的。

而TextRank算法一向是抽取式摘要算法的核心算法。

雖然目前TextRank算法主要用于自然語言處理方面。

但並不代表這個算法不能應用于搜索方面。

畢竟TextRank算法和用于搜索的PageRank算法本是同根生。

而林灰搞得生成式文本摘要算法(GTSA)雖然表面上看是文本處理算法。

但事實上也有作用于未來搜索領域的潛質。

相比于PageRank算法對網頁超鏈接抓取排序。

有了GTSA算法,谷歌可以更進一步直接對PageRank算法下排名靠前的網頁內容進行抓取獲取相應的信息。

按照信息和搜索關鍵詞的關鍵度再進行二次精確排序。

這無疑可以大大提高谷/歌搜索的準確度。

盡管以現在的技術將生成式文本摘要算法嵌套在PageRank算法之下還很難保證搜索高效率。

但誰能保證未來的服務器以及計算力水平不會突飛猛進呢?

萬一之後技術能夠暴漲呢?

而且就算短時間內谷歌無法將該技術用于搜索領域。

生成式文本摘要算法表現出的強大的文字處理能力也是很值得谷歌重視的技術。

反正從谷歌下達的任務的措辭來看。

對于生成式文本摘要算法,谷歌不僅重視。

而且急切渴望獲得該技術。

……

然而作為具體的執行人員,對于谷歌提出的任務︰

——評估LIN HUI提出的算法實現的可行性,並根據實際情況考慮能否短時間實現復現

伊芙•卡莉就很無語。

或許在那些決定腦袋的人心中。

清楚技術路線了,技術復現能夠實現與否只是時間長短的問題了。

但事實哪有那麼簡單。

反正進行了一晚上嘗試的伊芙•卡莉發現想要進行復現很難。

拋開LINHUI提出的算法技術本身不談。

就是LIN HUI在生成式摘要算法專利中順手牽羊搞定的那個「LH文本摘要準確度衡量模型」

其他團隊想要從無到有的構建一個同樣的模型都有億點困難。

說起來LH文本摘要準確度衡量模型的構建過程思路倒是很清晰︰

第一,運用語言模型來評估算法生成語言的流暢度;

第二,使用相似度模型評估文本和摘要之間的語義相關性;

第三,為了有效評估實體、專有詞的復現程度,引入原文信息量模型來評估。

然鵝也僅僅是說起來很簡單而已。

說到把大象放進冰箱也很簡單同樣是三步︰

——打開冰箱門,放進大象,關上冰箱門。

知道怎麼做沒用,關鍵還是要執行。

沒辦法執行的話,步驟再清晰也沒用。

LH文本摘要準確度衡量模型的構建過程有三步。

第一步就很復雜。

該怎麼進行語言模型的構建呢?

語言模型建模過程中,包括詞典、語料、模型選擇等。

問題出在語料庫上,語料庫一詞在語言學上意指大量的文本。

這類文本通常經過整理,具有既定格式與標記。

涉及到英文語料庫的信息還比較容易,畢竟伊芙所在的團隊和牛津、哈佛、耶魯三所大學的語言學方面都是深度合作的關系。

但涉及到中文以及其他文字預料信息該怎麼處理這就完全不好說了。

巧婦難為無米之炊。

沒有語料庫清楚技術路線什麼的也沒用。

倒是可以姑且先拋棄對中文以及其他新聞生成式摘要的研究。

但是這樣幾乎等同于放棄了一個龐大的市場。

而且最關鍵的是LIN HUI提出的算法本身就能兼顧中文新聞摘要以及英文新聞摘要。

那麼之後LIN HUI會不會直接開發個中文新聞處理成英文摘要的功能呢?

能搞定文本摘要處理算法的人沒道理一個翻譯算法都搞不定吧??

伊芙•卡莉越想越覺得這種可能性很大。

不然為什麼一個摘要軟件要做成類似于翻譯軟件那樣的交互風格呢?

在她們還在躊躇不前的時候。

對手卻早已經大步向前挺進了。

一時之間伊芙不禁有種酣戰過後的無力感。

這就是所謂的一步落後步步落後吧。

這種情況還評估啥?

直接建議谷歌方面把LIN HUI的算法買回來就好了!

雖然LIN HUI是華國人.

但這種技術又不是什麼涉及到國家命脈的重要技術。

總不至于不賣吧!

不賣的話謀求專利授權也可以啊!

總不至于非跟在別人身後造輪子吧。

伊芙又沒受/虐/欲。

……

事實上,不止海外在關注林灰折騰出的算法。

國內也注意到林灰搞出的動靜。

只不過國內目前的目光主要集中在南風APP的軟件層面而不是算法層面。

國央大學副校長兼計算機學院的副/院/長賀天昌自南風APP上架之初就對該軟件保持著高度的關注。

雖然夜已經深了,他仍然在通過第三方數據網關注著南風APP軟件的下載情況。

賀天昌在外界並不怎麼出名,但此人在軟件行業還算是小有名聲。

其在業界薄有名聲。倒不是因為其在軟件開發上鼓搗出什麼名堂來。

而是因為其資歷老啊!各行各業都看資歷,軟件行業也不能免俗。

不過賀天昌的資歷也經得起看,他和王J民基本是同一時期鼓搗軟件(96年)的人了。

就這份資歷全國互聯網/軟件行業能和其比肩的大佬也沒幾位。

有這種資歷就算在軟件行業沒啥作為也無所謂。

真想拉投資的話以其資歷在互聯網圈子隨隨便便拉個幾千萬的投資也不過是打幾個電話的事情。

就這麼一個原本搞軟件的人怎麼跑到大學來了?

故事要從九幾年開始說起,在感受到互聯網浪潮之後。

剛從米國加州理工計算機博士畢業的賀天昌放棄了美國優渥的工作。

回國參與創業,在王茳民鼓搗出殺毒軟件的時候,賀天昌也搞了幾個軟件。

不過和前者鼓搗的J民殺毒軟件不同。

賀天昌鼓搗的軟件,一般都是專業性很強的付費軟件。

雖然這個軟件以現在的眼光來看做的還算可圈可點。

但這樣的軟件在96年的中國注定是生不逢時。

不光96年這樣的軟件生不逢時,在這之後十多年時間也都是免費軟件大行其道,付費應用一直是沒啥市場。

(ps︰……付費盜版除外,js早期起家史)

事實也驗證了這點,混跡軟件行業六七年,賀天昌除了收獲了一些早期互聯網紅利之外別無所成。

更多的時候反而是在親歷別人的成功之外。

雖然他賺的錢和同一時期的人相比相形見絀,但其收入依舊足以羨煞普通人了。

但人的追求不同,賀天昌更想要的是自我實現。

然而一個人的命運光奮斗是不行的,不符合是時代訴求再折騰也沒用。

折騰了幾款專業性極強的軟件沒收到回報之後,心灰意冷的賀天昌干脆也不瞎折騰了,剛好有朋友引薦他進入國央大學。

賀天昌綜合思量之後,覺得國央大學還行。

直接經朋友引薦進入了國央大學任教職。

這之後他倒是混得順風順水,一路輾轉爬到很多人難以企及的高度。

雖然身居常人難以企及的高度。

但賀天昌因為早年的經歷,其目光也時刻關注著國內專業軟件的市場。

然鵝一直一來,賀天昌很失望,打著專業名頭的軟件不少。

真正專業的軟件卻一款都沒有。

一個國家的軟件業工業軟件鼓搗不出來就算了,專業軟件也弄不出來?

賀天昌對此一直耿耿于懷。

而南風APP的問世卻打破了他的心結。

綜合了很多方面的因素衡量,這個軟件確實具有專業軟件所具有的素質。

而這個軟件的專業模式更是符合專業軟件該有的全部特征。

看到國產軟件市場有這樣的軟件問世,賀天昌可以說是大為欣慰。

不過旋即又擔心了起來,即便有優秀的專業軟件沒有市場不是一樣難免夭折的命運嗎?

看著南風APP的第三方數據,雖然下載量不錯,但是這個專業模式的付費人數增長才兩位數。

這怎麼能行,認認真真做專業軟件的人卻得不到回報?

這算什麼道理,不行,不能讓這樣優秀的軟件開發者重蹈他昔年的悲劇。

賀天昌決定做點什麼,默默拿起手機撥通了一個老友的電話。

溫馨提示︰方向鍵左右(← →)前後翻頁,上下(↑ ↓)上下滾用, 回車鍵:返回列表

投推薦票 上一章章節目錄下一章 加入書簽