簡體版

第155章 你渴望推開那扇門麼(下)

米娜•卡莉對中國還算熟悉。

但伊芙•卡莉還是第一次來到這個古老的東方國度。

這一路上的經歷對她來說就是一次新奇的探險。

盡管妹妹就在帝都,但她幾乎從未設想過要來中國。

此次之所以成行造訪中國還是因為埃瓦爾德•切瑞的建議。

當然,這只是一方面原因。

另一方面是因為林灰在北域,這才是她來到中國最重要的原因。

她迫不及待地想和這位構建出生成式摘要算法的超級天才見面。

飛抵帝都國際機場之後,經過了一系列必不可少的入境流程之後。

伊芙•卡莉幾乎片刻也沒在帝都逗留,跟米娜•卡莉會合之後二人就乘機直抵北域。

而按照水木和麻省理工方面先前協商安排好的流程。

在23號到25號這三天,六場學術座談會原本是有三場學術座談會都是需要伊芙•卡莉列席參加的。

但伊芙•卡莉滿腦子都是林灰,渾然沒什麼參加學術會議的興致。

因此這些學術會議全都被伊芙•卡莉以生病作為借口而推月兌了。

林灰,這麼一個遠在萬里之外的陌生人值得讓伊芙•卡莉這麼激動麼?

當然值得,不是相關領域的研究人員很難領略到林灰先前提出的生成式摘要算法意味著什麼。

正如埃瓦爾德•切瑞先前說的那樣︰

「LIN HUI的出現就像是幽暗而又遠的莽原上突然出現的一束耀眼的光。

在自然語言處理文本摘要這個細分領域,無論怎樣褒揚他都不算過分。」

這種說法毫不夸張。

作為文本摘要領域頂尖研究小組的負責人。

伊芙•卡莉很清楚之所以她們沒能先LIN HUI一步搞出生成式摘要算法。

不是因為他們不努力。

而是因為現有的自然語言處理涉及到文本摘要這方面的研究很大程度是走到了死胡同。

在這種情況下,別的算法團隊如果是按照他們的研究思路。

即便是將他們超越也不可能將他們超越太多。

而林灰提出的生成式文本摘要算法卻輕而易舉的碾壓他們先前的研究成果。

這意味著什麼不言而喻。

對于自然語言處理這方面的研究人員來說林灰提出生成式摘要算法最大的意義不在于這個算法本身的價值如何如何。

而在于林灰大概率是在自然語言處理這方面新打開了一扇門。

正因為如此,林灰在生成式文本摘要算法上的研究成果才會受到麻省理工學院的高度重視。

同樣是因為如此,先前她發給林灰請求見上一面的郵件得到林灰的同意之後她才會那麼開心。

她似乎听到林灰在向她發出呼喚︰「通往全新世界的大門就在那里,你渴望推開那扇門麼?」

雖然這種感覺是伊芙•卡莉的腦補,但即便有一絲一毫這種可能,伊芙•卡莉也不會放棄。

科學領域上能夠推開一扇新的門,這意味著什麼呢?

意味著這是一件極有可能載入科學發展史冊的事情!

像伊芙•卡莉這種層次的科研人員對金錢這樣的「利」感覺可能一般般。

但對于能夠載入科學發展史冊的「名」卻不是所有人能都夠坦然自若的說「不」。

反正伊芙•卡莉感覺她面對這樣的機會是絲毫不能抗拒。

雖然心中充滿了美好的願景。

但在和林灰會面之前伊芙•卡莉心情也不完全是激動。

伊芙•卡莉還隱隱約約有一絲擔心。

她很擔心她跟林灰的見面並不像想象中的那麼順利。

因為沒見到林灰的時候。

伊芙•卡莉已然知道了林灰是個年僅十八歲的天才。

少年成名的天才固然很讓人仰望。

但並不是所有人都希望身邊有一個這樣的天才。

伊芙•卡莉以前沒少見過年少成名的天才。

畢竟計算機以及計算機衍生領域最不缺的就是天才。

因為經常邂逅天才。

伊芙•卡莉的腦海中對這種年少成名的天才多多少少都有點刻板印象。

基于這些刻板的印象。

伊芙•卡莉雖然對林灰有過很多種種設想。

但這些設想基本離不開年輕、聰明、狂傲、偏激、自大、出言無狀、輕慢之類的標簽。

不過縱然料想林灰可能會有很多缺點。

伊芙•卡莉的內心深處已然做好了容忍林灰狂傲、偏激、自大等缺點的準備。

畢竟她是懷著學習的心態才來到這個東方國度的。

在跟林灰見面之前,伊芙•卡莉對跟林灰將要發生的交流唯一的期盼就是︰

——除卻收獲到無理的冒犯之外,多多少少能獲得一些學術方面有價值的信息。

等真的見到林灰之後,她才發現她先前的想法多多少少有點跑偏。

林灰確實很年輕很聰明。

但全然沒有她先前她設想的那般狂傲、偏激、自大。

非但沒有她先前設想的那般狂傲偏激自大。

林灰人很帥,性格很好,謙虛儒雅,言談舉止間還很照顧別人的感受,給人很舒服的感覺。

除了性格和煦之外,林灰在待人接物方面還很周到。

此次進行交流的公寓樓,雖然不甚華麗,但勝在環境優美。

最妙的是距離此處不遠還有一個人工湖,這和伊芙•卡莉以前工作的地方多多少少有些相似。

而且這次學術交流的形式和伊芙•卡莉以前團隊交流的方式很相似。

幾個志趣愛好相同的人聚在一起,以閑談的形式展開。

這一切讓伊芙•卡莉在異國他鄉收獲到了一份難得的親切感。

這些周到的安排讓伊芙•卡莉受寵若驚。

除卻這些,伊芙•卡莉最在乎的還是林灰在學術上的態度。

而最讓伊芙•卡莉意外的也是林灰在學術上的態度。

雖然林灰在研究成果上領先別人一大截,但林灰在學術上全然沒有學閥的架子。

林灰很擅長傾听。

這是一件極其難得的事情。

在自然語言處理專家學者里面找一位擅于傾听的專家似乎比在地球上找一只大熊貓還要難。

很多自然語言處理的專家學者都是計算機從業人員出身。

在伊芙•卡莉印象中,這類人員向來都是自顧自的表達,最不擅長的就是傾听。

或許並非不擅長傾听,只是單純的不喜歡傾听。

似乎傾听別人的思維路線和研究現狀很容易讓他們想起早年debug時的痛苦經歷一般。

但在林灰這里情況卻很不一樣,林灰很善于傾听。

在座談會剛一開始的時候,原本伊芙•卡莉是打算讓林灰先發表意見。

結果卻被林灰示意讓她先說,這讓伊芙•卡莉很不適應。

一時半會她竟不知道該說什麼好,只能將前不久她發給林灰的郵件再次詳細地加以闡述。

伊芙•卡莉之所以介紹這方面,除了想不到合適的話題切入點這個原因之外。

還有另一重原因,那就是伊芙•卡莉很好奇林灰在LH文本摘要模型的構建時究竟是如何評估文本相似度的。

但這個問題伊芙•卡莉也不好意思直接問,只好旁敲側擊。

剛開始表述的時候伊芙•卡莉還有點緊張,很怕贅述郵件上重復的內容引起林灰的不滿。

但林灰似乎毫不介意,就那樣認真地听她陳述。

林灰這種態度讓伊芙•卡莉沒那麼緊張了。

在陳述的時候,伊芙•卡莉注意到一個小細節︰

在機場往回來的路上,當她向林灰建議找個翻譯進行同傳的時候林灰幾乎不假思索就同意了。

但在實際溝通的時候,伊芙•卡莉從林灰的一些反應判斷出林灰其實是能直接听懂她所表達的內容的。

既然如此,林灰當初為什麼還答應她的請求?

而不是直接丟掉翻譯跟她溝通呢?

或許這一切都是為了給予對等的尊重吧!

這份對等的尊重不光是給予伊芙•卡莉的,主要是給予米娜•卡莉的。

試想一下,如果林灰壓根不需要翻譯就能和伊芙•卡莉交談。

似乎最尷尬要數跟伊芙•卡莉一塊同行的米娜•卡莉了。

一個男人能夠做到這份細心確實不容易。

伊芙•卡莉對林灰的好感增添了零點幾個百分點。

妹妹似乎也注意到林灰在同傳方面這個善解人意的做法了。

伊芙•卡莉注意到米娜•卡莉有意無意地不知道撩動過幾回頭發了。

當然米娜的示好也可能僅僅是因為林灰的顏值。

按理說東方男性的外貌在西方人眼里是很難區分的。

但人帥到一定程度是超越地域局限的。

林灰似乎就是這種情況,哪怕以最苛刻的審美體系來評判,林灰的顏值也能打99分,滿分10分。

第一眼看到林灰時,如果不是林灰主動表露身份,伊芙•卡莉甚至覺得林灰的身份會是一個模特。

當然這些都是題外話了。

注意到林灰在細節方面有意無意釋放的善意之後。

伊芙•卡莉在進行陳述的時候徹底放松了下來。

在向林灰著重介紹了這個時空里人們是如何評估文本相似度的。

伊芙•卡莉注意到林灰听說她的團隊先前是利用基于網絡知識的方法來評估文本相似度時眉毛蹙了一下。

莫非是林灰並不認同基于網絡知識評估文本相似度的方法?

還是說林灰覺得有什麼方法比這種方法更好呢?

伊芙•卡莉默默將這件事記在心里。

在伊芙•卡莉陳述完成後。

林灰領略到了她的意思。

不過卻並沒有正面回答伊芙•卡莉的問題。

而是反問伊芙•卡莉︰「關于使用向量介入進行語義文本相似度計算你怎麼看?」

雖然這是林灰在這次交流中提出的第一個問題。

但這個問題讓伊芙•卡莉多少有點措手不及。

伊芙•卡莉不太清楚林灰為什麼提出這個問題。

莫非可以不依靠向量來進行語義文本相似度計算嗎?

可這怎麼能做到呢?

機器識別文本時為了要機器識別自然語言,往往將自然語言數值化。

而將這些數值進行屬性區分則必須進行向量化。

這種方法已經有很長時間歷史了,伊芙•卡莉記得在1977年(這個時空)就有研究人員首次提出向量空間模型VSM了。

一經提出這種研究方法就比較受歡迎。

雖然很快這種方法就被發現了有不小的漏洞。

利用VSM方法的話,當文本量很大時,生成的文本向量是非常稀疏的,這就導致了空間和計算資源的浪費;

另外VSM為達到簡化模型的效果忽略了詞語間的關系,而在很多情況下詞語之間是存在聯系的,因此簡單地認為詞語間相互獨立是不合理的。

盡管有著明顯的漏洞,但在之後近四十年的歷史中,人們仍然要引入向量進行語義文本相似度分析。

以伊芙•卡莉先前的團隊,雖然他們在先前用的是基于網絡知識計算文本相似度的方法。

但本質上也只是將Wiki百科中的網頁內容映射為高維向量,

再通過基于向量空間的方法進行語義文本相似度計算。

可以說依舊沒能離開向量空間的殼子。

雖然四十年後,當年遇到的所謂的「空間和計算資源浪費」某種程度上可以通過硬堆計算力可以暴力解決。

但這僅僅是能解決當年遇到的難題而已。

現在文本處理時面對的信息量復雜程度和當年完全不可同日而語。

此時的向量化面對著全新的困難——維度爆炸!

維度災難(又名維度的詛咒)是一個最早由理查德•貝爾曼在考慮優化問題時首次提出來的術語,用來描述當數學空間維度增加時,分析和組織高維空間(通常有成百上千維),因體積指數增加而遇到各種問題場景。

當在數學空間上額外增加一個維度時,其體積會呈指數級的增長。

這樣的難題在低維空間中不會遇到。

比如物理空間很少會遇到這樣的問題,畢竟物理上通常只用三維來建模。

說起來很神奇,盡管物理上很難遇到維度爆炸問題。

但在自然語言處理、機器學習方面維度爆炸是常有的事情。

在這一領域隨便一點信息量都會輕而易舉地突破三維。

其實在很多領域中,如采樣、組合數學、機器學習和數據挖掘都有提及到維度爆炸的現象。

這些問題的共同特色是當維數提高時,空間的體積提高太快,因而可用數據變得很稀疏。

在高維空間中,當所有的數據都變得很稀疏,從很多角度看都不相似,因而平常使用的數據組織策略變得極其低效。

事實上伊芙•卡莉她們先前團隊所應用的基于網路知識進行文本相似度衡量時。

如果直接對所有網頁進行分析,往往會導致知識含量稀疏計算困難。

事實上,這種情況就是因為維度爆炸所導致的。

伊芙•卡莉很清楚現在這種利用向量引入到語義文本相似度的方法會帶來維度爆炸。

林灰為什麼突然詢問她如何看到將向量引入到計算語義文本相似度呢?

莫非林灰真的有什麼辦法能夠妥善處理維度爆炸這一問題嗎?

可是在機器學習、自然語言處理方向的維度爆炸並不是那麼容易解決的。

還是說林灰打算干脆繞過向量去衡量語義文本相似度嗎?

------題外話------

(●'?'●)

溫馨提示︰方向鍵左右(← →)前後翻頁,上下(↑ ↓)上下滾用, 回車鍵:返回列表

投推薦票 上一章章節目錄下一章 加入書簽