這種壞壞的想法就不足為外人道了。
有如此相像的姐妹。
確實有點出乎林灰的意料。
伊芙•卡莉笑著對林灰介紹道︰「你是不是把我們搞混了?
這位是我的雙胞胎妹妹——米娜•卡莉,你可以叫她米娜。」
之後伊芙•卡莉又向米娜•卡莉介紹到︰「這位就是LIN HUI先生,先前我給你提到過。」
言畢,伊芙•卡莉從包里取出了一副眼鏡戴上,似乎是為了方便林灰區分。
其實沒啥必要,除了剛剛見到這對姐妹那會林灰有點懵逼之外。
此時林灰已然能夠分得清誰是誰了。
即便是長相再相似,不同的成長環境培養出來的氣質完全是兩回事。
這種氣質上的區別足夠林灰將二人區分開了。
除了氣質之外,其實兩姐妹還是有點小區別的。
比如說兩個人身上的香水味不一樣;
再比如說……
說起來這點可能是人跟計算機很大的不同了。
長相如此接近的一對雙胞胎讓計算機或者說機器區分的話,其實是很難的。
縱然是號稱絕無差錯的步態分析,其實也會有出錯的時候。
相比于機器學習各種程序算法。
人腦的識別看似不成章法,但偏偏就效率奇高。
這背後的一切著實讓機器學習方面的研究人員好奇……
……
在伊芙•卡莉的引見之後。
林灰再次和米娜•卡莉打了招呼︰
「你好,我就是林灰,剛才真的很不好意思,不小心把你和你的姐姐搞混了。」
米娜•卡莉道︰「沒事的,我和我的姐姐在成年以前幾乎都在一起生活,很多人都會把我們搞混。」
米娜•卡莉說得不是英語,而是字正腔圓的普通話。
這讓林灰很意外,林灰道︰「你會講中文啊?厲害了。」
米娜•卡莉不以為然,反問道︰「你不也會講英語嗎?」
林灰︰「不一樣哦,對于非母語者來說,中文可是要比英語難學很多。」
對于這點米娜•卡莉表示了認同︰「漢語確實要比英語難學很多。
不過你應該也知道一句話,興趣是最好的老師。
華國是一個古老但又日久彌新的國度,這樣的國度自然很讓人著迷。
我第一次接觸就愛上了這個國家的文化……
當時我特別痴迷于唐詩。
在興趣的驅使下我開始了對中文的自學。」
這份痴迷林灰並不意外。
一時之間林灰又想到了因為RR這款游戲而努力學中文的大衛•楊。
林灰︰「你是自學的啊?
只听你說話的口音,我還以為你在華國呆了很多年了呢。」
米娜•卡莉︰「多謝夸獎,也不完全是自學。
我是在哈佛大學的時候,研究方向是東/亞語言。
最近在中國水木大學做訪問學者……」
訪問學者?
林灰印象中訪問學者好像都是博士級別的?
誠然如此的話,那麼這對姐妹還真是。
都是學霸基因啊。
一個語言學方面的博士,一個是計算機方面的博士。
強,無敵。
說到米娜,林灰雖然是第一次跟她打交道。
但總的來說相處還算不錯。
米娜讓人覺得沒距離感那種。
林灰記得從哪本雜志上看到過一篇分析雙胞胎性格的報道說雙胞胎姐妹性格往往迥異︰
一般來說,姐姐性格性格更活潑,而妹妹性格更內向。
這種情況顯然不太適合伊芙•卡莉和米娜•卡莉兩姐妹。
米娜•卡莉雖然是妹妹,但性格明顯要比伊芙•卡莉外向得多。
林灰才跟米娜•卡莉寒暄沒幾句,米娜•卡莉就打開了話匣子。
林灰樂得如此,要是伊芙•卡莉上來就跟林灰探討各種專業話題。
林灰還真不知道從何說起。
三個人一邊說話一邊朝著機場外走去。
一路上不時引得行人注目。
也可以理解,帥哥和美女的組合本就很吸楮。
……
通過交談林灰知道麻省理工的學術訪問團已經到達水木大學了。
事實上麻省理工的這個學術訪問團。
此次造訪華國為的就是林灰。
但是出于一些表面上的禮儀。
此時麻省理工的代表團仍然要在水木參加學術會議。
伊芙•卡莉是因為內心之中強烈的好奇才暫時月兌離了隊伍。
先行一步趕到了北域市。
而米娜•卡莉之所以和伊芙•卡莉同行是為了充當臨時翻譯。
麻省理工此次對水木學術訪問是有隨行翻譯的。
不過翻譯目前還要跟隨麻省理工學院的訪問隊伍參加各種學術會議。
林灰雖然會英語,但這僅僅限于正常的交流用。
涉及到學術上的交流,林灰現在的英語水平確實不夠看。
光顧著期待和伊芙•卡莉的見面卻沒考慮到和伊芙•卡莉會面時的交流問題。
這的確是林灰的疏忽。
不過伊芙•卡莉的做法,林灰同樣不覺得怎麼靠譜。
找個米娜•卡莉這樣全然沒有相應學術背景的人來充當翻譯?
林灰很懷疑米娜•卡莉能否勝任翻譯工作。
倒不是林灰蔑視人。
但畢竟隔行如隔山。
舉個例子,比如說「感受野」
土生土長的本國人。
不是專業相關的第一次看到這樣的詞匯十有八九也是一臉懵逼兩臉茫然。
更何況是歪果仁了。
林灰很懷疑米娜•卡莉這樣的翻譯是否可靠。
不過林灰也不好在翻譯還沒正式開始之前就質疑米娜•卡莉的專業性。
恰在此時,伊芙•卡莉向林灰建議要林灰再找一個翻譯,這樣就可以直接同聲傳譯了。
所謂的同聲傳譯,是指翻譯人員在不打斷交流者談話的時候進行翻譯同傳工作,這樣能使交流的效率大大提高。
不得不說,這樣的建議確實不錯。
不然的話即便米娜•卡莉能夠勝任翻譯工作。
林灰和伊芙間隔交流的話溝通效率也不會很高。
不過林灰該去哪找個翻譯呢?
而且是需要既有計算機背景又能勝任翻譯工作的人。
林灰一下子就想到了黃靜。
林灰記得黃靜可是南加大的碩士。
這樣的學位充當一下計算機方面的翻譯似乎問題不大。
林灰通過電話試探地詢問了黃靜的意見。
黃靜等待林灰的召喚似乎等了很久了。
根本沒等林灰細說。
幾乎不假思索就答應了林灰的請求。
……
伊芙•卡莉和米娜•卡莉在酒店安頓下來之後。
大概23號下午三點左右。
四人展開了學術上的討論。
當然主要是林灰和伊芙•卡莉進行討論。
這次的討論的性質有點類似于一個小型的座談會或者說一次頭腦風暴。
這次見面的地點並不是在公開場合,而是在狀元學府1號樓的601。
這個地方是前不久林灰在表彰大會上獲獎的那套商品房。
在表彰大會上獲得的150萬現金。
林灰沒有留著,直接給父母了。
林灰不想父母那麼辛苦。
這套房子林灰原本也打算讓給父母的,不過林父林母拒絕了。
林灰家里也不算缺房子住。
林灰也沒堅持,這套房子索性他自己就留著了。
說起來林灰還是第一次來這個地方。
一百三十多平的帶裝房。
這年頭房子基本都差不多,布局什麼的照往後幾年的還差點。
當然了,林灰是作為獎品獲得的這套房子。
他似乎還沒有挑挑揀揀的余地。
狀元學府這邊地方還不錯。
在北域城西這邊的老城,雖然離三小在內的周邊的學校都不遠。
但此處鬧中取靜,別有一番風味。
距離此處不遠是一個新落成的人工湖。
風景還算不錯。
環境相對來說也比較安靜。
正是因為這些原因,林灰才將這個地方選擇作為洽談地點。
環境安靜的話比較有利于深度思考。
談論開始了,伊芙•卡莉先是跟林灰介紹了她在研究中遇到的諸多難處。
事實上這些東西林灰記得伊芙•卡莉在先前發來的郵件中就已經闡述過了。
只不過現在闡述地更加詳細了。
林灰耐心地听著。
林先前擔心地似乎有點多余。
米娜•卡莉雖然不是從事過相關專業的。
但到底是姐妹情深,伊芙•卡莉在表述的時候都是用盡可能通俗易懂的語言。
盡量照顧著米娜的感受。
甚至有些時候林灰都能直接听懂伊芙•卡莉所表達的內容。
盡管如此,林灰依然沒丟掉翻譯(黃靜)跟伊芙•卡莉溝通。
有些大牛明明自己會英文。
為什麼涉及到一些重要場合仍然要帶翻譯呢?
翻譯不完全是為了翻譯本身。
更多是為了一定的容錯性。
雖然涉及到文本摘要這種東西林灰都是相當熟悉不過的,很少出現錯誤。
但畢竟兩個時空是有些區別的。
林灰不小心表暴露了什麼豈不尷尬。
在常人面前如果林灰不小心暴露了什麼專業上的馬腳可能很難被發現。
如果是直接同伊芙•卡莉交流的話。
面對著一個同行直接交談的話,林灰並不能保證不會露出馬腳。
有翻譯在的話,多多少少多了一層緩沖。
盡管如此,林灰說話依舊要慎之又慎。
伊芙•卡莉向林灰著重介紹了這個時空里人們是如何評估文本相似度的。
按照伊芙卡莉的表述,林灰才知道。
原來此時這個時空的人們主要是利用基于知識庫的方法來計算語義文本相似度的。
不過這個時空人們主要是利用基于網絡知識的方法來計算的。
林灰知道這種方法的。
這類方法是基于知識庫計算相似度的一種。
這種方法主要利用網絡大型知識庫資源,如Wiki百科和擺渡百科等。
通過網頁內容和網頁間的超鏈接進行相似度計算。
隨著互聯網的快速發展,網絡知識愈加豐富。
能夠充分利用網絡中的資源進行語義文本相似度計算自然是一個不錯的思路。
不過基于知識庫的方法來計算語義文本相似度可不只是這一種方法。
據林灰所知基于知識庫的語義文本相似度計算方法根據知識庫的類型其實是可以分為兩大類。
除了基于網絡知識方法的話。
還有一類是基于本體的方法。
這類方法運用結構化語義詞典進行計算。
其基本思想就是運用這些語義詞典中包含的概念信息和概念間的層次關系進行語義文本相似度計算。
按理說既然想到了基于知識庫的語義文本相似度計算方法的話應該首先想到基于本體的相似度計算方法才對才對啊。
為什麼沒先想到基于本體的方法?
反而先想到了基于網絡知識的方法?
回想起伊芙先前的自我介紹,林灰恍然大悟。
伊芙的團隊沒想到這種方法也可以理解。
畢竟伊芙他們的團隊原本是和谷/歌方面深度合作的。
基于網絡知識的方法利用網頁內容和超鏈接相似度進行計算的話雖然不容易。
但谷/歌的老本行PageRank算法引入到NLP領域後實現的功能本就跟這個差不多。
這樣看來,和谷/歌方面的團隊有過深度合作關系的伊芙團隊忽視基于本體的方法而直接選擇基于網絡知識的方法也是可以理解的。
說起來基于網絡知識方法計算相似度實現起來並不容易。
畢竟網頁中知識顆粒度較粗。
說白了就是網頁中有用的東西少。
加之部分網頁的知識結構化程度較低。
如果直接對所有的網頁鏈接進行分析,會導致知識含量稀疏、計算困難等問題。
因此必須找網頁結構高同時知識內容集中的網頁才適合開發基于網絡知識評估文本相似度的方法。
什麼樣的網頁具有這一特征呢?
Wiki百科和擺渡百科。
只有這兩個對應的網頁同時具備網頁結構程度化高以及網頁中有用的東西多這兩點。
也正因為如此,林灰記得前世搞/基于網絡知識的文本相似度識別的主要就是谷/歌和擺渡兩家。
說起來某度能長期居于B/AT之首還是有些實力的。
至少不像外人以為的那般花架子。
伊芙•卡莉之後又詳細地介紹了一些基于網頁知識文本識別度的內容。
之所以詳細介紹這方面的東西。
林灰知道的,伊芙•卡莉其實還是好奇林灰究竟是使用何種相似度模型來評估文本摘要和摘要之間的語義相關的?
林灰沒有直接回答。
而是反問道︰「關于使用向量介入進行語義文本相似度計算你怎麼看?」