簡體版

第259章 瘋狂的數據

舉這樣一個例子︰

在圖象識別里面,經常我們可能需要上百萬的人工標注的數據,

在語音識別里面,我們可能需要成千上萬小時的人工標注的數據。

涉及到機器翻譯更是需要數千萬語句標注數據。

說實話作為一個來自前世往後幾年的技術人員。

此前涉及到人工標注數據的價值林灰還真沒太當回事。

但現在看來,這玩意的價值此前明顯被林灰忽視了。

林灰記得在前世2017年看到的一組數據說得是涉及到人工翻譯的話。

一個單詞的費用差不多是5—10美分之間,一個句子平均長度差不多是30個單詞。

如果需要標注一千萬個雙語句對,也就是我們需要找專家翻譯一千萬句話,這個標注的費用差不多是2200萬美元。

可以看到數據標注的費用是非常非常高的。

而這僅僅是2017年的數據標注成本。

在現在的話標注成本豈不是意味著更高的數據標注費用?

要知道現在幾乎不怎麼注重無監督學習。

在無監督學習方面更是幾乎沒啥可堪一用的模型。

在主流的機器學習依舊是靠監督學習和半監督學習。

而舉凡是監督學習和半監督學習基本就離不開人工標注的數據。

以這個角度來衡量的話林灰所擁有的一大批現成的人工標注數據豈不是一筆巨額的隱形財富?

如果說在前世2017年,1000萬條雙語數據標注就要耗資兩千多萬美元。

那麼在機器學習整體比較滯後的這個時空的2014年。

同樣的1000萬條雙語數據標注需要多少錢呢?

林灰覺得1000萬條雙語標注數據怎麼著也得要個兩三億美元啊。

「兩三億美元」這個數據似乎有點嚇人。

但其實也不夸張。

之所以說不夸張有兩方面的原因︰

一、即便是在前世,數據標注也是在對偶學習之類的特殊學習技巧問世後成本才大幅下降。

而在此之前,涉及到數據標注從來就跟「便宜」兩個字不沾邊。

同樣拿此前林灰所列出的例子作為援引︰

在前世2017年1000萬條雙語互譯標注的成本約為2200萬美元;

注意這僅僅是雙語互譯的標注。

「雙語互譯」只是某兩種語言之間的互譯標注。

只是兩種語言之間的互譯標注就需要兩千多萬美元?

那涉及到上百種語言的互譯需要多少錢呢?

這個問題並不復雜,簡單的排列組合問題︰

C(100,2)== 4950; 4950*0.22億美元==1089億美元;

不難看出若需支持上百種語言的互譯,人工標注訓練集的成本將達到上千億美元。

而這僅僅是理想情況下的估算,如果真要按部就班進行這樣的標注實際成本遠不止于此。

畢竟很多小語種之間的互譯成本顯然相比于主流語言之間的互譯價格還要更高。

雖然實際操作中不會真的有大怨種按部就班進行上百種語言互譯的數據標注。

但這個估算也充分說明了數據標注在相當長的一段時間內都很昂貴。

同樣的道理,在現在這個時空數據標注方面的成本也依然是昂貴的。

而且因為這個時空機器學習方面研究進展的滯後,現在涉及到數據標注這方面的成本甚至還要高于前世同一時期的。

二、時代是在飛速發展的,要知道現在隨便一個文體店就能很方便買到的科學計算器其實際效率、可靠程度、易用性甚至可以全方位吊打上個世紀五六十年代花費上千萬美元搞出來的佔地幾百甚至是上千平方米的計算機。

這種情況下後世很便宜的計算器拿到幾十年前縱然是要價上百萬美元同樣是有市場的,而且可能還會相當有競爭力。

舉這個例子並不是說林灰要再往前幾十年去賣計算器。

林灰只是想藉此說明時代的車輪是向前的,科技也是在飛快發展的。

尤其是在中後互聯網時代,科技的發展說是日新月異也絲毫不為過。

在這種情況下,往後幾年一些不怎麼被人過分重視的技術在幾年前能夠換取大額的財富是很正常的。

更何況還是利用數據標注這個相當長一段歷史時期內都只能是土豪公司才玩得轉的東西去換取財富?

總之,林灰沒覺得「在現在1000萬條雙語標注數據怎麼著也得要個兩三億美元」這個估算的有什麼問題。

甚至于,即便是「兩三億美元的價格」,這個價格的估算可能還有點保守。

在人工智能的產業結構中,主體包含有應用層、技術層和基礎層。

應用層包含有解決方案和產品服務。

技術層包含有應用技術、算法理論和平台框架。

而基礎層則包含有基礎設施和數據。

從這個角度來衡量的話,某種程度上甚至可以將數據是人工智能的基石。

事實也正是如此。

涉及到人工智能的三駕馬車算法、算力、算據(數據)。

算法看起來很重要,但要知道很多時候,沒有優質數據存在,就很難訓練出優質的算法。

數據這東西雖然通常情況下看不見模不著,但任誰也不能忽視數據的重要性。

尤其是標注數據更是相當重要。

在時下有監督的機器學習仍然是當前神經網路學習訓練的主要方式。

而有監督的機器學習是離不開標注數據的。

有監督的機器學習需要被標注數據作為先驗經驗。

在有監督的機器學習里未被標注的數據和被標注數據以比例劃分為訓練集和測試集。

機器通過對訓練集的學習得到一個模型,再對測試集進行識別,就可以到的該模型的準確率。

算法人員根據測試結果找到模型的短板,並將數據問題反饋給數據標注人員,再重復流程,直到得到的模型指標符合上線需求……

在時下幾乎沒啥無監督學習的應用的情況下,大規模、高質量的人工標注數據集甚至可以說是現在機器學習產業發展的剛需。

在這種情況下,把數據以及標注數據看得再重要也不為過。

因此才有了林灰所謂的估值估低了的說法。

不過所謂的估值也不重要了,真涉及到標注數據的出售的話具體價格完全可以慢慢談。

林灰是需要很多錢,但如果是將來同一些超級巨頭進行談判的話,林灰也未必一心要錢。

用林灰感興趣的資源進行交換也不是不可以。

說實話這些頂尖巨頭的部分資源對林灰還是相當有誘惑力的。

具體到林灰現在所擁有的標注數據。

曾經涉及到網文翻譯的時候,林灰當初幾乎是第一時間想到了前世那部手機里SimpleT這個軟件。

SimpleT這個軟件是前世林灰所在公司開發測試的一款軟件。

這個軟件不怎麼為人所知是因為該軟件還處于α內測階段。

α測試的目的是評價軟件產品的功能、局域化、可用性、可靠性、性能和支持。

尤其注重產品的界面和特色。

α測試的時間可以從軟件產品編碼結束之時開始。

也可以在模塊(子系統)測試完成之後開始。

還可以在確認測試過程中產品達到一定的穩定和可靠程度之後再開始。

SimpleT這款軟件的α內測就是在確認SimpleT達到一定的穩定和可靠程度之後才開始的。

所以說雖然SimpleT尚在內測。

但這款軟件的技術水平也是相當成熟了,幾乎離正式面世只差一輪公測。

林灰原本想過待時機合適將這樣一個軟件復刻出來去進軍軟件翻譯市場的。

在留心到標注數據所擁有的特殊價值的情況下。

林灰同樣差不多是第一時間想到了SimpleT這一軟件。

畢竟作為一個主打AI翻譯的軟件,其訓練過程中自然是同樣用到大量的雙語互譯標注數據的。

而SimpleT這款未正式上市的軟件作為前世公司寄予厚望的產品之一。

對這款軟件在實際開發中所用到的標注數據林灰相信肯定能在前世企業數據里翻找到的。

這種情況下似乎現在直接拿曾經公司在教SimpleT這款軟件所用到的標注數據去換錢豈不是事半功倍?

雖然SimpleT這款軟件在架構的時候同樣沒有進行全語種的互譯數據標注。

但最起碼涉及到中、英、俄、法、西、日這些常見語種之間的互譯數據標注肯定是要有的。

縱然這些語種之間的互譯數據不是所有的語種之間都能達到千萬條的互譯標注規模。

但最起碼中-英、英-中互譯標注數據肯定還是相當有規模的。

在這種情況下,林灰估算了一下前世SimpleT這款軟件所用到的標注數據在今天起碼也要擁有七八億美元的價值。

這無疑是一筆相當巨額的財富。

最關鍵的是即便林灰拿了這些語種之間的互譯標注數據去換錢。

也不妨礙林灰到時候將SimpleT這個軟件推向翻譯市場。

呃,雖然有點奸商的作風。

但怎麼說呢,一雞多吃是常態。

甚至于可以說一雞多吃是互聯網時代下的典型商業特色。

盡管短時間內林灰不大可能去突然涉及到翻譯領域的互譯標注。

但林灰手中的標注數據可不僅僅是翻譯領域。

以林灰此時所耕耘的自然語言處理這個方面吧。

盡管林灰在此前的生成式文本摘要模型的構建中主要是使用無監督訓練的方式進行的大量數據獲取以及相應的模型訓練。

但林灰手中確確實實是有自然語言處理方向的標注數據。

而且是超大規模的文本標注數據。

這更是一筆相當大的財富。

雖然這種文本數據標注相比于雙語互譯文本標注(標注起來門檻更高)的數據其價值肯定是要打折扣的。

但在形成規模的情況下縱然是一般的標注數據一樣是一筆不容小視的財富。

僅僅是涉及到文本摘要有關的一些普通標注數據林灰估計在這個時空換取幾千萬美元的話完全沒問題。

如果對這些標注數據加以一定包裝並且足夠幸運能夠遇到一些識(yuan)貨(da)人(tou)的話。

商業談判時如果談判的人很會的話談到近億美元也是有可能的。

如果對標注數據進行一定的包裝,林灰估計忽悠個上億美刀也是完全沒問題的。

對這些標注數據加以一定的包裝是什麼意思呢?

就是美化標注數據的質量。

嚴格來講的話,同樣是標注數據也是可以區分為專家標注和眾包的。

所謂的「專家標注」也不是真的專家去進行標注。

「數據標注」听起來似乎蠻高大上的,但實際上呢?

進行數據標注過程往往非常復雜,涉及到數據量特別多的時候,對人工勞動力會有很高的要求。

雖然不能說低端吧,但這種機械而繁復的工作至少跟高端是沒啥關系的,磚家教授肯定是不會去干這活的。

所謂的專家標注一般都是由苦逼的算法工程師進行兼職。

或者由專門的算法數據標注員進行標注。

所謂的數據標注員是一種新興職業。

前世,隨著大數據以及人工智能時代的到來,為了應對數據標注的工作在互聯網上出現了一種新型職業——數據標注員。

數據標注員的工作是使用相應的工具從互聯網上抓取、收集數據,包括文本、圖片、語音等等。

然後對抓取的數據進行整理與標注。

這些數據標注員工具體的工作流程一般很明確︰

首先,標注人員經過培訓,確定需要標注的樣本數據以及標注規則;

而後,根據事先安排好的規則對樣本數據進行打標;

其次,對標注完以後的結果進行合並。

而算法數據標注員稍稍有別于一般的數據標注員。

相比于一般的數據標注猿,算法數據標注猿往往在完成以上的步驟之後。

還要通過標注的數據喂模型進而調試模型。

盡管工作流程只是多了這一步,但專業的算法數據標注員依舊是鳳毛麟角。

從先前羅列的任務也可以看出算法數據標注員的任務不僅僅是數據標注。

往往還需要根據標注的數據進一步評估算法模型。

如此一來很多時候對書記標注員的要求是這些人不光要進行數據標注。

還得懂相應的算法。

而這樣的人很多時候可以說是鳳毛麟角。

溫馨提示︰方向鍵左右(← →)前後翻頁,上下(↑ ↓)上下滾用, 回車鍵:返回列表

投推薦票 上一章章節目錄下一章 加入書簽