而且因為這種專業標注的人員很少。
往往專家級標注只能夠勝任小量級的數據。
對于大規模數據標記和超大規模數據的標記任務想要依靠專家標記很多時候只能是力不從心。
對于大規模數據標記和超大規模數據標記往往只能尋求眾包了。
眾包模式是將零散的個人(包括兼職)、小標注團隊,整合到平台上,完成一個完整項目的服務模式。
這種模式的主要優勢成本很低,且比較靈活。
盡管前世機器學習長期所致力于的工作就是能夠以眾包數據或者干脆是無標數據取代專家標注。
但真要問專家標注和眾包數據哪個受歡迎。
那自然是前者。
這種情況下夸大標注數據中專家標注所佔的比例很容易收獲到更高的溢價。
听起來似乎很奸商。
但也僅僅只是听起來而已。
如果林灰所大肆贊美的標注數據和現在的專家標注水平真的區別很大的話。
那林灰吹破大天也沒用。
畢竟打鐵還需自身硬。
林灰既然敢宣稱標注數據中專家標注所佔的比例很高自然有底氣。
怎麼說呢?
往後幾年即便是一些非專家標注的數據,在行業標準化、規範化的情況下。
很多時候,就算是眾包的數據也未必比現在的行業尚未完全標準化以及規劃化的專家標注的水平差。
就算林灰拿往後幾年的非專家標注數據去忽悠人。
想來這個時空也會有人去買賬。
沒辦法,技術強勢就是可以為所欲為。
通常時候,有錢確實可以為所欲為。
但為所欲為的同時別人很可能拿你當孫子。
有技術一樣可以為所欲為。
但你為所欲為的時候,別人卻得拿你當爺爺。
看看後世某些廠商拜壽式搶首發(沒特指,勿cue,勿對號入座)
大概就能夠對「因技術而來的爺爺地位」這種說法管窺一二了。
2021時空來到2014時空。
這兩個時空雖然只是七年的時間差。
但這就意味著林灰在大部分領域都最起碼擁有七年的信息差。
而這個時代某些方面的短腿又使得林灰在部分領域擁有遠不止于七年的信息差。
很多前世原本不那麼先進的技術放到這個時空就是領先時代的存在。
如此一來,林灰真的可以為所欲為。
甚至于在這個時空的很多領域林灰真的就是爺爺級別的存在。
別人涉足同一領域那就是當孫子。
如果當孫子的話還會有人嗎?
當然了,不知道多少人在排隊當孫子。
有的領域即便是林灰的潛在地位沒有「爺爺級」那麼夸張。
但林灰同樣是擁有相當明顯的先知優勢。
這種先知優勢並不僅僅表現在技術細節先知上。
還集中表現在諸如路線優勢等尋常人不容易察覺的細節上。
在多個領域擁有近乎于絕對優勢的情況下。
林灰的地位是突出的。
潛在擁有的地位更是超然的。
甚至于只要林灰不去違法犯罪。
這幾乎就是林灰可以為所欲為的時代。
不過除了法律這種硬性紅線和最基礎的人格底線之外。
總會有一個看不見模不著的紅線一樣在影響著林灰。
當然,這條紅線並不是道德。
事實上對于一些功成名就或者說小有所成的人道德方面基本上並沒有紅線,只有黃線。
普羅大眾對功成名就或者說小有所成的人道德約束是相當寬泛的。
甚至于此前林灰已經做好了接受道德綁架的準備。
但事實是林灰還沒有遭到這方面的控訴。
甚至還有很多人會嘗試著往道德深淵的方向引誘著林灰。
就比如微/博上每天就有很多人天天給林灰發來各種要給他生猴子之類的私信。
甚至還熱絡地給林灰發來各種圖鑒(此時屏蔽制度基本擺設),就很無語。
盡管林灰內心有道德標準。
但涉及到道德方面的潛在約束力並不是林灰的潛在敵人。
真正的影響林灰的看不見模不著的另一條紅線。
那就是「合理性」。
很多時候顧念著合理性方面的考慮。
使得林灰不能夠為所欲為。
縱然林灰很多技術是絕對意義上的領先,但依舊是沒法肆無忌憚的搬運的。
有「合理性」這層看不見的紅線存在。
林灰做事有很多顧忌。
如果是邏輯層面的合理性那麼林灰無話可說。
林灰是尊重事物內在邏輯以及事情客觀發展規律的人。
但問題是很多時候所謂的「合理性」並不是從邏輯方面出發的。
而是完全從「陣營」角度出發的。
相比于從邏輯層面的出發的合理性解讀。
更常見的「合理性」解讀的其實是後者。
什麼是從陣營角度出發的評判規則呢?
說白了就是意識形態。
不過並不是所有的意識形態都熱衷于合理性解讀。
熱衷于解讀合理性的意識形態的主要代表自然是西方強行加給世界種種規則。
這種現象在科技領域、學術領域更是異常常見。
在搬運技術的時候,除了部分時候的合理性考量是從純粹邏輯角度出發之外。
很多時候林灰覺得他為了合理性而做出的一些決策也只是顧念西方世界的規則而不得已進行的妥協而已。
這些西方的規則看不見模不著。
但卻很多時候都在左右著林灰所做出的抉擇。
這無疑很令人不爽,但想在規則下謀求利益就不得不屈服。
但畢竟很多時候都是先到者為王,後來者遭殃。
事實是即便是林灰穿越來的那個時候很多時候人們也不得不忍受著同樣的局面。
索性的是,回到七年前,在擁有大量優勢信息的時候。
林灰有望加速這一局面的改變。
林灰所進行技術搬運或者準備進行的各種技術搬運。
林灰最終極的目標就是能夠跟現行世界西方所塑造的一些規則說再見。
當林灰成長到不需要依托于西方的規則也能立身的時候甚至于是西方反而要依托于林灰所制定的規則才能立身的時候。
那林灰完全可以跟西方現行的規則說再見。
這種對不基于邏輯的「合理性」解讀的控訴不止是控訴某些容易引起不公正的制度。
這種對于「合理性」的控訴圖窮匕見之後歸根結底還是︰
——「話語權」之爭。
擁有話語權相當于能夠自己去解釋合理性。
如此一來擁有絕對的話語權又相當于擁有了權威性。
而擁有了絕對的權威性甚至有的時候可以罔顧事實上客觀規律性。
包括但不限于邏輯的合理性。
其場景大概為︰「什麼合理不合理,lz就是理,lz說合理那就是合理。」
涉及到權威性除了這種任性究竟有什麼用呢?
當然有用,能夠擁有這樣的話語權以及權威性。
將使林灰搬運的速度直線拉滿。
而且擁有絕對的權威性也可以使得林灰從前世所帶來的信息能夠收益直接最大化。
畢竟絕對的話語權意味著絕對的壟斷。
當擁有絕對的權威性之後縱然林灰沒想過追求市場的壟斷,也能實現跟壟斷差不多的效果。
就拿林灰剛剛想到的「標注數據」。
林灰在前世信息里有大量的標注數據。
涉及到機器學習的標注數據能用來換錢。
自然語言處理方面的標注數據同樣能用來換錢。
但標注數據是換錢最快的嗎?
當然不是。
涉及到自然語言處理方面真要說來錢最多的還得是狹義知識。
狹義知識同樣是自然語言處理方面的知識來源。
應用于自然語言處理項目的知識來源主要有三大類︰
——狹義知識、算法和數據。
古語雲,書中自有黃金屋。
真實意義上的黃金屋雖然不盡然。
但知識能用來換錢,這個眾所周知。
既然知識能夠用來換錢。
那麼知識來源的手段自然也能用來換錢。
甚至于知識來源手段很可能比知識本身來錢更快。
作為自然語言處理的知識來源的算法和數據能換錢。
同樣作為自然語言處理知識來源的狹義知識自然一樣是能夠換錢的。
對于算法能換錢的基本上為世人所周知。
即便是此前不知道這個能換錢的如果長時間關注林灰前段時間的所忙碌的重點也能清楚。
此前牽扯林灰多數時間的基本都是生成式摘要算法這件事。
無利不起早,沒有足夠的利益驅動林灰自然不會為這件事鞍前馬後。
算法能換錢這件事基本不難懂。
算法往往直接影響一些算法驅動型產品的效率。
而效率就是真金白銀。
能夠直接影響效率的算法自然是能夠很容易換取豐厚報酬的。
理解了算法能換錢。
其實也就不難理解數據為什麼能換錢。
畢竟數據是很多機器學習算法構建的基石。
機器學習算法的出現往往要依賴于有標注的數據。
而且在相當長的一段時期內機器學習算法不僅是依賴于有標注的數據。
而且是依賴于大量有標注的數據。
標注數據量較小的情況下,很多時候是不足以訓練一個性能優異的機器學習算法的。
從這個角度出發,就不難理解數據為什麼可以換錢。
很多時候甚至可以完全可以把數據理解為是一種隱性的知識。
而數據標注的過程實際上就是將散漫自有的離散數據結構化、標簽化的過程。
在算法和數據之外,所謂的狹義知識是什麼呢?
狹義知識一般指通過規則或詞典等形式由人工定義的顯性知識。
狹義知識主要包括三種︰
——即語言知識、常識知識和世界知識。
其中,語言知識是指對語言的詞法、句法或語義進行的定義或描述。
其主要特色是定義了同義詞集合。每個同義詞集合由具有相同意義的詞組成。
常識知識是指人們基于共同經驗而獲得的基本知識。
世界知識包括實體、實體屬性、實體之間的關系等。
或許有人不理解?
為什麼這類知識能換錢呢?
這些東西不都是顯而易見嗎?
這些知識雖然本質上依舊是人們所能理解的顯性知識。
但對人們來說顯而易見的顯性知識。
不等于對機器同樣是顯而易見的。
對于這類知識往往要通過規則化或者是詞典化的處理以便于這些知識能夠通過簡單的處理成讓機器理解。
這些很容易被機器所理解的知識叫狹義知識,也被稱為專家知識。
盡管現在主要訓練模型已經是謀求算法甚至是數據本身了。
但狹義知識是相當有市場的。
反正從此前和伊芙•卡莉的交流來看。
都2014了, 谷現在開發點什麼機器學習仍舊是要動不動跟哈佛、牛津之類高校合作。
這些人之所以仰仗哈佛、牛津除了是指望這些高校進行下數據標注之外。
主要應該就是指望著這些高校在狹義知識方面的加持了。
這些人這麼做也容易理解。
畢竟最早涉及到自然語言處理方面的模型數據的時候人們是用狹義知識進行訓練的,而不是依靠數據和算法。
甚至林灰印象中,即便是前世,在互聯網迅速崛起之前,人們唯一訓練自然語言處理方面模型只能是用狹義知識。
而林灰手中就擁有相當多的狹義知識,且水平什麼的應該比現在西方世界所用的不知道高到哪里去了。
從 谷為了獲取狹義知識每年砸幾千萬美元的架勢來看。
林灰手中的一些狹義知識如果能夠拿來變現的話要比利用標注數據變現還方便。
但這僅僅是理論上容易變現。
林灰沒有絕對的話語權以及隨之而來的權威性。
林灰怎麼去向潛在的受眾去說其所擁有的狹義知識資料要比現在 谷所用的普遍材料更高明呢?
其實潛在的買家林灰倒是清楚的很。
要知道就算是在往後幾年對大量的狹義知識感興趣並且又不差錢的買家其實也不是特別多。
林灰估計這個時空下可能對大規模狹義知識庫感興趣的買家無外乎是Microsoft、Google之類的超級巨頭。
不過縱然是知道這些潛在買家,林灰也不可能去主動找對方啊。
那樣的話豈不是成為了兜售麼?
買家的思維邏輯是︰
兜售等同于缺乏權威。
而買家憑什麼要為缺乏權威性的內容買單呢?