簡體版

第七百零三章 字庫

「我們所有人里,還真就只有你能干,」周至說道︰「你知道現在已經可以用電腦打印書籍了吧?」

「嗯,知道,局里現在都有電腦打字員了,听說那機器很貴,領導都不讓一般人踫。」

「那你知道你們局里那機器,現在一共能夠打印多少個字嗎?」

「不是所有漢字都能打嗎?」

「當然不是,現在大家使用的,還是由中國國家標準總局八零年發布,八一年實施的一套國家標準,標準號是GB 2312—1980。基本集一共收入漢字六千七百六十三個。」

「那我們國家一共有多少漢字啊?」

「不算簡化後的簡體漢字,《康熙字典》里邊收錄的漢字,一共是四萬七千零三十五個。」

「差這麼多?」馮雪珊感到十分震驚︰「連零頭都不到?」

「是啊。」周至說道︰「當然這和現在存儲單元昂貴,簡化字推行方便都有關系,但是將來圖書實現電腦排版,要用電腦整理古籍的話,目前所用的字庫是絕對不行的。」

「所以……」

「所以我有一個想法,設計一套《康熙字庫》出來,用于將來的古籍電腦排版工作。」

「不行不行,我不認識那麼多的字……」馮雪珊一听就覺得頭大。

「不用你認識它們,會照著描寫就行了。」周至笑了︰「字庫設計的一個重要工作,首先就是單字和筆畫、部首設計;」

「之後通過掃描設備將設計圖稿轉化為數字化圖像,存儲于計算機中;再通過數字化擬合,得到字形的失量輪廓。」

「接下來就是擴展設計,以拼合的方式設計其他單字。」

「最後再將所有得到的字賦予編碼,將其轉換成特定數學函數描述字形輪廓的文件格式,再加以指令,控制其字形的顯示效果和排版效果,就形成字庫了。」

「我越听越听不懂了……」

「听不懂也沒關系,單字和筆畫、部首我會找齊,然後就要拜托你用彷宋體、宋體、楷體和黑體,在我給你提供給你的柵格紙上,將它們描繪出來。」

「鑒于我們現在還沒有相關的電腦設備和字體設計軟件,因此之後的擴展設計工作,我們也只能先通過手工來完成。」

「也就要是將所有的字一一地寫出來。」

「你要做的,就是這些,剩下的校對、檢測,我會來完成。」

「最後我會將所有的字稿帶去蜀都,帶去首都,通過最原始的掃描匹配方式,生成我們需要的字庫。」

「咱們這麼做的目的,是設計出一個能夠涵蓋所有已知的繁體漢字和簡化漢字的大字庫出來,從而一勞永逸。」

「而今後的事情就簡單了,我們可以做做減法,搞出一些刪減版來,供人自由選擇,以解決字庫過于龐大和電腦存儲資源不足的矛盾。」

「雪珊你說,將電腦字庫從六千多字擴充到四萬七千多字,這是不是關系我們國家國計民生的大事兒?」

「只是寫字那我還行。」馮雪珊知道自己要干什麼之後,倒是放松了下來︰「就算五萬個字,我一天寫一百個,用不了兩年也能夠完成。」

「嗯,現在睡覺,等回去我們就開始這項工作。」

「好。」

這項工作是周至答應過辜老的,當時周至曾經跟辜老說過,如果等到他進入大學,國家依舊沒有推出相應的字庫的話,那這項工作便由他來完成。

當然在沒有設計軟件的情況下,前期的準備工作只能用手工,那注定將是繁瑣的。

僅僅是將近五萬個漢字復刻到十六乘十六的三十二比特信息量的柵格當中去,在沒有軟件輔助的情況下,會是非常耗時且枯燥的工程。

這項工作還相對簡單,且只是基礎。

有了基準字模之後,才談得到利用軟件和基礎字型設計,通過數字化擬合,自動生成不同的字體。

但是只要將基礎工作做好,剩下的就可以通過計算機軟件來完成了。

周至在前期已經做了一些工作,主要就是將GB 2312—1980的簡化字和康熙字典繁體字結合到一起,構成這個字庫所需的全部漢字。

至于附加的英文字母和常用字符,已經不屬于他的專業了,將來讓別人補充就好。

兩相結合再去除重復,馮雪珊信口說的五萬字,其實和事實非常接近。

周至之所以想要插手這件事兒,是因為現在的國人對這個事情沒有什麼經驗,因此走入了一個誤區。

漢字是象形文字,和拉丁字母的區別就在于字碼太多。

如今主流的做法,就是簡化,只將常用字列入輸入法中,以應對絕大多數時候的需要。

但是周至認為,這樣的做法並不太好,因為佔用存儲空間的其實是五萬個字的字模,而並非代表它們的編碼。

因此大可以一步到位,將大中華區包括港島、寶島、新馬、島國、朝國等依舊在使用漢字的地方,以及使用大量漢字符號的地方,將所有字型都收集起來,先將大字庫編好。

具體到再上一層的應用,則可以通過從基準字庫中提取子集的方式來完成。

一開始的時候大字庫肯定只有專業的印刷廠,出版社才用得上,今後隨著存儲設備價格的狂降和設備容量的指數級擴充,存儲空間不再是卡個人電腦價格的瓶頸後,最終這套字庫還是能夠走入千家萬戶。

這個設計思路就從傳統西方的設計思路當中跳了出來,也不再僅僅是頭痛醫頭腳痛醫腳,而是一步到位,以免在今後不斷再升級調優換版本。

然而搞笑的是,這件事情即便在周至重生之前,國家都沒有完成。

這就是工科典型的實用主義和文科典型的理想主義之間的思路差異,也是國人在設計字庫的時候,少了文科學者跨學科參與聯動發揮影響力造成的。

不能不說最終這成了一個遺憾,將華夏所有文字納入一個電腦字庫,這件事情值不值得做呢?

答桉是顯而易見的,只不過急于追趕世界文明數字技術大發展的華夏一族,現在還一切從實際出發,腦子里想的就倆字——「能用」,還顧不到這上頭來。

如今甚至已經有了一種預言,那就是未來的信息化世界里,將沒有漢字的存在;這門美好的語言,最終會在信息世界里消失;而華夏民族,也會因為使用如此復雜的象形化文字,在信息科技的大發展中,再次淪為落後民族。

而周至想要告訴那些人的,是你們全特麼在放屁。

溫馨提示︰方向鍵左右(← →)前後翻頁,上下(↑ ↓)上下滾用, 回車鍵:返回列表

投推薦票 上一章章節目錄下一章 加入書簽