黃金屋中文-免費小說,文字版,txt下載

 
  黃金屋首頁| 總點擊排行| 周點擊排行| 月點擊排行 | 總搜藏排行 繁體中文版| 收藏黃金屋| 設為首頁
 
黃金屋中文,黃金書屋 黃金屋中文,黃金書屋
首 頁 手機版 最新章節(jié) 玄幻·奇幻 武俠·仙俠 都市·言情 歷史·軍事 游戲·競技 科幻·靈異 全本·全部 移動版 書架  
  文章查詢:         熱門關鍵字: 道君 大王饒命  神話紀元  飛劍問道  重生似水青春  
黃金屋中文 >> 科技入侵現(xiàn)代  >>  目錄 >> 第67章 你們能比我更懂機器翻譯

第67章 你們能比我更懂機器翻譯

作者:鴉的碎碎念  分類: 科幻 | 超級科技 | 鴉的碎碎念 | 科技入侵現(xiàn)代 | 更多標簽...
 
請記住本站域名: 黃金屋

科技入侵現(xiàn)代 第67章 你們能比我更懂機器翻譯

“教授,你不是做語言翻譯的,語言是規(guī)則的游戲,概率這太不靠譜了?!北A_·加爾文還想再掙扎一下。

當然他確實也不信翻譯和統(tǒng)計學能扯上什么關系。

詞語之間一一對應。

英文單詞和俄語單詞一一對應,直接直譯,擴充語料庫。

在當時的思維里,這才是正道。

也就是所謂窮舉法。

把所有的詞語做好一一對應之后,自動翻譯也就實現(xiàn)了。

統(tǒng)計學,概率游戲,不談如果林燃是對的,他們的無能會暴露無遺,光是林燃提到的改進原理從直覺上來說就是錯誤的。

簡單來說,反直覺。

就像在GPT大模型出來之前,大家都覺得算法最重要。

GPT出來之后,大家開始都一窩蜂力大飛磚。

等到deepseek的時候,好像算法有點用。

哪怕是頂級的研究人員,也會有盲從的問題,會有迷茫、找不到方向、走不出來的情況。

在這個計算機的混沌年代,會這樣再正常不過了。

“精確?精確意味著出錯,現(xiàn)在的計算機遠遠達不到精確這一點。

你們難道不清楚,你們在54年之所以演示出了良好的效果,是因為那些俄語句子是你們精挑細選出來的。

實際自然語言的復雜性要遠超你們預期。

你們只做了語料庫的擴展,規(guī)則覆蓋都沒有做,上下文依賴處理也沒有。

你們能比我更懂機器翻譯?”

林燃怒吼道:“你們做了九年都沒有進展,現(xiàn)在立刻馬上按照我說的去做!”

林燃的地位、實力和權力擺在這,他們根本沒有拒絕的選擇。

沃森會信林燃就不說了,畢竟深藍項目才結束,國防部的麥克納馬拉那更是林燃說什么就是什么。

你們這幫搞計算機的能比數(shù)學大師更懂計算機?

林燃在博弈論和統(tǒng)計學上展現(xiàn)出來的風采,麥克納馬拉還沒忘呢。

IBM的CEO支持林燃,國防部部長支持林燃,喬治敦大學的研究團隊只能被按在地上摩擦。

“我們要做的一共五點,優(yōu)化算法和規(guī)則設計,擴充語料和詞匯,改進數(shù)據(jù)處理的效率,引入統(tǒng)計方法和硬件最大化利用。

其中改進數(shù)據(jù)處理效率和硬件最大化利用由IBM方面負責。

另外三點則由喬治敦大學的成員們負責。

我們先來談優(yōu)化算法和規(guī)則設計。

你們一直的問題在于,你們對于規(guī)則集的擴張沒有引入更加細化的句法規(guī)則。

因為存儲有限,你們覺得擴充對照詞匯庫就夠了。

實際上句法規(guī)則顯得更加重要。

你們需要做到,引進常見的高頻句型。

對上下文進行依賴處理。使詞匯翻譯考慮前后詞,通過有限的上下文窗口來減少歧義。

比如свет同時有光和世界的意思。

這個完全可以根據(jù)前詞判斷是光還是世界?!?p/> 沃森弱弱提醒道:“教授,你還會俄語啊?”

林燃一副理所當然的樣子:“當然,我都和科羅廖夫見了兩面,我不會俄語怎么和他交流的?

我同時會俄語、德語、英語和漢語?!?p/> 多語言大師的身份,給林燃的理論增添了幾分可信度。

在這個時代,科學家們會幾門語言并不奇怪。

當然一些敏感部門會提高對你的懷疑。

以前面提到的約翰·麥卡錫為例,他就精通俄語,從小接受俄語教育長大,盡管他出生在阿美莉卡。

“另外翻譯過程,應該是模塊化設計,而不是簡單的映射關系。

它應該分成預處理、翻譯、后處理三部分。

預處理包括了分詞和詞形還原,翻譯才是詞典的映射,后處理是對語序進行調整。

這樣來降低單次計算的復雜度,提高規(guī)則的復用率!”

林燃的話給了在座研究團隊的成員們非常多的靈感。

就好像之前一直陷在百越的叢林里找不到出路,而現(xiàn)在天上出現(xiàn)一道光指引他們怎么樣才能走出叢林迷宮。

大家都有點迫不及待去嘗試了。

所有研究人員都瘋狂在筆記本上記錄下林燃所說的。

雖然不確定教授的方法是否管用,但有路總比之前沒有好。

再者,如果你不好好記下來,到時候被開除只是教授一句話的事。

“好了剛才我們講了一些簡單的內容,現(xiàn)在才是最難的。

因為IBM的機器不是那么強大,我們只能引入一些比較簡單的統(tǒng)計學方法來提高我們翻譯的準確度。

我把它叫做基于頻率的詞對齊。

這也是我們引入統(tǒng)計模型的核。

我們先要手動分析平行句子,標注俄語詞或短語與英語翻譯的對應關系。

俄語句子Мыговоримомире

英語翻譯:“Wespeakaboutpeace

對齊結果:“мы”對應“we”

“говорим”對應“speak”

“о”對應“about”

“мире”對應“peace”

然后我們需要對這種對齊的頻率進行統(tǒng)計。

統(tǒng)計每個俄語詞或短語在英語中的對應翻譯出現(xiàn)的頻率。

例如,在語料中,“говорим”在80的句子中翻譯為“speak”,20翻譯為“talk”。

這樣對于我們就可以構建概率表了。

將這些概率整理成表格,供機器進行查詢。由于內存空間有限,我們暫時只存儲高頻詞對,像出現(xiàn)次數(shù)前1000的詞對,忽略低頻情況。

當翻譯某個詞的時候出現(xiàn)多個選擇,就參考概率表選擇最可能的翻譯。

另外就是統(tǒng)計相鄰詞的共現(xiàn)頻率。мы經(jīng)常與говорим一起出現(xiàn),對應Wespeak,機器在翻譯的時候則優(yōu)先選擇這個組合。

通過規(guī)則優(yōu)先處理和統(tǒng)計方法處理模糊情況的方式,來彌補規(guī)則的不足!”

林燃從統(tǒng)計學的角度給他們好好上了一課。

不過這只是一個開始。

在座的研究團隊們知道了林燃優(yōu)化策略的輪廓,具體實踐過程中還有大量的細節(jié)要進行調整、嘗試和優(yōu)化。

不過光是現(xiàn)在所說的引進概率,這一點,在座喬治敦翻譯機器的資深研究員們都有種恍然大悟的感覺。

前面講的優(yōu)化算法和規(guī)則設計什么的,他們感覺有道理,但判斷不了具體實踐是不是真的管用。

但這統(tǒng)計學方法的引入,光靠想象就知道,能夠顯著提升喬治敦翻譯機器的效果。

當天的工作結束后,紅石基地周邊的小餐館里,加爾文和多斯特爾特坐在角落,面前是兩杯當?shù)靥厣钠【啤?p/> 加爾文放下筆記本,嘆了口氣說:“利昂,我們真的是蠢貨嗎?”

今天聽完之后,加爾文都要懷疑人生了。

林燃提出了一整套的解決方案,這套解決方案里完整也就算了,其中很多點他們都想到過,但想不到要如何實現(xiàn),另外就是一些他們連想都沒有想到的點。

一整個團隊差不多快十年的研發(fā)思路,不如林燃一下午的干貨多。

加爾文已經(jīng)懷疑人生了。

“教授的想法不是超前,而是太實際了。

你會感覺天馬行空,但實際上結合在一起想想,又會覺得無比的實際。

哪怕現(xiàn)在還沒開始,光是從教授提出的框架,我都能想到,采用這套完整方案對喬治敦翻譯機器升級后,它的效果會有多好。”加爾文接著感慨道。

現(xiàn)在他終于知道為什么NASA的研究人員和工程師能容忍林燃的毒舌了,差距太大,心服口服。

尤其統(tǒng)計相鄰詞匯共現(xiàn)頻率,這并不難想到,但他們就是想不到。

而用統(tǒng)計方法處理歧義場景,增加統(tǒng)計學算法,這個就他們連想都想不到。

多斯特爾特轉過頭,微微苦笑道:“我也一直在琢磨。他提出的統(tǒng)計方法,聽起來像是天方夜譚,但結果擺在眼前。

我估計了一下,喬治敦翻譯系統(tǒng)在教授的指導下,質量至少能提升一大截。

我們不需要精心準備短句,它可以應用在更廣泛的場景,而不是局限在軍事領域。”

加爾文點點頭:“是啊,我一開始還不信,語言這種東西明明是規(guī)則驅動的,怎么能靠統(tǒng)計解決?可他用事實讓我閉嘴了。

不愧是教授,教授對于本質的洞察力是跨越領域的?!?p/> 多斯特爾特沉思片刻:“你說的沒錯,感覺就好像他能看穿機器翻譯的本質。

也許這是數(shù)學訓練帶來的好處,我怕自己再和教授多呆一段時間,我都想去念一個數(shù)學博士了。”

加爾文驚訝地看了他一眼:“數(shù)學博士?別開玩笑?!?p/> 多斯特爾特認真地說:“我沒開玩笑。

如果數(shù)學真的能夠幫助我們更好的洞察本質,我覺得去念一個統(tǒng)計學的博士未嘗不可。”

加爾文沉默了一會兒,笑道:“如果你去,我也去。”

多斯特爾特舉起啤酒都要溢出的酒杯:“為教授干杯!教授將給我們帶來勝利!”

加爾文笑著回應:“干杯!不過教授的脾氣,如果教授能溫和一點就好了?!?p/> 另一邊,IBM的兩位工程師卡斯伯特·赫德和彼得·謝里丹也對林燃佩服的五體投地。

卡斯伯特揉了揉太陽穴,問:“彼得,你覺得教授的統(tǒng)計模型真能行嗎?”

彼得放下筆,笑著說:“卡斯伯特,我得坦白,一開始我完全不看好他,可現(xiàn)在我徹底服了。教授提出的方法不但讓IBM7090的性能發(fā)揮到了極致,而且能讓翻譯從混亂的狀態(tài)至少有了概率做支撐”

卡斯伯特點頭:“我看喬治敦大學的那幫家伙也這么認為的,你沒看到加爾文的態(tài)度從一開始的質疑到后來聽的無比認真。

教授的算法優(yōu)化得太完美了?!?p/> 彼得苦笑:“魔法嗎?作為這個時代最厲害的數(shù)學家之一,也許沒有之一,統(tǒng)計學對教授而言也許只是簡單的數(shù)獨游戲罷了。

只是我沒想到教授能把概率論和語言學結合得如此巧妙,我以前從沒想過機器翻譯還能這么玩?!?p/> 卡斯伯特好奇地問:“你說教授精通俄語,他今天那幾句俄語,可是標準的不能再標準了。

同時還橫跨多個領域,別說IBM,整個阿美莉卡恐怕也沒有人能搞出這樣的方案。

教授會不會和蘇俄有關?”

彼得無語道:“蘇俄人會讓教授呆在阿美莉卡?

要是我是尼基塔,我不可能讓教授這樣的人才呆在白宮。

哪怕能從NASA獲得技術機密,但無論獲得多少技術機密,恐怕都不如教授本身有價值吧。

而且你有沒有想過,如果教授沒有在NASA,而是在莫斯科和科羅廖夫聯(lián)手,你能想象這個場景下,阿美莉卡能贏得太空競賽嗎?”

卡斯伯特只是想了想,就馬上搖頭:“絕對不可能?!?p/> “所以,如果教授和蘇俄有關系,怎么可能呆在阿美莉卡。

他需要做的第一件事恐怕就是在莫斯科主導載人登月。”彼得笑道。

科學家通俄有可能,但擁有影響平衡能力的科學家通俄又不太可能。

如果說他們只是佩服于林燃的學術造詣,那沃森就是全方位的佩服了。

和約翰·摩根類似。

不過沃森佩服的點和約翰·摩根又有所不同。

“教授,你是如何想到要通過展覽館的方式來打造企業(yè)形象呢?”沃森舉起紅酒杯,面帶微笑。

時代廣場邊的深藍展覽館給IBM贏得了巨大的聲望。

本來時代廣場一直以來都是紐約地標式的建筑,幾乎每個到紐約的游客必打卡的景點。

而深藍展覽館以一種不屬于這個時代的風格吸引了所有人的眼球。

結合里面全球僅此一份的人工智能國際象棋,能夠自動和人對弈。

給當下民眾的震撼是前所未有的。

阿美莉卡企業(yè)通過公開展出的方式展示自身科技實力、宣傳自家科技產品的傳統(tǒng)由來已久,這樣的傳統(tǒng)可以一直追溯到英格蘭時期。

無論是最早斯蒂芬的火車還是后來的輪船,英格蘭人都是召集民眾,在報紙上大肆宣傳。

而阿美莉卡最早最成功的應該是愛迪生的燈泡,后來貝爾的電話也是經(jīng)典案例。

但他們都只是瞬間的,只有那一個時刻,給民眾留下的印象要隨著產品進入人們日常生活,他們才會對企業(yè)、對品牌有一個更深的認知。

而深藍展覽館的存在,每一個去過的民眾都會對那深藍和黑色線條組成的場館印象深刻。

IBM人工智能高科技的印象刻在了每一個參觀過的民眾的心里。

這對IBM都不僅僅是企業(yè)形象和人工智能捆綁這一點好處,這幾乎已經(jīng)奠定了,后續(xù)只要白宮下定決心要在人工智能領域和蘇俄爭個高下。

那供應商將沒有別的選擇,只有IBM。

等于林燃的建議給IBM憑空送來一個全球最大客戶,還是動輒數(shù)十年打底的長期訂單。

約翰·摩根旗下的通用航天從NASA手里拿到訂單,好歹還給了林燃股份,沃森這可是什么都沒付出。

別說林燃內涵他是蠢貨,就算林燃直接指著他的鼻子這么說,他也只會說是是是,我是蠢貨。

包廂內,服務員悄然退出,留下安靜的交談空間。

“因為我覺得像深藍這樣的人工智能,應該給大眾留下足夠深刻的印象。

而不只在IBM內部展示。

至于為什么要找藝術家來負責設計,一個普通的劇院怎么配得上深藍呢?”

沃森微笑著點頭:“你說的太有道理了。

我第一次看到技術方舟建成的時候,我有一種它不屬于這個時代的感覺,正是有了你,才有了深藍和技術方舟的誕生。

教授,我必須敬你一杯。”

別說什么霍金來了都得敬酒。

在林燃面前,你沃森也得給我敬酒。

沃森接著道:“教授,我代表IBM公司,向你致以最誠摯的謝意。

不僅是深藍,在喬治敦IBM項目中你做出的貢獻令人嘆為觀止。你的創(chuàng)新方法將會讓我們的機器翻譯系統(tǒng)取得了突破性的進展?!?p/> 雖然現(xiàn)在還談不上突破性進展,但沃森已經(jīng)有充分的信心了。

林燃點了點頭,說:“這是應該的,另外沃森,我想無論是深藍還是喬治敦翻譯機器,我為IBM做出的貢獻不是金錢所能衡量的。”

林燃絲毫不謙虛。

這也讓沃森臉上的笑容僵硬住了:“教授,我們會給你一份足夠豐厚的金錢作為報酬的?!?p/> 林燃搖了搖頭:“我對金錢不感興趣?!?p/> 沃森想想也是,確實從來沒聽說過對方對金錢感興趣。

不過開口就想要股份,沃森還是有些猶豫。

“教授。”還沒等沃森說完。

林燃接著說道:“我需要你滿足我一點小小的條件。

如果你無法滿足我的條件,也許我要認真考慮和通用電氣合作的可能性了?!?p/> 通用電氣,要素察覺。

林燃和摩根家族的關系不用多說。

沃森再清楚不過了。

而通用電氣也做計算機。

雖然通用不做大型計算機,但通用的GE225系列,作為一款基于晶體管的計算機,用于處理工資單、庫存管理和會計等任務。

通用電氣有這個能力,更有這個資本。

要是再加上林燃,和林燃作為大師的號召力,確實能對IBM造成巨大的威脅。

沃森的語氣一下就軟了下來:“教授,你想要什么?”

“《MIT輻射實驗室系列》”


請記住本站域名: 黃金屋

快捷鍵: 上一章("←"或者"P")    下一章("→"或者"N")    回車鍵:返回書頁
上一章  |  科技入侵現(xiàn)代目錄  |  下一章
科技入侵現(xiàn)代 手機網(wǎng)頁版
瀏覽記錄

字母索引: A |  B |  C |  D |  E |  F |  G |  H |  J |  K |  L |  M |  N |  P |  Q |  R |  S |  T |  W |  X |  Y |  Z


頁面執(zhí)行時間: 0.203978
主站蜘蛛池模板: 武城县| 特克斯县| 吴旗县| 衡南县| 衡阳县| 平塘县| 田林县| 电白县| 阿城市| 合水县| 黄平县| 治多县| 天全县| 阳谷县| 普兰店市| 西安市| 宜昌市| 南江县| 苗栗市| 古交市| 夹江县| 锡林浩特市| 兰考县| 海南省| 南郑县| 锡林浩特市| 新邵县| 深州市| 利辛县| 香格里拉县| 乌审旗| 长汀县| 平度市| 呼图壁县| 淮北市| 霍州市| 鹤岗市| 焉耆| 雷州市| 白银市| 涿州市|