“大數據”通常用概率說話,而不是板著”確鑿無疑”的面孔。我們要習慣這種思維需要很長的時間,其中也會出現一些問題。但現在,有必要指出的是,當我們試圖擴大數據規模時,要學會擁抱混亂。
假設你要測量一個葡萄園的溫度,但是整個葡萄園只有一個溫度測量儀,那你就必須確保這個測試儀是精確的而且能夠一直工作。反過來,如果每100棵葡萄樹就有一個測量儀,有些測試的數據可能會是錯誤的,可能會更加混亂,但眾多的讀數合起來就可以提供一個更加準確的結果。因為這里面包含了更多的數據,而它不僅能抵消掉錯誤數據造成的影響,還能提供更多的額外價值。
2006年,谷歌公司開始涉足機器翻譯。這被當做現實”收集全世界的數據資源,并讓人人都可享受這些資源”這個目標的一個步驟。谷歌翻譯開始利用一個更大更繁雜的數據庫,也就是全球的互聯網,而不再只利用兩種語言之間的文本翻譯。谷歌翻譯系統為了訓練計算機,會吸收它能找到的所有翻譯。它會從各種各樣語言的公司網站上尋找對譯文檔,。它甚至會吸收速讀項目中的書籍翻譯。谷歌翻譯部的負責人弗朗茲·奧齊(FranzOch)是機器翻譯界的權威,他指出,”谷歌的翻譯系統不會像Candide一樣只是仔細地翻譯300萬句話,它會掌握用不同語言翻譯的質量參差不齊的數十億頁的文檔。”不考慮翻譯質量的話,上萬億的語料庫就相當于950億句英語。盡管其輸入源很混亂,但較其他翻譯系統而言,谷歌的翻譯質量相對而言還是最好的,而且可翻譯的內容更多。到2012年年中,谷歌數據庫涵蓋了60多種語言,甚至能夠接受14種語言的語音輸入,并有很流利的對等翻譯。之所以能做到這些,是因為它將語言視為能夠判別可能性的數據,而不是語言本身。如果要將印度語譯成加泰羅尼亞語,谷歌就會把英語作為中介語言。因為在翻譯的時候它能適當增減詞匯,所以谷歌的翻譯比其他系統的翻譯靈活很多。“從某種意義上,谷歌的語料庫是布朗語料庫的一個退步。因為谷歌語料庫的內容來自于未經過濾的網頁內容,所以會包含一些不完整的句子、拼寫錯誤、語法錯誤以及其他各種錯誤。況且,它也沒有詳細的人工糾錯后的注解。但是,谷歌語料庫是布朗語料庫的好幾百萬倍大,這樣的優勢完全壓倒了缺點。”
谷歌在獲取語料時所固帶的不準確性從某種意義上說明我們開始接受世界的紛繁復雜。這是對精確系統的一種對抗,這些精確的系統試圖讓我們接受一個世界貧乏而規整的慘象——假裝時間萬物都是整齊地排列的。而事實上現實是紛繁復雜的,天地間存在的事物也遠遠多于系統所設想的。
本期小問題:我司消費者數據庫DMP里有27億的設備號,覆蓋中國xx%網民?數據最接近的同學得分哦