LV. 42
GP 4k

【閒聊】 台灣處理器拾遺 成為威盛電子 x86 處理器技術基礎的 Centaur(上/下)

樓主 (祥物語) buddha743
12 -
轉載出處(科技新報)




嚴格說來,台灣廠商至今仍從未在 x86 處理器市場缺席,即使這塊領域早已被 Intel 和 AMD 牢牢的支配著,少有其他廠商的生存空間。
在 2019 年 11 月 18 日,位於美國德州奧斯丁的 Centaur(中文翻譯為「半人馬」),發表了 x86 世界首款內建人工智慧輔助處理器的「伺服器等級系統單晶片」CHA,原生八核心,四通道 DDR4 記憶體,可雙處理器組態,並支援連 AMD Zen2 世代都尚未提供的 AVX-512 指令集。繼 2008 年 5 月 29 日發布的 Nano(凌瓏)系列處理器後,相隔超過十年,總算催生出全新的微架構與處理器產品。
這間已成立 25 年的 Centaur,早在 1999 年 9 月 16 日,被威盛電子(VIA)以 5,100 萬美元的價碼,從 IDT(Integrated Device Technology)所收購,成為威盛的子公司,並構成威盛旗下 x86 處理器的技術基礎。
值得注意的是,威盛電子也在當年 8 月 3 日,從國家半導體(National Semiconductor),以足足超過 3 倍的價格(1 億 6,700 萬美元),買下了 Cyrix。但其技術血脈,卻徹底絕滅,還在 Cyrix III 處理器上演了「狸貓換太子」、從 Cyrix 轉為 Centaur 技術的戲碼。Cyrix 唯一留下的貢獻,僅限於從 Intel 取得的交互技術授權,如 Socket 370 使用到的 P6 系統匯流排(可能還得加上一些跟快取記憶體設計有關的知識),確保威盛不會被 Intel 的法務部門找麻煩。
不過當歷史上如過江之鯽的 x86 處理器廠商,一間一間的消失在歷史的洪流,一個一個逐漸被眾人所遺忘,Centaur 可存活至今的理由,源自於公司創辦人 Glenn Henry 對於成本「斤斤計較」的堅持,可說到了走火入魔的程度,包含威盛 x86 處理器曾經讓人「津津樂道」的「半速浮點運算器」。
在了解 Centaur 的產品設計哲學:簡單(Simple)、迅速(Fast)、便宜(Cheap)之前,我們得先瞧瞧現已高齡 77 歲、但仍以半退休狀態延續職場生涯的 Glenn Henry,究竟是何方神聖,會如此偏執的將 1980 年代 RISC(精簡指令集電腦)的誕生初衷,貫徹於 x86 處理器產品設計,並開闢出一條遠離 x86 雙雄激戰區的「精巧低廉」發展路徑──儘管下場好像也不是太好看。

出身自 IBM 院士的 Glenn Henry

Centaur 創辦人兼前任總裁 Glenn Henry 生於 1942 年 7 月 26 日,在 IBM 展開其職業生涯,並在 1985 年因 RISC 的先驅研究成果(IBM RT PC,可謂 PowerPC 的前身),得到了 IBM 院士(Fellow)的頭銜,職涯擁有汗牛充棟的「三百份」專利。
(Source:Flickr/VIA Gallery CC BY 2.0)
但他本人後來興趣轉向於「將 RISC 的精神,引入高度普及的 x86 指令集相容處理器」,而 IBM 高層對此並不感興趣,所以他在 1988 年離開了任職 21 年的 IBM,轉戰 Dell,成為該公司歷史上第一位研發部門副總裁,並在 1993 年升任管理產品線的資深副總裁。
那時 Glenn Henry 注意到一個問題:他無法在市面上買到售價低於 160 美元的個人電腦處理器,這也變成降低個人電腦零售價格的最大障礙。如果沒經歷過 1990 年代初期,各位可能很難想像那時的 x86 處理器有多昂貴:在 1994 年第一季,連 486DX2 66MHz 都要 440 美元,更不用講 793 美元的 Pentium 60MHz 了。
有鑑於此,Glenn Henry 在 1994 年離開 Dell,重操舊業,投入於 x86 指令集相容處理器的研究。有趣的是,當時在 MIPS 工作的某位「前 IBM 人」Tom Whiteside,希望 Glenn Henry 可打造出同時相容於 MIPS 與 x86 指令集的處理器,將 MIPS 推入個人電腦市場,這也是 Centaur 此名的由來:半人半馬。
無獨有偶的,在那時,IBM 也提出了通吃 PowerPC 與 x86 的 PowerPC 615。大家都想「滲透」個人電腦市場,設法分一杯羹,特別當銷售 x86 處理器的利潤還是極為豐厚的時候。

令人難以置信的超低研發費用與超短開發時程

不過他們拿著這個混合式處理器架構的提案,繞了眾多研發 MIPS 指令集相容處理器的廠商們(那時很多人做 MIPS)一大圈後,最後只剩下一間公司願意買單:IDT,然後 Centaur 就在 1995 年成立了。
但 Glenn Henry 和他的老闆 IDT 執行長 Len Perham,很快的承認殘酷的現實:MIPS 沒有機會進入個人電腦市場,專注於 x86 會更有價值,Centaur 就開始以極度拮据的預算,在 x86 處理器踏出了第一步,因為以 MIPS 相容處理器和 SRAM 做為主要業務的 IDT,並不是什麼有錢的大公司,支付不起像 Intel 和 AMD 那樣巨大的研發「軍隊」。
Glenn 只能採取精兵政策,從擺明放棄研製 x86 處理器的 IBM 和 TI(德州儀器),挖來對 x86 有經驗的工程師,「近水樓台」在德州奧斯丁的 Somerset PowerPC 研發中心弄來 PowerPC 工程師,並從前東家 Dell 找來個人電腦專家,組成了大約 40 人的研發團隊。
接著奇蹟就降臨了:Centaur 僅用不到一年的時間,就「Tape Out」初代的 C6 處理器(第一代 WinChip)設計,並在 1996 年 7 月,首次 Windows 作業系統開機成功。更駭人聽聞的是,研發經費僅 1,000 萬到 1,500 萬美元,很可能連 Intel P6(Pentium Pro)的十分之一都沒有。
開發成本縮減至此,就算 Centaur 只吃下 1% 的 x86 處理器市場占有率,都足以養肥自己了。況且這筆錢還有一半是由日本的 MIPS 相容處理器廠商 NKK 所分擔的,他們在當時被當作 IDT 部分產品的替代來源,這筆小錢曾讓 NKK 一度有機會成為日本首間 x86 處理器廠商。
Centaur 如何打造如此誇張的世界奇觀?在 AMD 的 K5 創造者 Mike Johnson 口中「毫無道理可循」的 x86 指令集不是出了名的難搞嗎?這就跟他們堅守的三原則:簡單(Simple)、迅速(Fast)、便宜(Cheap)密不可分了。

成本至上,誰跟你超純量管線和動態分支預測

1990 年代初期,「一個指令跑不夠,你可以執行兩個」的超純量(Superscalar)管線,與「以古鑑今」猜測分支是否發生、確保指令管線不會停擺的動態分支預測(Dynamic Branch Prediction),是奠定高效能處理器的重要技術指標,也激增了處理器的結構複雜度。
信奉精簡教條的 Glenn Henry 卻不吃這套,吃了砰陀鐵了心,要用最短的時間、最低的成本,做出最便宜的產品,所有的電晶體預算都要砸在刀口上,不允許任何一絲一毫的贅肉。
就這點來看,Centaur 的理念,和同時期的 Rise 與同年成立的 Transmeta,完全如出一轍,並不打算跟 Intel 硬拚,而是希望在低價電腦和筆電市場開拓一片全新的藍海。唯一的差別只有 Rise 認清時勢急流勇退,Transmeta 如同蠟炬般的燒盡資金,資源消耗最少的 Centaur 卻依舊倖存至今。
Centaur 揚棄超純量管線的主因很簡單:有效率的超純量管線,須搭配大量的配套措施(像可讓指令解碼器同時擷取兩個指令的雙埠指令快取記憶體),太過複雜,遲至 2000 年揭露的 C5X,才算邁進超純量管線的世界,只是 C5X 也因成本因素,默默的不見,直到 2008 年的 Nano(CN)才重現曙光。
關於不做動態分支預測,就是純粹的精算了,Centaur 預估在 C6 引進類似 Intel Pentium 的動態分支預測功能,會提升 5% 效能,但將明顯增肥晶片面積,得不償失。
Centaur 將極為有限的資源,集中在認定的效能瓶頸,如便於提高時脈速率、集中加速最經常被執行簡單指令的微指令轉譯,用較高容量的快取記憶體、位址轉譯後備緩衝區(Translation Lookaside Buffer,TLB)和分頁表目錄快取(Page Directory Cache,PDC),設法彌補缺少超純量管線和動態分支預測的不足。所有的努力,僅侷限於一款「最高效益的純量處理器」。
也難怪微處理器報導(Microprocessor Report)主編曾戲稱:Centaur 做的不是「超純量(Superscalar)」,而是「超級純量(Super “Scalar”)」處理器。
所以 Centaur 那神奇般的超低研發成本和超短開發時間,並不是沒有代價的。你就知道 Glenn Henry 這個人有多摳,完全的「台式中小企業經營法」。
順便一題,為何這時所有 Intel 競爭者的產品命名,從 Cyrix 6×86 / 6x86MX、NexGen Nx686、AMD K6、Rise mP6 等,通通都要用到「6」?道理很簡單,因為要象徵追的上 Intel Pentium Pro(P6)的「第六世代 x86 處理器微架構」。
但 1997 年 10 月 13 日問世的 WinChip(C6),本質上根本是一顆「導入先進技術的 80486」,別說超純量管線,連動態分支預測也付之闕如,甚至連效能測試項目,只有未對超純量最佳化的 Winstone 97 才勉強可搬的上檯面,那個「C6」,實在是受之有愧。

奇謀而短、小步快跑的閃擊式產品研發路線

反過來說,天下武功,唯快不破,極短的產品開發時程,也帶來更密集的產品更迭,盡速修正前代產品的弱點,並縮短進入市場的時間(Time To Market),迎合市場需求。初代 WinChip 才剛上市沒多久,1997 年 11 月 Centaur 就宣布微幅改良版的 C6+ 計畫,並在 1998 年 5 月 19 日就公開樣品,當年 9 月 WinChip 2 產品就登場,速度相當驚人。
在 1998 年,Centaur 大約每季銷售 25 萬顆 WinChip 系列處理器,推算一年約 100 萬顆,主要客戶都在美國以外的市場。按照當時個人電腦年度出貨量,Centaur 的確有達到 1% 市占率的目標。在 1999 年被威盛購併時,初代 WinChip(C6)在兩年半的時間,累積了 150 萬顆的銷售量,這並不包含 WinChip 2 和 WinChip 3(C6+)的數字。
奇謀而短、小步快跑的打「機遇戰」,看不見的副作用,莫過於混亂的產品時程表,親身體驗過某些「老闆導向」企業文化的科技產業工作者,都會有一股強烈的即視感。
以 C6+ 來說,根據倍頻比例、製程、核心 / IO 分離式電壓和快取記憶體容量,就可分成 WinChip 2、WinChip 2A、WinChip 2B 和 WinChip 3 這 4 種產品線。在 Centaur 被威盛購併後的 5 年內,更是毫無邏輯可言,連筆者都有點同情威盛的產品行銷人員,看了二十幾年的處理器產品時程表,還沒見過這麼誇張的案例。
C6+ 改進 C6 的兩個主要缺點:缺少動態分支預測(4096 個單位元分支歷史表),和貧弱的浮點 / MMX 效能(將其管線化並可同時執行兩個指令),並新增 AMD 3DNow! 指令集。
其實為了改善 3D 應用的效能,Centaur 原先計劃自行定義 53 個 SIMD 浮點指令(耗用 12 個 x86 運算碼)與 22 個可直接定址(有別於 80×87 的愚蠢堆疊架構)的 80 位元浮點暫存器,並完全符合 IEEE 754 浮點數規範,看似非常的前瞻,也明顯優於 AMD 的 3DNow! 與 Cyrix 的 MMX-FP。
看在微軟希望所有 x86 處理器廠商,統一採用相同 SIMD 浮點指令的份上,與當時 AMD 執行長 Jerry Sanders 很大方的願意開放 3DNow! 讓業界共襄盛舉,Centaur 就拋棄了這念頭,投奔 AMD 的懷抱,況且假若謠傳中的 Intel MMX2 使用到重複的運算碼,屆時將會對 Centaur 帶來莫大的麻煩。
在 1997 年底透露的「C6 強化方案」還有一項未能實行:新增 256kB 第二階快取記憶體,這檔事倒是對 Centaur 的母公司 IDT 相當有意義,畢竟 IDT 的本業除了 MIPS 相容處理器,還有 SRAM。
但經過 Centaur 仔細盤算後,評估在 0.25µm 製程時,加掛 256kB 第二階快取記憶體,將幾乎倍增晶片面積(58 mm²→113 mm²),而加倍第一階快取記憶體的效果相去無幾,但面積成長不多(58 mm²→75 mm²),自然著毋庸議的在 WinChip 3 選擇了後者。
低價電腦一直是 Centaur 念茲在茲的大好機會,Cyrix 在 1997 年 3 月,發布 x86 處理器史上第一顆整合繪圖和音效的系統單晶片 MediaGX,促使 Centaur 在產品時程表擺上了如法泡製的 WinChip 2+NB(整合北橋),也與威盛(VIA)、矽統(SiS)和揚智(ALi)等台灣晶片組廠商,洽談北橋晶片的技術授權,預定在 1999 年第一季量產。
但 WinChip 2+ 和 WinChip 2+NB 在 1998 年底即無疾而終,死因不明,但可合理判斷原因不外乎「談不攏晶片組授權」、「研發能量不足」,或著「可能有買家快要來購併了」。而 WinChip 3 的表訂時脈,就更加遙不可及了。

「半速浮點運算器」傳奇故事的由來

在 21 世紀初期經歷過 Cyrix III 和早期 C3/Eden(C5A/B/C/N 核心)處理器的個人電腦玩家,或多或少聽聞「威盛處理器的浮點運算時脈只有主頻一半」的傳奇故事,而坊間謠傳的解釋多半是「為了提高良率」,這說法完全大錯特錯。
Intel Pentium Pro 三位總工程師之一的 Robert Colwell,在其回憶錄《The Pentium Chronicles》的第五章「產品量產階段(The Production Phase)」,引用了一段讓人滿臉黑直線的冷笑話,突顯在這個跟時間賽跑的「死線期」,工程團隊到底在想些什麼。
兩個男性工程學系的學生,騎車穿過校園。其中一人好奇的問「你這台綠色腳踏車是怎麼來的?」另一人回答「我昨天獨自散步,一邊走一邊想著我的作業時,有位漂亮女孩騎著這台腳踏車,在我面前停下,一下車,馬上脫個一絲不掛,要求我帶走想要的東西。」發問者就猛點頭表示同意,「好選擇,因為那些衣服你可能穿不下」。
這種「實用主義」在當你面臨最嚴酷的時間壓力時,就是再自然也不過的「政治正確」。
Centaur 在 1998 年底披露的 WinChip 4(代號 C4,數字終於一致),企圖藉由從頭全新設計的 11 階指令管線(時脈目標 500MHz 以上)、號稱 x86 世界最強大的動態分支預測機制(區域歷史表、全域歷史表、區域全域哪個比較準)、大型化的位址轉譯後備緩衝區、有限度的超純量(指令解碼器可在同時脈週期內解碼一個複雜指令和一個簡單指令,兩個 MMX/3DNow! 指令可配對執行)和非循序指令執行(限於記憶體載入回存),拉近與其他競爭對手的效能差距。
Winchip 4 也採取和同時期的 Rise mP6 神似的「執行單元開工前,提前存取資料快取記憶體」等手段,將指令管線「塞好塞滿」。
毫無疑問,Glenn Henry 堅持 WinChip 4 依循「簡單、迅速、便宜」的「Centaur 登山寶訓」,並表示「謀略優於電晶體(Tricks are better than transistors.)」與暫存器更名(非循序指令執行)是「魔鬼的工作(Work of the Devil)」。
但問題來了,Centaur 一方面想提高 WinChip 4 的時脈,另一方面又不願意多花時間,重新設計可跟上高時脈的深度管線化浮點運算器,該怎麼辦?很簡單,原封不動的移植 WinChip 2 的浮點運算器,兩個時脈週期當一個用,讓它只跑主頻一半的時脈就好了,一切功德圓滿,皆大歡喜,讓原本性能就偏弱的浮點運算,從此變成威盛 x86 處理器的超級大劣勢,到了 2003 年的 C5XL 核心 VIA C3 才解決。這「謀略」有多「厲害」,就見仁見智了。

在威盛體系取代 Cyrix

威盛在 1999 年 6 月 30 日與 8 月 5 日,先後宣布購併 Cyrix 和 Centaur。第一個標上威盛品牌的 x86 處理器,是 Cyrix 代號「Joshua(約書亞)」的 Cyrix III,在 2000 年 2 月 22 日進入市場,但極為短命,活不到半年就夭折。
Centaur 為了配合新東家的產品發展策略,Socket 7 腳位的 WinChip 4(C4)僅停留於工程樣品階段,轉為 Socket 370 的 C5A(威盛代號 Samuel)。「理論上」C5A 應沿用大半的 C4 設計,但很明顯的,光動態分支預測的部分,C5A 就省略掉了 C4 原訂的分支目標位址快取記憶體(Branch Target Address Cache,BTAC),已知資料也顯示管線結構也有所差異,總之 C5A 沒有照單全收 C4 的改進項目,恐怕也是為了降低成本。請大家再跟著喊一次:簡單、迅速、便宜。
C5A 從開工到 Tape Out,從 IBM 0.25µm 轉進台積電 0.18µm 製程,僅花了兩個月的時間。更在 2000 年 6 月 6 日,一舉取代 Cyrix,「鳩占鵲巢」的搶走 Cyrix III 這個原本不屬於 Centaur 的名號。如夢似幻般的 Cyrix M3「Jalapeno」微架構與相對應的 Socket 370 處理器「Mojave」亦無以為繼,替 Cyrix 劃下了充滿遺憾的句點。
在 2019 年,AMD 結束了最早源自於 MediaGX 的 Geode LX 產品線,意味著 Cyrix 的技術血脈,從此永遠斷絕。威盛之所以做出這樣的決定,要嘛既有 Cyrix 團隊的人才大量流失(據聞 Joshua 剛「殺青」沒多久,團隊就解散了),要嘛威盛本來就不打算讓 Cyrix 活下來,要嘛威盛高層也認同 Glenn Henry 的那一套省錢之道,要嘛三者皆有。

當 x86 雙雄開始在低價市場大打出手

但威盛進軍 x86 處理器市場的時機卻極度微妙。站在更遠的角度觀察 1999 年的 x86 處理器市場,就不難理解國家半導體和 IDT 急著脫手旗下 x86 處理器部門的緣由──Intel 和 AMD 早就盯上了低價市場,這讓他們手上的 x86 處理器業務,變成欲除之而後快的燙手山竽。
在 1998 年 11 月,Cyrix 在美國的零售通路還保有 22% 占有率,但在 1999 年 2 月,Intel 發動高時脈 Celeron 大攻勢之後(同時 AMD 也用 K6-2 展開搶攻),Cyrix 產品競爭力一落千丈,只能低價促銷,美國零售通路占有率瞬間被侵蝕到剩下不到 5%,單季銷量量跌至 150 萬顆,產品平均單價更從 49 美元一路滑落到 42 美元,而品牌電腦和筆電市場就更毫無還手之力。講的白話一點就是「大環境惡化」,時不我與。
Centaur 的總體銷售量跟 Cyrix 相比,還差得遠了,搞不好累積一整年,還比不過人家最慘澹的一季。這一點都不奇怪,要不然為何 Cyrix 的購併價碼會是 Centaur 的 3 倍還有找?
但過去只想靠著賣便宜晶片過著安穩日子的 Centaur,已經主導威盛的 x86 處理器技術發展,面對迎面而來的龐大競爭壓力,可是想逃也逃不了,他們還有那個本錢繼續死守「簡單、迅速、便宜」法則嗎?還是為了執著於家傳寶訓,而付出了更慘痛的代價?


先不論 Centaur 要怎樣支撐威盛那「開闢新戰場,延續高成長」的戰略大計,光從 2000 年到 2004 年,那讓人摸不著頭緒的紛亂產品時程表,就夠筆者和潛在客戶傷透腦筋了。

2000 年到 2004 年的時程表大風吹

筆者不敢斬釘截鐵的確信,當初威盛花大錢,一口氣購入 Cyrix 和 Centaur,有沒有打算建構「高低檔搭配」產品線(高階 Cyrix,中低階 Centaur)的野心,或者覺得這兩間的文化是互補的。但情勢的演變,讓 Centaur 不得不面對「追求高效能」的挑戰──即使初代超純量管線的 C5X,死在 Centaur 自己的手裡。
砸了超過兩億美元進軍 x86 處理器市場的威盛,透過收購 Cyrix 而得到的 Intel P6 匯流排授權,期限只到 2006 年 5 月,2001 年 3 月 25 日讓 VIA C3 取代 Cyrix III,更等於直接把 Cyrix 品牌丟到水裡。到頭來,手上還有專利可和 Intel 討價還價的 Centaur,乍看之下,是僅剩的有價值資產。
來自威盛高層的期望,都充分反映在「產品代號充滿聖經味」的產品路線圖,「雙重產品代號(威盛的聖經人名和 Centaur 的 CxX)」也是威盛 x86 處理器的一大特色。更糟的是,這兩者還不是「一對一」的,讓產品代號與行銷名稱之間的對應關係,更顯得混亂不堪。
眼見為憑,就請各位看倌慢慢欣賞。
2000 年:Centaur 的首要之務是持續改進並縮小 C5 家族,並追逐 1GHz 時脈。此時簡報掛出來的品牌還叫做 VIA Cyrix。
此外,威盛在 2000 年 4 月 11 日以 3.23 億美元的代價,將 S3 繪圖晶片部門轉移至新成立的 VIA-S3 合資公司,冒出個打包威盛北橋晶片組和 S3 繪圖核心的 Matthew,實乃理所當然之事。最起碼,在當時威盛高層應認定這是市場渴望的「馬太福音」。
但 Centaur 有個更艱鉅的任務:在越來越熾烈的效能軍備競賽,不能再像過去一樣「裝死」。各位可回想一下,2000 年剛好是 Intel 和 AMD 爆發 1GHz 時脈爭奪戰,並點燃後來長達 20 年 x86 雙雄戰役的關鍵時刻。產品時程表出現了 Centaur 史上第一個超純量管線的 x86 處理器核心 C5X,與全新的 CX,也就是我們所熟知的 Nano。
C5X 不僅是貨真價實的超純量 x86 處理器核心,支援 SSE 指令集,更有著強大的動態分支預測、更深的指令管線與倍增的內部執行單元。當初 Centaur 沒寫在簡報內的是,為了確保可每個時脈週期擷取兩個指令,C5X 導入預先指令解碼(Pre-Decode)的指令快取記憶體,提前標定快取記憶體內的指令邊界(x86 指令集的長度並不固定),這讓實際所需容量爆增 40%。
這很顯然違背 Glenn Henry 的「信念」,也因此,預計 2001 年第三季出貨的 C5X,真的能順利誕生嗎?預估的 55 mm² 看似不大,但你怎麼猜得到威盛高層或 Glenn Henry 會吝嗇到什麼程度?更何況當「預算」超支的時候?
2001 年: 浮出調降電壓、壓低耗電量的 C5C「Ezra」。Cyrix 品牌也默默的消失。
Ezra-T 的那個 T 代表的是末代 Intel Pentium III「Tualatin」使用的改良版 P6 匯流排(Tualatin Bus,或稱為 P3 Bus),AGTL 電壓準位從 1.5V 調降到 1.25V,在還造成某些 Intel 晶片組的相容性問題,某些骨灰級電腦玩家應該依稀還有點印象。
C5M 僅用來進行樣品測試,真正投入量產的是 C5N。
C5X 則延後到 2002 年,還跑出來衍生款 C5XL 和 C5YL,這並不是什麼好兆頭。
全新未來架構從 CX 改名成 CZA,意義不明。
C5XL(Nehemiah)是 C5X 的砍半版本,也是 Glenn Henry 最愛的「超級純量」處理器,符合「簡單、迅速、便宜」的大原則。這時公布的 C5X 也與一年前略有出入,至少指令管線深度被縮短了,晶片面積也增肥到 78 mm²,隱隱約約讓人感受到這踩到了某個人心中的紅線。
「證實 Centaur 對簡單微架構的執著是正確的」的 C5XL,犧牲 10% 整數與 20% 多媒體效能,但減少了 30% 晶粒面積,利於提高時脈,降低耗電,而且 C5X「更貴更熱」。
2002 年:既然有了便宜的 C5XL,做為「先導研究案」的 C5X 就沒存在的必要了,Centaur 首款超純量管線 x86 處理器,就此胎死腹中。
但 C5XL 並非一團糟,相較於 C5N,在相同製程,C5XL 的面積更小,時脈更高,支援 SSE 指令集。讓人眼睛一亮的是,C5XL 具備了多處理器環境必備的先進可程式化中斷控制器(APIC),這讓 C5XL 可實作雙處理器組態,但這張支票到了 C5XL 的下一版 C5P 才兌現。
C5XL 有一點值得大書特書:浮點運算不再只跑一半時脈,真是可喜可賀。
不過,以 C5XL 做為全新起點的演進圖,卻更讓人感到一頭霧水。一個 C5X 被腰斬的前車之鑑擺在眼前,誰敢保證產品時程表上的代號,有幾個可以苟活?更何況,給客戶看因「比電晶體更厲害的謀略」而隨時大風吹的產品時程表,對經營事業與開發客戶,真的妥當嗎?
千萬不要改改 roadmap 沒什麼大不了,對 Intel 和 AMD 來說,一旦爆發這種大事,一堆人都要準備去「找頭路」了。
偏偏這又是不少台商甚少意識到的壞習慣,自己關起門來「精雕細琢,近乎苛求」是一回事,改來改去(搞不好還改上癮了)的「Roadmap」往往是客戶規劃產品時的大災難。「先當個簡報王,等有客戶被騙上鉤再開案」確實是常見的業務開發技倆,但這招玩久了,只會讓自己徹底信用破產。此類英勇事蹟,在業界可謂班班可考。
全新未來微架構又從 CZA 改名成 CN,意義依舊不明。
再跑出來多出 SSE2 指令集、強化動態分支預測的 C5Z。第一時間先問:它活得下去嗎?
那個看起來很像「試水溫」的 C5Y(疑似系統匯流排換成 VIA V4 Bus)和 C5XP(C5XL 的低耗電版),似乎也很危險。那顆不存在的 C5XL/Z 的系統單晶片,就假裝沒看到好了。
2003 年:威盛開始以市場區隔細分品牌:VIA C3 入門桌機、Antaur 筆電、Eden 嵌入式應用,繼續大混亂中。
這提到了之前沒講到的 C5XL 的硬體亂數產生器(RNG,Random Number Generator),看來威盛想從資訊安全應用發掘一些獨特的利基點。
又跑出來 C5XL 的微幅改良版 C5P,在「例行公事」降低耗電、縮減面積、提昇系統匯流排之外,擴增本來該在 C5XL 就給的雙處理器組態(DP)、虛擬化(VME)、分頁位址屬性表(PAT)、硬體亂數產生器(RNG)、和硬體 AES 解密等。但對 Centaur 和 Glenn Henry,減少 10% 晶片面積才是重中之重,就為了「簡單、迅速、便宜」。
雙 C5P 處理器看起來很威,但是威盛有信心兩顆打得過人家 Intel AMD 的一顆嗎?
0.18µm 製程、支援 SSE2 的 C5Z 跑到哪裡去了?這個硬體 SHA-1 密碼雜湊演算法的 C5I 又是從哪邊跑出來的?
2004 年:由「倖存者」C5P 為出發點,重新開展的時程表。
但這時候威盛 x86 處理器的時程表,總算有了一貫的邏輯(儘管維持雙重核心代號):從 Pentium III 「Tualatin」匯流排移轉到相容 Intel Socket 479 腳位,但電器信號改用自家規格以避免侵權,並在通訊協定層面稍做改進(如資料寫入效率)的 VIA V4 Bus。
細心的讀者一定會留意到:C5P 的規格又被偷偷的小改了。
2004 年 5 月 18 日公開 C5J 產品代號、2004 年 9 月 17 日公布 VIA C7 品牌、到 2005 年 5 月 27 日產品上市,C5J 算是歷經 4 年的集大成之作,從製程、時脈、快取、指令集、匯流排、資安硬體功能到多處理器,在每個環節都有重大的躍進。
靠著 IBM 的 0.09µm 製程,C5J 晶片竟然縮小到 31.7 mm²,僅為 WinChip 2(95 mm²)的三分之一,Glenn Henry 這個人與其領導的 Centaur 團隊,對於壓低成本的執念之深,讓人感到恐怖。也許把產品「cost down」到看起來很玲瓏精巧,就是他們工作成就感的來源。
「幾乎 Tape Out」的 C5I(被 C5J 取代),和 C5Q(台積電 0.13µm)、C5R(台積電 0.11µm)與 C5W(IBM 0.09µm 改良版),也就默默消逝在簡報的盡頭。
走過風風雨雨的 4 年,這麼多的 Centaur 產品代號,扣除早期的 C5A/B/C,僅 C5N、C5XL、C5P 和 C5J 撐到量產上市的那一天。
很巧的是,這段期間,也正是 Intel 以威盛未得其同意,擅自銷售 Pentium 4 處理器相關晶片組為由,對其發動官司訴訟大戰,並糾纏了近 3 年。這場法律戰的影響,與是否就是產品開發計畫東改西改的主因,外人就不得而知了。
但唯一可以肯定的是:威盛和 Centaur 對「降低成本」的堅定信仰,如同信奉宗教般的虔誠。天真的相信,只要東西做得夠便宜,就一樣會有人願意買單,又偏偏是不少台灣企業(或許可加上某些美國人)的通病。

最終不得不與魔鬼進行交易

俗語說的好:出來混的,總是要還。多年來死守「成本至上」信條、堅決抗拒高效能處理器主流技術趨勢的 Centaur,終究得面對效能競爭力遠遠不如對手的殘酷現實(到了 2005 年,還沒有超純量管線,距離 Intel Pentium 已 12 年),64 位元的普及速度超乎眾多 x86 處理器小廠的預期(Transmeta 對此應該很有感),更是需要盡快提供解決方案的重點項目。
在 2004 年 10 月 5 日,跟隨著 C5J(VIA C7)一同曝光的「全新下一代微架構」CN,很明確的昭告天下:Centaur 還是得擁抱超純量管線、「魔鬼的工作」非循序指令執行、預測執行(結合動態分支預測和非循序指令執行),以及 64 位元和更高效率的多媒體應用效能。當然,在任何可以想到的環節,也勢必要有足夠的進化,才有可能跟得上 x86 雙雄的腳步──最起碼拉近那巨大的差距。
令人感到好奇的是:「面面俱到」的 CN,其產品開發時程,還能夠像過去的 Centaur 產品,一樣的神速嗎?還有辦法在兩年之內,也就是在 2006 年就推出產品嗎?
筆者只知道:從公司創立以來,微處理器報導(Microprocessor Report)舉辦的活動,幾乎無役不與的 Centuar 與其看板人物 Glenn Henry,從 2005 年到 2007 年,就再也沒站上這些活動的演講台了。
等待了整整 3 年,2008 年 1 月 23 日,威盛公開代號 Isaiah 的新世代 x86 處理器微架構,3 月開始大量提供樣品給客戶,5 月 29 日正式命名為 Nano(凌瓏)處理器系列。其腳位與 C7 相容,因此廠商與客戶可用較低的成本升級產品,也同步推出超低電壓的低功耗版本。
再來就是一連串事件發生時間與我們越來越近的故事。
2009 年 11 月 3 日,從富士通 65nm 製程轉進至台積電 40nm 製程的 Nano 3000 系列,開始支援 SSE4.1 指令集,並修正「殘廢」的第二個整數運算單元,使其可執行大多數整數運算指令。
2011 年 5 月 5 日,台積電 40nm 製程 Nano X2 邁進原生雙核心。
2011 年第三季末,四核心(兩顆雙核心封裝成單一晶片)正式出貨。
2014 年夏季,台積電 28nm 製程、時脈 2GHz 的「Isaiah II」樣品與測試數據曝光,支援 SSE4.2、AVX 與 AVX2 指令集。
但卻也被人發現:在某些 SPEC CPU 的效能測試項目,編譯程式時啟動 AVX / AVX2 時,效能不增反減,推測跟實作 AVX / AVX2 的手段有關,很可能只是透過修正微碼實現相容性,但處理器微架構層面卻毫無任何配套措施(Intel 和 AMD 都為此下足功夫),無愧 Centaur 那套「簡單、迅速、便宜」的最高指導原則。
有趣的是,那時有人注意到,威盛有份「疑似打造 x86 / ARM 混合架構處理器」的專利,也剛好是 AMD 剛宣布將融合 x86 與 ARM 的系統架構,並研發 K12 處理器的「簡報王」時期,讓人不聯想到威盛想趁機跑去湊熱鬧的念頭。最後,無論是AMD和威盛,這偉大的創舉,從來就沒有成真。
總之,各位可以回憶一下,在任何威盛推出新品的時間點,Intel 和 AMD 擺在市場上的是哪些產品,又是怎樣的製程和規格,又是何等規模的性能與出貨。然後威盛與 x86 雙雄的差距,就這樣越拉越遠。基本上,說威盛早就看不到那兩家的車尾燈,恐怕也不會有太多人會「膽敢」反對。
至於威盛這間公司為何從叱吒風雲的台灣股王,走向極盛而衰,到近幾年面臨下市危機的慘況,在過去早已是無數財經媒體的封面故事,就不在本文的探討範圍,也沒有特別為此大書特書的必要了。筆者只記得十幾年前,威盛某高層曾豪情萬丈的公開喊話:在嵌入式應用的市場,沒有 AMD 的份。
難道威盛和 Centaur 的 x86 處理器,除了低價位的嵌入式應用整合方案外(其實威盛握有的武器是很完備的),就沒有其他的出路嗎?2019 年 11 月 18 日的新聞稿,倒是提醒了世人,他們並未坐以待斃,寄望從人工智慧的推論應用,找出一條生路,甚至還有機會從 5G 時代的多接取邊緣運算平台(MEC),切入伺服器市場。

目標「人工智慧推論伺服器」的 CHA

在 2019 年 11 月 18 日亮相的 CHA 系統單晶片,整合了 8 個 CNS 處理器核心、16MB 第三階快取記憶體、4 通道 DDR4 記憶體控制器、44 Lane PCIe Gen3、Ncore 人工智慧輔助處理器,並可雙處理器組態,2020 年下半年量產,這是自從 Nano 之後,睽違超過十年的全新設計。CNS 採用台積電 16nm 製程,晶片面積是「破天荒」的 195 mm²,標準設計功耗不高於 85W。而此時此刻,Glenn Henry 則已經是半退休狀態了。
Centaur 宣稱 CNS 是「Intel Haswell」等級的微架構,從環狀架構(Ring)處理器內部匯流排也看得出 Sandy Bridge 到 Broadwell 的影子(之後的 Skylake 就轉向更有效率的 Mesh 匯流排),但 22nm 製程的 Haswell 卻早在 2013 年 6 月 4 日就已出現,技術整整落後超過 6 年的 CNS,論處理器核心的效能,根本一點拼面都沒有。若無讓人眼睛一亮的新兵器,連能否打得過 Intel「瞄準 5G 基地台商機」的 24 核 Atom 處理器,都是天大的問號。
所以除了連 AMD Zen2 都尚未支援的 AVX-512 指令集(雖然內部拆成兩個 256 位元運算微指令,實際效能有所疑慮),就是從 5 年前開始熱門的「人工智慧處理器」下手了。
CHA 的產品定位,很明顯的鎖定 5G 時代的邊緣伺服器,如 ETSI NFV 架構的多接取邊緣運算(Multi-access Edge Computing,MEC),或工業物聯網的網關(Gateway)。較「古老」的 16nm 製程,大概可提高 CHA 對惡劣運作環境的防禦力。而根據「人工智慧即將無所不在」的教條,這些應用或多或少用得到推論功能(像人臉辨識之類的)。威盛想踏入高獲利的伺服器市場,意圖不言可喻,但 CHA 值多少價格,那又是另一回事了。
由 Glenn Henry 親自操刀的 Ncore 人工智慧輔助處理器,晶片面積 34.4 mm²(恰巧是他非常熟悉的尺寸),採用超寬的 32768 位元 SIMD 架構,藉由理論值 20TB/s 的 16MB SRAM 挹注充沛的記憶體頻寬,當執行推論常用的 INT8 短整數時,擁有每秒 20 兆(20T/s)的最高運算能量。Ncore 亦可支援在深度學習開始普及的 Bfloat16 浮點數,但峰值效能會只剩下 INT8 三分之一。
這看起來好像很了不起,但這性能究竟如何,可以參考一下 Google 的第一代 TPU(2016 年):INT8 最高效能約 92T/s。換句話說,Ncore 連其四分之一都不到,大致上跟 Pascal 架構(2016 年)的 nVidia Tesla P4 相去無幾(22T/s)。同場加映 Turing 架構(2018 年)的 nVidia Quadro RTX8000 是 261T/s,推論專用的 T4 則是 130T/s。
當然,你也可以認定這個 Ncore 是「免費附贈」的,效能單位成本與「效能 / 功耗比」,可能遠優於現有市場上的其他方案,無需外掛運算加速卡也是顯而易見的優勢。但對於人工智慧應用,因為「硬體製造商和軟體開發者」之間的鴻溝實在太深(像 Google 這樣自產自用 TPU,反而就沒這樣的困擾),意思就是這票技術先驅者做出來的硬體,不是不好用就是不合用,導致 5 年前吸引眾多有志之士一窩蜂湧入的人工智慧晶片熱潮,正在急速退燒中。
威盛和 Centaur 是否能夠提供滿足軟體開發者的完整解決方案,避免重蹈覆轍,犯下無數「先賢先烈」的過往錯誤,將決定壓寶人工智慧這個決定的成敗,否則,CHA 將淪為「即不簡單,更不迅速,只能便宜」的低價產品。

唯偏執狂得以倖存,但卻不會帶來成功

「唯偏執狂得以倖存」(Only the Paranoid Survive),是Intel創辦人之一的安迪‧葛洛夫(Andy Grove)的傳世名言,一語道盡他戰戰兢兢、戒慎恐懼經營 Intel 的心路歷程。但我們也很清楚,Intel 之所以會如此成功,也不是只靠偏執而已。Centaur 偏執於「簡單、迅速、便宜」的理想之路,卻是另一個極端的反例。
他們的確靠著死守著最低成本的堅持,成為 Intel AMD 之外,唯二還念得出名號的 x86 處理器廠商(另一間是俄羅斯的 Elbrus),但這些產品是否帶來商業上的成功,相信各位心中自有定見。也許威盛並未供給 Centaur 足夠的經費和人員,也施加極度嚴苛的成本要求,在 Time To Market 的前提下,難以完成更先進產品的開發。
這些年來,Centaur 也很可能存活得很艱辛,朝不保夕,箇中甘苦,不足外人道也。但不幸的是,市場和消費者並不會理會這些「藉口」,他們只會在意產品能不能讓他們感到滿意。
不計代價的把東西做到價格最低廉,就絕對會有人樂意接受?這世界的運作,從來就不是這麼的簡單,沒有永恆不變、放諸四海而階皆準的準則。或許,這就是堅守「簡單、迅速、便宜」的 Centaur 和威盛 x86 處理器發展史,帶給我們的教訓。
============================================================================
我只知道威盛曾經讓amd嚇了一大跳,如果當初intel不做那一些會傷害威盛的事可能今天x86的cpu有可能就是intel/amd/台灣威盛!!
12
-
未登入的勇者,要加入討論嗎?
板務人員:

1327 筆精華,07/28 更新
一個月內新增 0
歡迎加入共同維護。


face基於日前微軟官方表示 Internet Explorer 不再支援新的網路標準,可能無法使用新的應用程式來呈現網站內容,在瀏覽器支援度及網站安全性的雙重考量下,為了讓巴友們有更好的使用體驗,巴哈姆特即將於 2019年9月2日 停止支援 Internet Explorer 瀏覽器的頁面呈現和功能。
屆時建議您使用下述瀏覽器來瀏覽巴哈姆特:
。Google Chrome(推薦)
。Mozilla Firefox
。Microsoft Edge(Windows10以上的作業系統版本才可使用)

face我們了解您不想看到廣告的心情⋯ 若您願意支持巴哈姆特永續經營,請將 gamer.com.tw 加入廣告阻擋工具的白名單中,謝謝 !【教學】