【導讀】在談到成像或具體到手機拍照時,通常市場更關注的是攝像頭模組本身,或者其中最核心的 CMOS 圖像傳感器(CIS)。當前,智能手機 CIS 市場的競爭仍然非常激烈,更多需求正從 8 英寸 wafer 轉向 12 英寸,同時隨著 4000 萬像素以上的 CIS 需求提升,像素工藝節(jié)點也在變小。
在談到成像或具體到手機拍照時,通常市場更關注的是攝像頭模組本身,或者其中最核心的 CMOS 圖像傳感器(CIS)。當前,智能手機 CIS 市場的競爭仍然非常激烈,更多需求正從 8 英寸 wafer 轉向 12 英寸,同時隨著 4000 萬像素以上的 CIS 需求提升,像素工藝節(jié)點也在變小。
這一改變,這對于手機 CIS 市場份額第一的索尼而言,恐怕算不上是一個好消息。今年 8 月,Twitter 上出現一組消息源未經考證的數據,指出今年第一、二季度,三星與索尼的圖像傳感器市場份額縮短到有史以來的最接近。索尼圖像傳感器在今年第二季度的市場份額下探至 42.5%,三星上升到 21.7%。在《國際電子商情》來看,這與三星乃至更多市場參與者,如 SK 海力士,在高像素相關的制程工藝上的優(yōu)勢有關。
成像市場的價值恐怕正在發(fā)生一場轉變。由于智能手機在成像領域占據了最大市場份額(Yole Developpement 去年年中的數據顯示,移動 CIS 占到整個 CIS 銷售額的 70%),本文主要以智能手機這個門類的應用為例,來談成像市場正在發(fā)生的轉變——原本以 CIS 為主的市場正逐步轉至以圖像 / 視覺處理器,如 AI 專核、ISP(圖像處理器)等為主,這種變化將創(chuàng)造更大的市場價值。
另外,智能手機成像的特殊性在于,其他領域的成像,如醫(yī)療成像、工業(yè)領域的機器視覺等,在圖像傳感器層面是以“拍得到”為主要目標,并且更注重圖像數據的后處理與計算。而手機拍照向來以“拍得好”為主要目標,它對圖像傳感器的重視由來已久。
智能手機制造商在宣傳其拍照的賣點時,仍然更傾向于 CIS 本身的高像素和大尺寸。但成像質量的決定因素已經從 CIS,向圖像數據的處理與計算環(huán)節(jié)傾斜,它體現的也正是數字芯片本身的技術發(fā)展以及 AI 技術的快速推進對傳統(tǒng)光學技術發(fā)展的挑戰(zhàn)。
前兩年就開始出現的苗頭
聯發(fā)科在 2018 年提出了“真 AI 相機”的概念。該概念包含了三個主要的因素:1. 高像素、大尺寸 CIS;2. 多核 ISP;3. 高性能的 AI 專核。其中,第一點是成像領域的共識,而后兩點都與圖像數據的后處理(Post Processing)相關。
如果說 ISP 是處理(Processing)數據,那么 AI 及其他視覺處理器就是對數據做更深度的計算(Computing)。ISP 的重要性在過去總被反復提及,但其在成像領域,尤其是手機拍照上的地位遠不及 CIS。此外,AI 專核也是成像領域這兩年的香餑餑。在此基礎上,“真 AI 相機”這一營銷概念的提出,本質上是為了吸引終端設備制造商來采用聯發(fā)科的 SoC 產品,不過它卻真正將 ISP 與 AI 專核提到了與 CIS 相同的高度。
無論是專為攝像頭配備的 ISP,還是 AI 處理單元,它們在拍照中的應用都可以認為是這兩年頗流行的 Computational Photography(計算攝影)。普羅大眾對于“AI 拍照”的理解,恐怕還停留在美顏、人臉識別、去背景或者讓天空更藍、草地更綠這樣的層面。實際上,AI 對于成像的協(xié)助,已經深入到了拍照的方方面面,這部分將在下文探討。
除了聯發(fā)科這樣的芯片廠商之外,谷歌的表現也值得關注。據《國際電子商情》了解,谷歌在 2017 年為其 Pixel 2 手機配備了專門的 Pixel Visual Core(Pixel 視覺核心,圖 1),這是由該公司自主設計的基于 Arm 系統(tǒng)的 SiP 封裝圖像 / 視覺處理器。這枚處理器可以看作是一個完全可編程的圖像、視覺與 AI 多核專用架構(domain-specific architecture)芯片,其應用在 Pixel 4 之上迭代為 Pixel Neural Core(Pixel 神經核心)。
當然,谷歌 Pixel 系列手機在移動領域普遍更具有前瞻性和試水性質。谷歌在 Computational Photography 領域有著多年的沉淀,他們認為與高通在 SoC 內部提供 ISP 與 AI Engine 能力相比,針對拍照來自研專用的圖像處理硬件更加高效。
圖 1,Pixel 手機的 Pixel Visual Core 內部
在前智能手機時代,外置 ISP/DSP 是個常見的概念,但隨著芯片集成大趨勢的到來,當代圖像處理硬件已很少以獨立的形態(tài)存在于 SoC 之外。谷歌的這種做法進一步提升了圖像 / 視覺處理器的地位:雖然外置一顆獨立圖像 / 視覺芯片的方案未必會成為趨勢,但是在拍照的各環(huán)節(jié)中,后處理已經成為更重要的組成部分。
谷歌 Pixel 手機有個更有趣的傳統(tǒng):相同型號的 CIS 可以連續(xù)用在兩代 Pixel 手機上,比如 Pixel 3 和 Pixel 4 的主攝都采用疑似索尼 IMX363 的 CIS。即便如此,手機的拍照表現仍然會有飛躍,這個特點一直為人們所津津樂道。這也表明,谷歌在成像上非常重視圖像處理,而不僅只關注圖像傳感。
再回過頭來看今年的高通驍龍 865 針對成像的堆料:驍龍 865 的 ISP 部分支持每秒 2 GigaPixel 的速度,同時也支持 4K HDR、8K 視頻拍攝以及最大 2 億像素的照片拍攝。在與第五代 AI Engine 合作的情況下,這顆 ISP 能夠快速識別不同的拍攝背景、人、對象。如今,高通會著重宣傳每一代驍龍旗艦中的成像。
再看看蘋果今年發(fā)布的 A14,其 CPU、GPU 性能提升的幅度并不算大,但 AI 專核部分的 Neural Engine(神經引擎)增加到 16 個核心,這讓其算力提升到了 11TOPS;A14 CPU 內部還特別包含了升級過的機器學習 AMX 模塊(矩陣乘法加速器)。如今,手機上的 AI 處理器總被人詬病沒有太多應用場景,但它們在 Computational Photography 上正默默發(fā)揮作用。
愈發(fā)明確的市場現狀
索尼在今年 5 月推出了兩款“智能視覺傳感器”——IMX500 與 IMX501。該公司宣稱,這是全球最早加入了 AI 處理能力的圖像傳感器。這兩顆芯片的傳感器部分,是比較典型的背照式 CIS;而集成的邊緣 AI 處理部分,包含了 DSP 的邏輯芯片,也包括了 AI 模型所需的臨時存儲空間,屬于比較典型的邊緣 AI 系統(tǒng)。更嚴謹地說,IMX500/501 恐怕不應僅定義為“傳感器”。
這兩顆芯片在配合云服務的情況下,在數據處理階段僅獲取元數據作為輸出,這樣能夠降低數據傳輸延遲,減少功耗與通訊的成本。這類設計的本質是:將部分“后處理”的能力集成到圖像傳感器上。這樣一來,錄制視頻時就能進行更高精度、實時的對象追蹤。目前,這兩款傳感器主要應用于零售、工業(yè)設備。
另外,在配套解決方案上,索尼也推出了用于這類集成 AI 能力的 CIS 的軟件訂閱服務。加入了 AI 數據分析的潛在市場價值大于傳感器市場本身。雖然索尼并不期望這項服務能夠在短期內盈利,但是它非??春闷溟L期發(fā)展。即便 IMX500/501 并不面向智能手機產品,這一步也能體現索尼在 CIS 業(yè)務開發(fā)的思路轉變:即開始從單純的圖像傳感,往圖像 / 視覺處理做擴展。畢竟傳統(tǒng) CIS 市場的增長速度正在放緩。
今年年中,Yole Developpement 發(fā)布了一份題為《2019 圖像信號處理器與視覺處理器市場與技術趨勢》的報告。該報告明確提到:“AI 徹底改變了視覺系統(tǒng)中的硬件,對整個行業(yè)都造成了影響。”
“圖像分析增加了很多價值。圖像傳感器供應商們開始對將軟件層集成到系統(tǒng)中感興趣。如今圖像傳感器必須跳出單純的捕獲圖像這一能力之外,再對圖像做分析。”
“但要跑這樣的軟件,就意味著高算力和存儲需求,也就有了視覺處理器的出現。ISP 市場 2018-2024 年的年復合增長率穩(wěn)定在 3%,即 ISP 的市場價值到 2024 年會達到 42 億美元。與此同時,視覺處理器市場也會迎來爆發(fā)增長,2018-2024 年的年復合增長率為 18%,到 2024 年,其市場價值會達到 145 億美元。”
圖 2,2018-2024 年,圖像 / 視覺處理器的出貨量與市場規(guī)模預期
來源:Yole Developpement
這個值當然仍未達到 CIS 年度總價值,上述兩個市場相加才大約超過今年的 CIS 市場規(guī)模(今年 CIS 行業(yè)產值預計為 172 億美元)。這還需要注意,CIS 市場的增速正在放緩以及此處并未考慮視覺處理芯片配套的軟件市場。起碼索尼認定,其長期的市場發(fā)展?jié)摿Υ笥?CIS 市場本身。Yole Developpement 的預測數據顯示,ISP 在市場中所占比重將逐步降低,而更注重計算的視覺處理器顯然更為緊俏(圖 2)。
“值得注意的是,很多傳統(tǒng)的行業(yè)參與者,在應對 AI 趨勢時顯得比較局促。這也讓其他更多參與者加入到業(yè)務競爭中,比如蘋果、華為,Mobileye 這樣的初創(chuàng)公司,甚至其他領域的企業(yè),像是英偉達。”這是成像市場擴展了縱深的表現。
AI 究竟為手機拍照帶來了什么?
今年 3 月,法國知名影像實驗室 DxOMark 曾刊文提到,近 10 余年來,智能手機拍照的畫質提升超過 4EV,其中 1.3EV 來自圖像傳感器 / 光學技術的提升,還有 3EV 是來自圖像 / 視覺處理器(圖像數據后處理)帶來的提升。這已經基本顛覆了大眾對于提升拍照畫質,就是要提升 CIS 技術的基本認知。
而圖像 / 視覺處理作為一個相當古老并發(fā)展多年的議題,AWB(自動白平衡)、ANR(主動降噪)、3DNR(3D 降噪)、BLC(黑電平校正)、HDR 等原本都屬于 ISP 的常規(guī)項目。近兩年,在圖像后處理中 AI 拍照被提得最多的功能,包括人臉識別、拍攝對象識別、語義分割、智能美顏等。
這些的確是 AI 為成像帶來的價值,但 AI 參與手機拍照的畫質提升,滲透到了上述常規(guī)項目中。谷歌在 Computational Photography 方面的很多的研究也涉及到了這些組成部分,比如針對低光照場景下的自動白平衡,傳統(tǒng)算法在白平衡修正上顯得無能為力。谷歌幾年前就應用了機器學習:通過向模型輸入大量白平衡修正到位的照片,來訓練自動白平衡的智能模型。
谷歌在 Pixel 手機成像的諸多環(huán)節(jié)和特性上應用了機器學習。比如拍照取景時的實時 HDR,再比如視頻拍攝的防抖。在數據后處理時,首先在第一階段進行動作分析、獲取陀螺儀信號、結合光學防抖動作;其次在 motion filtering 環(huán)節(jié)結合機器學習與信號處理,來預測相機本身的運動軌跡;最后再最終的幀合成環(huán)節(jié),對快門與微動造成的畫面失真做補償。
圖 3,來源:Google AI Blog
更為典型的例子是模擬背景虛化效果。傳統(tǒng)方案模擬背景虛化主要是靠立體視覺,而谷歌提出的方案,不僅依靠兩種立體視覺方案(Pixel 4 手機的雙攝與雙像素技術),而且為加強虛化可靠性,對畫面拍攝對象做語義分割:谷歌打造了一臺五顆攝像頭的設備,拍攝大量場景,收集足夠的訓練數據。利用 Tensorflow 訓練一個卷積神經網絡:首先分別單獨處理雙像素與雙攝的輸入數據,中間有編碼器將輸入信息編碼為 IR(中間層),隨后兩部分信息經過另一個編碼器,完成最終的對象深度計算(圖 3)。這里的編碼器本身就是一種神經網絡。
今年 4 月,聯發(fā)科的研究人員發(fā)表了一篇題為 Learning Camera-Aware Noise Models 的論文,提出對圖像傳感器噪聲進行建模的方法,通過“一種數據驅動的方法,從真實環(huán)境噪聲中去學習噪聲模型。這種噪聲模型與相機相關,不同的傳感器有不同的噪聲特點,它們都能被學習。”
這些例子都表明,越來越多不同層級的市場參與者都在投入圖像的后處理。所以采用老型號 CIS 的谷歌 Pixel 手機,在很多成像項目對決中,與其他采用上億像素 CIS 的手機相比,依然保持優(yōu)勢。外置一顆 AI 視覺芯片的方案,顯然讓谷歌更有發(fā)揮空間。
如今的手機已經開始廣泛應用 AI 來做成像質量的加強,而且包括了取景、抑噪、自動白平衡這些傳統(tǒng)環(huán)節(jié)的參與。就用戶層面來看,AI 芯片參與計算并不會有很強的感知。
當這些技術在成像領域變得越來越普遍時,過去的移動成像唯 CIS 中心論愈發(fā)失效。如今的終端廠商在火拼手機拍照時,比拼的重點已經向圖像 / 視覺處理與計算偏移。畢竟傳統(tǒng)光學技術發(fā)展的速度無法與與數字芯片相比。
現在很多人拿手機拍照去與全畫幅相機比較,即便這樣的對比沒有任何實際意義,但它也能體現手機的圖像 / 視覺處理計算能力,很大程度彌補了移動 CIS 的短板。實際上,這也是兩種方案、兩個時代的比拼。
免責聲明:本文為轉載文章,轉載此文目的在于傳遞更多信息,版權歸原作者所有。本文所用視頻、圖片、文字如涉及作品版權問題,請電話或者郵箱聯系小編進行侵刪。