圖像辨識顧名思義就是辨別圖片,然而這彷彿是人類與生俱來的能力,其實卻是我們從出生以來慢慢累積的技能。而人類在學習辨識圖片的過程也非常簡單,就是不斷的犯錯。答錯的時候被糾正,答對的時候被獎勵。
機器同理,當我們在應用機器學習技術去辨識圖片時,我們也是告訴機器每一張圖片分別代表的是什麼,最後再測試機器的學習情況如何,並根據結果作學習方式的調整。雖然這個過程彷彿與人類的學習過程是一樣的,但這其中卻有著兩個最大的不同處,而這兩點分別是為何在圖像識別中人工智慧尚無法超越人類,也是為何人工智慧具備著龐大的潛能。
現在大多的圖像辨識多利用所謂的深度學習技術來訓練模型,而深度學習的技術建立於所謂的人工神經元,而這人工神經元是我們對人類大腦非常有限的理解之下所模擬出來的,不僅本質上遠遠的不及人類的大腦,運算的模式差異也非常大。
人類的大腦內有著860億個神經元,並且可以創造100~1000兆的突觸(可以理解成連接程度),而人工的神經網路通常只有涵蓋大約10~1000個神經元,且連階層度非常低。同時在運算層面(連接程度)上,大部分的人工精神網路僅能一層一層的運算,不同於人類的大腦,可以所有的神經元同時串連運作。
再來是學習效能與效率,雖然我們尚不知道大腦是如何做學習的,但不難看出的是我們在學習的過程中往往可以把一次學習的經驗與知識帶進下一次的學習中,如此整合性的學習大幅地提高了我們學習的效率與效能。而現階段的人工智慧技術的學習模式僅能訓練模型去完成某個特定的認為,其中的經驗與知識無法帶進下一次的學習中。即便是打敗所有圍棋高手的Alpha Go,如果今天的棋盤換成圓形的,一個小學生都能夠勝過他。圖像辨識也是,我們用貓的數據訓練模型辨識出貓,而在訓練機器辨識狗時,若是同樣的演算法,我們需要同樣大小的數據才能讓模型表現的相當。
而如此的不同也讓機器在辨識圖片時準確度遠遠不及人類,且學習效率也無法與人類比擬。
若以評估機器的標準來評估人類的大腦,我們的大腦即是一台低運算、空間極有限、且非常非常耗電的機器。而現代的電腦,則是可以一秒鐘處理上千張圖片且永遠不會感到疲憊。 而也是這樣子的特性讓我們對於人工智慧技術的成熟感到害怕。
舉個例子來說,癌症醫生在病患做完一系列的測驗之後,通常需要花上10分鐘甚至一小時去整合這些資訊與客戶的病例以判斷腫瘤是否惡性,而因為其中人為的因素太多了,病患也無法得知診斷結果的正確率。然而因為圖像辨識技術的成熟,在醫療界中AI在近幾年不斷地突破,甚至在很多領域中達到比醫生還要好的成效。 例如在辨識肺癌的準確率高達96%與乳癌的準確度高達99%等。
而為什麼人工智慧可以在這個領域當中建立出與醫生同等甚至超越醫生的能力,其中就是透過深度學習,模型可以徹底的分析每一個細節,並且能夠在短時間內學習上萬張圖片。而人類卻無法達到這個速度,且正確率的背後往往有很大的人為因素這個變數。
即便是如醫療業這種高知識且極度需要經驗的領域,人工智慧都能創造如此的成績,不難想像的是隨著圖像辨識技術變得更成熟,我們將會在每一個產業中看到更大的變動。
不難看出圖像辨識的潛能是多麼的龐大,雖然多數研究把圖像辨識市場的年成長率(CAGR)估在大約20~25%,但我們於2019年的研究發現隨著機器學習技術的門檻降低(如更多不同領域的API、相關產業技術的開源碼增加、或是更多的人才以及更容易操作的技術)以及地方政府的支持,我們將會看到更為極端的成長。
目前已經頻繁被應用的技術包括社交媒體與智慧相簿的面部辨識、被消費品與零售廣泛應用的目標式行銷、自動駕駛、道路監視器、以及工廠流水線的AIoT等等。 隨著圖像識辨識的技術進步,我們將會看到更多不同的產業應用, 而以下我們將會針對各個產業做一個更進一步的解析,通過一些真實案例以了解現在什麼是值得業者關注的技術。
零售業在2017年時即是圖像辨識最大的應用領域,而如此趨勢會持續至2025年,創造超過150億美金的產值。
台灣一家公司就成功地透過圖像辨識解決了澳洲前三大連鎖超市當時所面臨的問題,一直以來因為客人都時常把花生與昂貴的松子搞混,而導致每年損失近五千萬台幣,而台灣這家公司所研發與製造的智慧磅秤(結合數位攝影機與磅秤),成功的幫助這間超市降低了30%的損失。