計(jì)算機(jī)視覺(jué)的早期實(shí)驗(yàn)始于20世紀(jì)50年代,并在20世紀(jì)70年代首次在商業(yè)上用于區(qū)分打字文本和手寫(xiě)文本,但如今計(jì)算機(jī)視覺(jué)的應(yīng)用已呈指數(shù)級(jí)增長(zhǎng)。預(yù)計(jì)到2022年,計(jì)算機(jī)視覺(jué)和硬件市場(chǎng)預(yù)計(jì)將達(dá)到486億美元。目前計(jì)算機(jī)視覺(jué)已經(jīng)成為日常生活中的一部分,即使我們并不知道計(jì)算機(jī)技術(shù)的部署的時(shí)間和地點(diǎn),但仍然會(huì)可能體驗(yàn)計(jì)算機(jī)視覺(jué)的應(yīng)用。 那什么是計(jì)算機(jī)視覺(jué),它如何工作又有哪些典型的應(yīng)用?
什么是計(jì)算機(jī)視覺(jué)?
計(jì)算機(jī)視覺(jué)是人工智能的一種形式,計(jì)算機(jī)可以“看到”世界,分析視覺(jué)數(shù)據(jù),然后從中作出決定,或者了解環(huán)境和情況。計(jì)算機(jī)視覺(jué)增長(zhǎng)背后的驅(qū)動(dòng)因素之一是我們今天生成的數(shù)據(jù)量,這些數(shù)據(jù)用于培訓(xùn)和改善計(jì)算機(jī)視覺(jué)。我們的世界里有無(wú)數(shù)的圖像和視頻,它們都來(lái)自我們移動(dòng)設(shè)備的內(nèi)置攝像頭。但是,雖然圖像可以包括照片和視頻,也可以意味著來(lái)自熱或紅外傳感器和其他來(lái)源的數(shù)據(jù)。隨著大量的視覺(jué)數(shù)據(jù)(每天有超過(guò)30億張圖片在網(wǎng)上共享)的出現(xiàn),分析數(shù)據(jù)所需的計(jì)算能力變得更加容易獲得,也更加廉價(jià)。隨著計(jì)算機(jī)視覺(jué)領(lǐng)域隨著新的硬件和算法的出現(xiàn)而不斷發(fā)展,目標(biāo)識(shí)別的準(zhǔn)確率也在不斷提高。在不到十年的時(shí)間里,今天的系統(tǒng)已經(jīng)達(dá)到99%的準(zhǔn)確率,比人類(lèi)對(duì)視覺(jué)輸入的快速反應(yīng)準(zhǔn)確率提高了50%。
計(jì)算機(jī)視覺(jué)如何工作?
實(shí)現(xiàn)人工智能所有能力的關(guān)鍵組成部分之一是賦予機(jī)器視覺(jué)能力。為了模擬人類(lèi)視覺(jué),機(jī)器需要獲取、處理、分析和理解圖像。實(shí)現(xiàn)這一里程碑的巨大增長(zhǎng)得益于神經(jīng)網(wǎng)絡(luò)的迭代學(xué)習(xí)過(guò)程。它從一個(gè)有助于機(jī)器學(xué)習(xí)特定主題的精選數(shù)據(jù)集開(kāi)始。如果目標(biāo)是像2012年谷歌那樣識(shí)別貓的視頻,神經(jīng)網(wǎng)絡(luò)使用的數(shù)據(jù)集需要有貓的圖像和視頻,以及沒(méi)有貓的例子。每個(gè)圖像都需要用元數(shù)據(jù)標(biāo)記,以指示正確的答案。當(dāng)一個(gè)神經(jīng)網(wǎng)絡(luò)在數(shù)據(jù)和信號(hào)中運(yùn)行時(shí),它會(huì)發(fā)現(xiàn)一個(gè)帶有貓的圖像;這是關(guān)于它是否正確的反饋,這有助于它的改進(jìn)。神經(jīng)網(wǎng)絡(luò)正在使用模式識(shí)別來(lái)區(qū)分圖像的許多不同部分。而不是由程序員來(lái)定義貓的特征屬性,例如擁有尾巴和胡須,而是從上傳的數(shù)以百萬(wàn)計(jì)的圖像中進(jìn)行學(xué)習(xí)。
計(jì)算機(jī)視覺(jué)應(yīng)用的七個(gè)典型案例
想象一下人類(lèi)視覺(jué)所允許的一切,你就可以開(kāi)始實(shí)現(xiàn)幾乎無(wú)窮無(wú)盡的計(jì)算機(jī)視覺(jué)應(yīng)用。以下是當(dāng)今生產(chǎn)生活中典型的七個(gè)應(yīng)用案例:
自主車(chē)輛
自動(dòng)駕駛汽車(chē)需要計(jì)算機(jī)視覺(jué)。特斯拉(Tesla)、寶馬(BMW)、沃爾沃(Volvo)和奧迪(Audi)等汽車(chē)制造商使用多個(gè)攝像頭、激光雷達(dá)、雷達(dá)和超聲波傳感器從環(huán)境中獲取圖像,這樣他們的自動(dòng)駕駛汽車(chē)就能探測(cè)目標(biāo)、車(chē)道標(biāo)記、標(biāo)志和交通信號(hào),從而安全駕駛。
谷歌翻譯軟件
你所需要做的就是把手機(jī)攝像頭對(duì)準(zhǔn)這些單詞,讓谷歌翻譯應(yīng)用程序幾乎立刻告訴你它在你喜歡的語(yǔ)言中的意思。通過(guò)光學(xué)字符識(shí)別來(lái)查看圖像和增強(qiáng)現(xiàn)實(shí)來(lái)疊加一個(gè)精確的翻譯,這是一個(gè)使用計(jì)算機(jī)視覺(jué)的方便工具。
面部識(shí)別
中國(guó)在使用人臉識(shí)別技術(shù)方面無(wú)疑處于領(lǐng)先地位,他們將其用于警察工作、支付識(shí)別、機(jī)場(chǎng)安檢,甚至在北京天壇公園分發(fā)廁紙、防止廁紙被盜,以及其他許多應(yīng)用。
醫(yī)療保健
由于90%的醫(yī)療數(shù)據(jù)都是基于圖像的,因此醫(yī)學(xué)中的計(jì)算機(jī)視覺(jué)有很多用途。從啟用新的醫(yī)療診斷方法到分析X射線(xiàn),乳房X光檢查和其他掃描,以及監(jiān)測(cè)患者以更早發(fā)現(xiàn)問(wèn)題并協(xié)助手術(shù),期望我們的醫(yī)療機(jī)構(gòu),專(zhuān)業(yè)人員和患者將從今天的計(jì)算機(jī)視覺(jué)中受益,并且將來(lái)更多它在醫(yī)療保健領(lǐng)域推出。
實(shí)時(shí)運(yùn)動(dòng)跟蹤
足球和冰球在電視體育節(jié)目中的跟蹤已經(jīng)很常見(jiàn)了一段時(shí)間,但計(jì)算機(jī)視覺(jué)還有助于比賽和策略分析、球員表現(xiàn)和評(píng)級(jí),以及跟蹤體育節(jié)目中品牌贊助的可見(jiàn)性。
農(nóng)業(yè)
約翰迪爾(John Deere)在2019年國(guó)際消費(fèi)電子展(CES 2019)上展示了一種半自動(dòng)聯(lián)合收割機(jī),它利用人工智能和計(jì)算機(jī)視覺(jué)來(lái)分析收獲時(shí)的糧食品質(zhì),并找出穿過(guò)作物的最佳路徑。計(jì)算機(jī)視覺(jué)識(shí)別雜草的潛力也很大,這樣除草劑就可以直接噴灑在雜草上,而不是作物上。這有望將所需除草劑的數(shù)量減少90%。
制造業(yè)
計(jì)算機(jī)視覺(jué)正以各種方式幫助制造商更安全、更智能、更有效地運(yùn)行。預(yù)測(cè)性維護(hù)只是一個(gè)例子,在設(shè)備故障導(dǎo)致昂貴的停機(jī)之前,用計(jì)算機(jī)視覺(jué)對(duì)設(shè)備進(jìn)行監(jiān)控,以便進(jìn)行干預(yù)。對(duì)包裝和產(chǎn)品質(zhì)量進(jìn)行監(jiān)控,并通過(guò)計(jì)算機(jī)視覺(jué)減少不合格品。
計(jì)算機(jī)視覺(jué)在現(xiàn)實(shí)世界中已經(jīng)有了大量的應(yīng)用,而且這項(xiàng)技術(shù)還很年輕。隨著人類(lèi)和機(jī)器繼續(xù)合作,人類(lèi)的勞動(dòng)力將被解放出來(lái),專(zhuān)注于更高價(jià)值的任務(wù),機(jī)器的自動(dòng)處理依賴(lài)于圖像識(shí)別的過(guò)程。
http://www.lingxixueyun.com整理發(fā)布