CVPR 展出五款極為先進的人工智慧 app

作者 Kristin Bryson

從飛行攝影機到能協助視障者視物的行動裝置 app:參與 Inception 計畫之新創公司在近期一場人工智慧盛會裡,展現有著 NVIDIA 支援的多項技術。

個人飛行攝影機、能讀取情緒的電腦、強大到能逮住罪犯的臉孔辨識軟體、客製化地圖聰明到幫你找出你真正想要的東西,還有能協助視障者視物的 app。

以上這些應用項目並非科幻故事裡的情節,它們都是實際存在的東西,而這些只是參與 NVIDIA Inception 計畫之新創公司,本月參加於夏威夷檀香山舉行之電腦視覺與圖形辨識(CVPR)大會時,所展出的五項技術罷了。

在不到一年的時間裡,已有超過1,300間致力於開發人工智慧應用項目的新創公司,加入 NVIDIA 的 Inception 計畫,其中有30間參加 CVPR 大會,二十餘間有著自己的展位。以下介紹其中五間參加本次大會的新創公司:

Skydio 與「出色的飛行能力」

「操控」無人機的人,明白其中需要極為繁複的技巧;要是操控無人機的目標是要對動作中的人進行錄影,那麼操控技巧更是難上加難。

Skydio 企圖解決這個問題,正在發展一款自動飛行的無人機,會從行動裝置上的 app 取得飛行方向資訊,並且飛在主體後方,以最佳角度進行錄影。Skydio 共同創辦人暨技術長 Abraham Bachrach 說如此一來戶外活動愛好者就能在自行拍攝的影片裡加入「出色的飛行能力」。

「無人機可藉由我們提出的這項技術,瞭解四周環境的情況;而在無人機真正瞭解且掌握四周環境裡,你就會沉迷在飛行這件事上。」Bachrach 表示。

三年前在矽谷成立的 Skydio 在 Andreessen Horowitz 的領軍下,現有50名員工、獲得2800萬美元的創投資金。目前仍在發展產品和上市策略的 Skydio,打算先專注於消費性市場,但 Bachrach 表示 Skydio 最終仍會將旗下的無人機產品銷售給專門業者,以深入基礎建設,檢查那些難以進入之處。

WRNCH:就是一只濕鼻子讓電腦擁有狗兒的特質

Inception 計畫合作夥伴 WRNCH 的執行長 Paul Kruszewski 有著一個簡單的目標:他想要電腦表現出更像狗的行為。

他所持的理由是?人類的溝通活動裡存在著大量非口語的提示,Kruszewski 以狗兒為師,理由在於狗兒十分擅於看出人類的肢體語言。

「說到底,要是我們能在機器裝上這些眼睛,就能讓它們明白我們的意圖,這個世界會變得更有趣。」他說。

來自蒙特婁的 Kruszewski 及其團隊使用 NVIDIA 的 GPU、CUDA 及 cuDNN 等多項技術,已開發出 Body Slam 這款產品,它會追蹤人體上23處重要特徵和關節點,從 2D 平面影片裡取得 3D 立體影像。Kruszewski 認為 Body Slam 能在多種場合裡派上用場,像是當年長者的智慧助理,到車內監控和娛樂應用。

「人們在哪裡使用 GPU,那裡就是我們的商機。」他說。

商湯科技:運用電腦視覺抓壞人

商湯科技(Sensetime)的臉部辨識軟體當然有著無窮的使用潛力,而它用在執法方面的優秀表現,可能會讓許多充滿雄心壯志的執法者臉上無光。

在過去的六個月裡,它協助中國執法單位使用公共監視攝影機拍攝的影片,比對罪犯資料庫裡的臉孔,順利逮捕40名罪犯,而這還只是安裝在兩個轄區裡的成效。

成立僅兩年的商湯科技,銷售其軟體給警方和公共運輸業者,如今有40個轄區安裝了該公司的產品。商湯的研發總監暨首席科學家閆俊傑表示他期望這個數字還能繼續增加。

商湯科技銷售整套演算法、硬體和軟體;使用 GPU 來訓練和推斷其深度學習模型。閆俊傑表示 Inception 團隊協助商湯科技更有效率將 GPU 用在研發工作上,還跳下來協助除錯。

今年是閆俊傑第六度出席 CVPR,估算這些年間已經投了15篇研究報告給大會。

AIPoly:人工智慧人道的那一面

位於舊金山的新創公司 AIPoly,想要協助視障者藉由手中智慧型手機的攝影鏡頭來「視物」。

AIPoly 迄今已完成20億個影像的分類工作,而從這項深度學習的工作所汲取到的知識用在一款行動裝置 app 上,讓視障者能將他們手中的智慧型手機指向物體,並回報他們「看見」的東西為何。無論是用來辨識三明治,或者將公車前方的路線編號比對能帶領使用者回家的路線,這款 app 都能當成視障者的雙眼。

共同創辦人 Alberto Rizzoli 表示全球九成的視障者手頭並不寬裕,多數人養不起導盲犬。購買和訓練導盲犬的費用超過六萬美元。

「人工智慧可用於改善這個情況。」Rizzoli 說。

Mapillary:群眾外包製作出更精準的本地地圖

地圖很好用,不過地圖裡有著你最想找出的資訊,那就更好了。

來自瑞典的新創公司 Mapillary 從各種來源收集影像資料,以建立在精細度和特異性方面前所未見的地圖資料集。

如果某非營利組織想建立身障者設施地圖,或是自行車社團想建立騎士專用地圖,便能完成他們的心願,甚至有可能在建立地圖時貢獻己力。

「我們也為貢獻良多的人,解決了困擾著他們的問題。」Mapillary 執行長暨共同創辦人 Jan Erik Solem 說。

創立於2013年的 Mapillary 現有32名員工,每天收到來自世界各地上傳的數十萬張照片,且從其中辨識出超過百億個物體。該公司靠著 GPU 加持的 Amazon P2 執行個體進行處理,使用辦公室內的 Titan XP 叢集進行訓練和實驗,以 API 的型態來建立資料集。

接著 Mapillary 將那些 API 以獨立版資料集或訂閱所有資料的方式,出售給地圖公司、車廠和政府等客戶。個人可免費取得資料。