人工智慧的呼喚:怎麼在資料科學領域謀得一份工作

作者 Crowd Favorite

資料科學家回顧他們就任當今頂尖職業的心路歷程。

Paul Mahler 還記得他在2013年5月決定要轉換跑道的那一天。

那時這位前經濟學家在華盛頓特區的一處公車站等車,用智慧型手機閱讀著《紐約時報》。在某則報導上介紹一位統計學教授開發出一款讓電腦審查劇本的應用程式,這件事讓他看的興味盎然,而這件事也讓這名統計學教授在好萊塢找到一份收入豐厚的新工作。

「這貌似是一個巨大的突破,我決定自己也要進入資料科學領域。」Mahler 說。他現在已經成為矽谷的一名資深資料科學家,協助 NVIDIA 的客戶利用人工智慧在各自的領域中不斷進步。

Eyal Toledano 跟 Mahler 一樣,也在自己出社會工作十年後做出重大的轉折。他說:「這事關生死存亡的危機…我覺得要是自己有什麼能力,就該試著去做一些會讓自己覺得偉大又自豪的事,就算失敗,我也會珍惜當下的每一分鐘。」

「我大學時的一個老朋友說他某次去個荒郊野外潛水時出事了,就醫時沒有人能看懂他的 X 光片。他說我們該(使用人工智慧)建立一個影像資料庫,以便在人們需要這種協助時進行診斷。這是我第一次投身去執行別人的想法。」Toledano 回憶說。

兩人在2014年共同成立了 Zebra Medical Vision,將人工智慧用於醫學成像領域。對 Toledano 來說,進入新興的深度學習領域只有一種方法。

他說:「捲起袖子、把土鏟走、一起努力,這麼做對我有莫大的益處,在資料科學領域裡動手實作才是王道。」

沙箱裡有充足的空間

資料科學這個領域仍然有著極大的發展空間。根據知名求職網站 Glassdoor 所公布的 2019 年排行榜,資料科學家高居美國最佳工作職缺的榜首。該網站將每個月 6700 萬訪客與 1200 萬個招聘資訊串連起來。調查顯示,入門級資料科學家的底薪中位數為10.8萬美元,工作滿意度為 4.3(滿分 5 分),網站上有 6510 個相關職缺。

資料工程師這個職位的表現也不差,底薪中位數為十萬美元,工作滿意度為 4.2(滿分 5 分),網站上有 4524 個相關職缺。

獵人頭公司 Burtch Works 的招募部門在2018年進行的一項研究,讓我們可以更深入瞭解這個領域。該公司估算按照個人技能水準,資料科學領域的起薪從9.5萬美元到16.8萬美元不等。資料科學家有著各種不同的學術背景,包括數學/統計學(25%)、電腦科學和物理科學(各為 20%)、工程學(18%)及一般商業(8%)。近半數擁有博士學位,四成擁有碩士學位。

「資料是新的石油,資料科學就是最重要的工作之一。市場對資料科學的需求極為龐大,這個領域根本沒有失業的問題。」新創公司 FASTDATA.io 的共同創辦人暨執行長 Alen Capalik 表示。FASTDATA.io 在 NVIDIA 的援助下開發 GPU 軟體。

Capalik 跟 Mahler 及 Toledano 一樣,很快就一頭栽入。他說:「我透過大量閱讀來理解何謂資料、資料管道,還有客戶怎麼使用他們的資料,不同的垂直領域運用資料的方法也不一樣。」

基本要領

資料科學家身懷百般才藝,有些是知道怎麼寫程式碼的統計學家;有些精通 Python,明白資料分析與機器學習之間的細微差別。其他人則是在這個領域裡各有所長,想在運算領域中做出一番大事業。

他們全都面臨著相同的任務流程,必須:

  • 找出適合大數據的業務問題
  • 建立與維護工具鏈
  • 收集大量、具相關性的資料集
  • 建構資料集以解決業務問題
  • 選擇一個合適的人工智慧模型系列
  • 優化模型超參數
  • 後處理機器學習模型
  • 以批判的態度分析結果

Mahler 表示:「從設定伺服器到向董事會報告,獨角獸新創公司的資料科學家們什麼都做。」

但其實資料科學領域正在迅速劃分為不同的子任務。資料工程師在流程的前端工作,通過所謂的提取、轉換及載入流程來處理資料集。

大型企業可能會聘請資料館員、隱私專家和人工智慧管道工程師,以確保系統能夠在時間急迫的情況下快速提出建議內容。

Mahler 說:「從職位名稱的增加,就能看出這個領域日趨成熟。」

玩遊戲,學習工作

Mahler 說參加 Kaggle 賽事,實際運用人工智慧來解題,是進入資料科學領域速度最快、最受歡迎的方式之一。線上賽事的型態通過論壇提供實際問題和程式碼範例。他說:「我們 NVIDIA RAPIDS 產品團隊的成員也都一直參加 Kaggle 賽事。」

奪冠也能帶來工作。NVIDIA 為醫療領域設計人工智慧軟體的合作夥伴 Owkin 在該公司網站上宣稱:「我們的資料科學家是全球最優秀的,有多位奪下 Kaggle Master 頭銜。」

如今至少建議進行部分正式的研究。fast.ai 的線上課程旨於讓有經驗的程式設計人員快速涉足深度學習領域。fast.ai 的共同創辦人 Rachel Thomas 手邊留有一份她的演講清單,鼓勵所有人(尤其是女性)投身資料科學領域。

我們也整理了自己的資料科學線上課程清單,這些課程由麻省理工學院、Google 及 NVIDIA 的深度學習學院等單位提供。以下也是一些不錯的課程資源:

Mahler 表示:「對線性代數、概率和統計建模的深刻理解,是建立與解釋人工智慧模型的關鍵。許多企業雇主要求求職者擁有資料或電腦科學學位,且對 Python 有深刻的瞭解。」

FASTDATA.io 的 Capalik 反駁道:「我才不看求職者的學歷。有實際經驗更好,上班第一你就會發現別人做著你在學校從來都沒看過的東西。」

Mahler 與 Capalik 都覺得最優秀的資料科學家要具備很強的創造力。企業雇主們還覬覦那些富有想像力、善於解決問題的資料科學家。

依工作選人

Capalik 說某新創公司對求職者進行了技術技能測試,這項測試只是篩選過程的一部分。

他說:「我喜歡看著求職者和問他們問題。你想知道他們是否能解決問題、是否能與團隊合作,原因在於資料科學需要團隊合作,就算是 Michael Jordan 也要有實力強大的隊友才能獲勝。」

求職者為了通過測試並獲得與 Capalik 進行面試的機會,「他們要知道資料管道是什麼型態、怎麼收集資料、把資料存在哪裡,還有如何用演算法解決細微差別和效率低下的問題。」他說。

Zebra 的 Toledano 對那些隨便給出答案的求職者抱持著懷疑的態度。

「這是一門實驗科學。結果會逐漸接近你進行很多實驗的能力,你得快速想出各種片段及想法,並且在訓練實驗中反覆測試。」他說。

「想要一次就解決所有問題的人或許很聰明,他們卻又可能會錯過一些東西。別只是打造一把弓和一支箭,而是要製造出一個能夠射出無數箭支的彈射器,每支箭都是你可以快速評估的潛在解決方案。」他說。

人工智慧新創公司 BabbleLabs 的執行長,也是經驗豐富之企業家的 Chris Rowen,對於能夠清楚解釋自己工作的求職者有著深刻的印象。他建議:「要明白模型可以用來解決哪些問題及背後的原因。」

開發者之路

與答案只有對錯的純數位 IT 領域不同,資料科學領域的難題在於通常沒有一定的答案,最適合懷抱著好奇心、想要探索選項和取捨的人。

的確,IT 與資料科學根本就是兩回事。

IT 部門使用精心設計的流程來簽入和簽出程式碼,以及驗證其是否遵守各項規定。他們一次寫出來的應用程式可能會使用多年。另一方面,資料科學團隊會不斷使用基於概率曲線的模型進行實驗,並且經常修改模型和資料集。

「軟體工程更像是一條直線,而資料科學則是一個迴圈。」市場資深觀察家,也是 Wikibon 首席人工智慧分析師 James Kobielus 表示。

儘管如此,Kobielus 說:「資料科學確實是下一代開發者的核心。」許多主題專家紛紛走進資料科學領域和學習如何編寫程式碼,但他說:「有更多人原本的工作就是開發一般應用程式」,有部分原因在於現在投入資料科學領域可以賺到不少錢。

雲端、機器人與軟技能

無論走上哪條路,資料科學家都需要熟悉雲端環境。現在有很多人工智慧項目都是在遠端伺服器上,使用容器及現代編排技術而誕生出的。

你也該熟悉最新的行動與邊緣硬體及其限制。

「機器人領域裡有很多研究工作正在進行,研究人員使用試錯演算法來加強學習。這已經超出了傳統資料科學領域的範疇,所以人才短缺的問題更加嚴重,而攝影機領域的電腦視覺是目前最火熱的項目。」Kobielus 說。

外交官的談判技巧也派上了用場。資料科學家通常是推動變革、打破工作及流程的人,使得結盟變成一件很重要的事。

哲學上的轉變

這聽起來很麻煩,但別被嚇倒了。

「我不知道自己做出了這麼巨大的轉變。」BabbleLabs 的Rowen 說,他的第一間新創公司便是利用了資料科學。

「命名規則變了。把問題的規範藏在資料裡,這種想法是一種哲學上的轉變,但從根本上來說,我在做的事情與我在職業生涯裡做的事情,其實大同小異。」他說。

Rowen 從前探索「問題在計算方面的特徵,並且找出可以讓它進行計算的處理器。現在我們顛倒過來,反而是注意計算的核心是什麼、要用什麼資料來進行計算,這樣的見解讓我走進了深度學習。」他說。

fast.ai 的共同創辦人 Thomas 在其於2018年5月進行的一場演講中,內容也同樣鼓舞人心。她說透過遷移學習,只要訓練神經網路的最後上面幾層,人工智慧就能做到出色的結果,也不是都一直要用到大數據。像是只要用到三十張圖片,就能訓練一套神經網路系統分辨棒球跟板球的圖片。

她補充說:「我們需要有更多人踏入人工智慧領域,門檻比你想像的還要低。」