每日經濟新聞 2023-02-12 16:03:55
◎據(jù)外媒報道,為了訓練ChatGPT,OpenAI曾雇傭了時薪不到2美元的肯尼亞外包員工,他們所負責的工作就是對龐大的數(shù)據(jù)庫手動進行數(shù)據(jù)標注。
每經記者 蔡鼎 每經編輯 高涵
于2022年11月發(fā)布,ChatGPT被譽為當年最具創(chuàng)新性的人工智能工具之一。這項強大的AI聊天機器人幾乎可以生成任何問題的文本,從莎士比亞的十四行詩,到用5歲孩子都能理解語言描述的復雜數(shù)學問題,可謂“無所不能”。
瑞銀此前發(fā)布的一份研究報告顯示,ChatGPT的月活躍用戶在今年1月份預計達到了1億,這距離其推出只有2個月時間,成為史上增長最快的消費者應用。
然而,在ChatGPT掀起的這場人工智能“革命”和資本市場狂歡的背后,有一個被邊緣化的、被遺忘的卻又至關重要的群體,值得所有人關注,他們就是數(shù)據(jù)標注員。
據(jù)美國《時代周刊》上月中旬的報道,為了訓練ChatGPT,OpenAI雇傭了時薪不到2美元的肯尼亞外包勞工,他們所負責的工作就是對龐大的數(shù)據(jù)庫手動進行數(shù)據(jù)標注。
從當下看來,OpenAI已經成為“生成式人工智能”行業(yè)無可爭議的領頭羊。
最樂觀的投資者認為,計算機生成的文本、圖像、視頻和音頻將改變無數(shù)行業(yè)的經營方式,從創(chuàng)意藝術到法律,再到計算機編程,該技術都將提高人類的工作效率。
然而,數(shù)據(jù)標簽員工的工作條件揭示了行業(yè)背后“黑暗”的部分:盡管人工智能魅力無限,但它往往依賴于全球最廉價的勞動力,他們往往被大幅剝削。盡管他們?yōu)閿?shù)十億美元的產業(yè)作出了杰出貢獻,但這些幾乎“隱形”的工人仍然處于最邊緣的地帶。
《時代周刊》查閱的文件顯示,OpenAI在2021年底與Sama簽署了三份總價值約20萬美元的合同,為數(shù)據(jù)庫中有害的內容進行標記。
Sama是一家總部位于美國舊金山的公司,該公司雇傭了肯尼亞、烏干達和印度的外包員工。
大約30多名工作人員被分成三個小組,每個小組都專注于一個主題。三名員工對《時代周刊》表示,他們每9個小時要閱讀和標注150~200段文字。這些段落的范圍從100個單詞到1000多個單詞不等。
接受《時代周刊》采訪的四名員工都表示,這份工作給他們留下了持久的心理創(chuàng)傷。盡管他們有權參加健康咨詢師課程,但四人都表示,由于對工作效率的要求很高,他們只能選擇參加小組會議。其中還有一人表示,他們要求以一對一的方式與心理咨詢師會面的請求被Sama管理層多次拒絕。
Sama官網(wǎng)截圖
合同規(guī)定,OpenAI將為該項目向Sama支付每小時12.50美元的報酬,這是該項目員工時薪的6~9倍。
《時代周刊》稱,其查閱了數(shù)百頁Sama和OpenAI的內部文件(包括工人工資單),并采訪了Sama四名參與該項目的員工,驚人的內幕顯示,Sama為OpenAI雇傭的數(shù)據(jù)標簽員工支付的時薪在1.32美元~2美元之間(約8.99元~13.62元),具體取決于資歷和表現(xiàn)。
據(jù)Sama員工透露,“代理商”是三個小組中最初級的數(shù)據(jù)標簽人員,他們的基本工資為每月2.1萬肯尼亞先令(約170美元或者約1158元)。此外,他們每月還能獲得約70美元的獎金,如果達到準確性和速度等關鍵績效指標,他們還可以獲得傭金。
按此計算,一名每天工作9小時的員工預計稅后時薪至少能拿1.32美元,如果超額完成所有目標,則最高可達到1.44美元。質量分析師是資歷更深的數(shù)據(jù)標簽員工,他們的工作是檢查“代理商”的工作,如果他們達到了所有績效目標,時薪可以拿到2美元。
公開資料顯示,肯尼亞并沒有統(tǒng)一的最低工資標準,但當這些外包員工受雇時,肯尼亞首都內羅畢的最低時薪是1.52美元。
據(jù)《時代周刊》報道,Sama的一名發(fā)言人在一份聲明中稱,公司對工人的要求是在9小時的工作中標注70段文字,而非200段。此外,工人們的稅后時薪是1.46美元~3.74美元,不過這位發(fā)言人拒絕透露哪類崗位會達到其所述時薪區(qū)間的上限。
OpenAI的一位發(fā)言人則在另一份聲明中稱,該公司沒有發(fā)布任何的業(yè)績目標,且外包員工的工資和心理健康由Sama的管理層負責。
2022年2月,Sama開始為OpenAI的另一個項目進行試點工作,但工作內容根據(jù)美國的法律是非法的。盡管這項試點工作似乎與ChatGPT無關,但僅僅在幾周之內,Sama便叫停了與OpenAI的所有項目,比合同中約定的時間提前了8個月。
Sama當時在一份聲明中稱,其為OpenAI收集的圖像協(xié)議中不包括任何涉及非法的內容,直到相關工作開始后,OpenAI才發(fā)來“附加指示”,提到了“一些非法的類別”,隨后肯尼亞團隊的高管立即提出了擔憂并結束了該項目。
訓練ChatGPT對OpenAI來說至關重要。
ChatGPT的前身GPT-3已經展示了非常強大的語句串聯(lián)的能力。然而,當時的GPT-3卻存在很多弊端,例如內容容易出現(xiàn)暴力、性別歧視等言論。之所以會出現(xiàn)這樣的不足之處,是因為AI工具從互聯(lián)網(wǎng)抓取了數(shù)千億個單詞來訓練,這也是一把雙刃劍——由于互聯(lián)網(wǎng)的詞匯有不少帶有偏見及負面的詞匯,因此單純憑借學習能力無法來清除這些訓練數(shù)據(jù)。
《時代周刊》的報道顯示,即使是一個由數(shù)百人組成的團體,也需要幾十年的時間才能手動搜索龐大的數(shù)據(jù)庫。OpenAI只能通過建立一個額外的、AI驅動的安全機制,才能控制上述弊端,創(chuàng)造出適合人們日常使用的聊天機器人。
《時代周刊》報道截圖
據(jù)報道,為了建立這個安全系統(tǒng),OpenAI借鑒了Facebook(現(xiàn)Meta)等社交媒體公司的做法。此前,F(xiàn)acebook已經證明其可以構建能夠檢測仇恨言論等的AI工具,并將這些內容從其平臺上移除。這項工作也很簡單:給AI提供標有暴力、仇恨語言等標簽,AI工具就可以學會檢測這些內容。目前類似的工具已經內置到ChatGPT當中,以檢測它是否與訓練數(shù)據(jù)的內容相呼應,并在它觸及到用戶之前將不良內容過濾掉。
《時代周刊》報道稱,為了獲得這些有害內容的標簽,OpenAI從2021年11月開始便向一家外包公司發(fā)送了數(shù)萬條文本片段。其中大部分文字似乎都是從互聯(lián)網(wǎng)“最黑暗的角落”挖掘出來的。
據(jù)報道,OpenAI發(fā)言人曾在一份聲明中證實,Sama在肯尼亞的員工為該公司正在開發(fā)的監(jiān)測有害內容的工具作出了貢獻,該工具最終被內置到ChatGPT中。
除了OpenAI,Sama還為谷歌、Mate和微軟等硅谷科技巨頭標注數(shù)據(jù)。此外,Sama還標榜其是一家“有道德的人工智能公司”,并稱其已經幫助5萬多人脫貧。
人工智能組織聯(lián)盟Partnership on AI表示,“盡管這些豐富數(shù)據(jù)的專業(yè)人士發(fā)揮了基礎作用,但越來越多的研究表明,這些工人都面臨著不穩(wěn)定的工作條件。這可能是慶祝技術效率提升的同時,試圖掩蓋人工智能對龐大勞動力依賴的結果。”
封面圖片來源:視覺中國
如需轉載請與《每日經濟新聞》報社聯(lián)系。
未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關注每日經濟新聞APP