磨削技術(shù)
創(chuàng)造AI的原數(shù)據(jù)的安全 |
發(fā)布時(shí)間:2023/9/16 |
生成式人工智能的繁榮正在助長(zhǎng)一場(chǎng)“數(shù)據(jù)的影子戰(zhàn)爭(zhēng)”。 隨著內(nèi)容創(chuàng)建者意識(shí)到他們的數(shù)據(jù)被用來與他們競(jìng)爭(zhēng),強(qiáng)烈的反對(duì)正在醞釀之中。 生成式人工智能熱潮始于2022年底ChatGPT的驚人成功?,F(xiàn)在,似乎每家公司都在嘗試使用該技術(shù)。 該技術(shù)背后的人工智能模型是使用來自數(shù)百萬個(gè)不同來源的高質(zhì)量數(shù)據(jù)集構(gòu)建的。用行業(yè)術(shù)語來說,這些是模型“訓(xùn)練”的原材料。 Github前首席執(zhí)行官納特·弗里德曼 (Nat Friedman) 在最近接受科技分析師本·湯普森 (Ben Thompson) 采訪時(shí)表示:“這是正在發(fā)生的事情表面之下的秘密故事?!?br /> Nvidia GPU是AI模型訓(xùn)練所需的主要硬件。 “但另一個(gè)關(guān)鍵輸入是數(shù)據(jù),”弗里德曼說?!耙虼?,目前在表面之下正在發(fā)生一場(chǎng)關(guān)于數(shù)據(jù)的影子戰(zhàn)爭(zhēng),最大的人工智能實(shí)驗(yàn)室正在花費(fèi)巨額資金來獲取更有價(jià)值的代幣,要么花錢請(qǐng)專家生成代幣,要么通過標(biāo)簽公司工作”。 許多訓(xùn)練數(shù)據(jù)都是從互聯(lián)網(wǎng)上抓取并未經(jīng)許可使用的。 渴望更多培訓(xùn)數(shù)據(jù)的科技公司也授予自己新的權(quán)限,以使用更多的信息。 從互聯(lián)網(wǎng)上抓取的信息的使用引發(fā)了關(guān)于這個(gè)新人工智能世界中版權(quán)和許可的未來的爭(zhēng)論。 基于免費(fèi)信息共享的在線社區(qū)也正在被顛覆。當(dāng)這些數(shù)據(jù)可能會(huì)被納入人工智能模型并最終與你競(jìng)爭(zhēng)時(shí),為什么還要繼續(xù)在線共享呢? 來自熱門編碼問答網(wǎng)站Stack Overflow的數(shù)據(jù)已用于AI模型訓(xùn)練。最近幾個(gè)月,隨著人工智能模型直接提供編碼答案,無需訪問網(wǎng)站并提出問題,流量出現(xiàn)下降。 公司、內(nèi)容創(chuàng)作者和其他網(wǎng)絡(luò)企業(yè)逐漸意識(shí)到他們的作品正在被秘密利用來對(duì)付他們。 這破壞了網(wǎng)絡(luò)的大交易,并引發(fā)了強(qiáng)烈反對(duì)。 Salesforce首席執(zhí)行官兼《時(shí)代》雜志所有者馬克·貝尼奧夫(Marc Benioff)表示:“媒體公司開始覺醒,意識(shí)到他們的很多信息都被盜了——可能你的一些信息也被盜了。” “作為媒體所有者,這是一個(gè)主要問題,因?yàn)槲掖_實(shí)會(huì)去看模特,我會(huì)在那里找到《時(shí)代》雜志的材料,然后說,‘等一下,那是我的內(nèi)容,’”他補(bǔ)充道。 越來越多的網(wǎng)站正在屏蔽網(wǎng)絡(luò)爬蟲,這些爬蟲是用于在網(wǎng)絡(luò)上搜尋數(shù)據(jù)以進(jìn)行人工智能模型訓(xùn)練的技術(shù)工具。據(jù)Insider8月份報(bào)道,來自ChatGPT創(chuàng)建者OpenAI的GPTbot在短短兩周內(nèi)就被100個(gè)最受歡迎網(wǎng)站中超過15% 的網(wǎng)站屏蔽,其中包括亞馬遜和Quora。 Reddit要求為其數(shù)據(jù)付費(fèi),這些數(shù)據(jù)是人工智能模型訓(xùn)練的常見來源。 領(lǐng)先的法律信息提供商LexisNexis不得不警告客戶不要上傳或與人工智能模型和相關(guān)機(jī)器人共享其數(shù)據(jù)。 Sarah Silverman 起訴OpenAI和Meta,聲稱他們?cè)跊]有補(bǔ)償或未經(jīng)許可的情況下使用她的書來訓(xùn)練他們的人工智能模型。 包括瑪格麗特·阿特伍德(Margaret Atwood)和詹姆斯·帕特森(James Patterson)在內(nèi)的8000多名作者簽署了一封公開信,要求人工智能公司賠償,因?yàn)樗麄兾唇?jīng)許可使用他們的作品來訓(xùn)練人工智能。 人工智能公司正在做出回應(yīng),主要是試圖降低法律風(fēng)險(xiǎn)。 Meta 和其他科技公司已停止披露他們用于訓(xùn)練人工智能模型的訓(xùn)練數(shù)據(jù)。這部分是出于競(jìng)爭(zhēng)原因,但觀察人士表示,這也是為了避免法律風(fēng)險(xiǎn)。 根據(jù)8月份發(fā)布的研究顯示,OpenAI 的ChatGPT試圖隱瞞自己接受過受版權(quán)保護(hù)的材料(例如 JK 羅琳的哈利波特系列叢書)的訓(xùn)練。 其他研究人員開發(fā)了一種人工智能模型,可以刪除數(shù)據(jù)以降低法律風(fēng)險(xiǎn)。在此過程中,他們還創(chuàng)建了一種方法來衡量特定數(shù)據(jù)對(duì)人工智能模型輸出的貢獻(xiàn)。 |
產(chǎn)品展示
聯(lián)系我們
公司地址:南通市通州區(qū)通揚(yáng)南路588號(hào)
聯(lián)系電話:0513-87119922
聯(lián)系人:李先生
手機(jī):15606292777
郵箱:sales@nt2mt.com
網(wǎng)址:http://nn100.cn
聯(lián)系電話:0513-87119922
聯(lián)系人:李先生
手機(jī):15606292777
郵箱:sales@nt2mt.com
網(wǎng)址:http://nn100.cn