AI圈公開的秘密:天下模型一大抄
作者:卜淑情來(lái)源:硬AI抄襲已經(jīng)成為AI世界公開的秘密。據(jù)The Information周一的文章,許多初創(chuàng)公司的AI聊天機(jī)器人很可能是采用了OpenAI和其他公司的數(shù)據(jù)開發(fā)的。這些機(jī)器人在某些任務(wù)上可以媲美GPT-4,但收費(fèi)只是后者的一小部分。初創(chuàng)公司在開發(fā)過(guò)程中沒(méi)有披露使用OpenAI的技術(shù)。不過(guò),The Information報(bào)道稱,OpenAI首席執(zhí)行官Sam Altman去年夏天告訴初創(chuàng)公司創(chuàng)始人,可以接受初創(chuàng)公司以這種方式使用OpenAI的技術(shù)。雖然Altman的回應(yīng)讓一些初創(chuàng)公司松了一口氣,但這種做法實(shí)質(zhì)上損害了OpenAI的增長(zhǎng),Altman隨時(shí)可能改變主意。在初創(chuàng)公司中,抄襲已成常態(tài)初創(chuàng)公司抄襲OpenAI的具體做法是,先開通GPT-4的會(huì)員,然后向它提出一系列問(wèn)題,例如“這行代碼有什么問(wèn)題?”他們使用這些問(wèn)題和答案來(lái)訓(xùn)練自己的競(jìng)品模型。采取這一策略的初創(chuàng)公司不在少數(shù)。Unsloth AI聯(lián)合創(chuàng)始人Daniel Han估計(jì),他大約一半的客戶從GPT-4或Anthropic的Claude模型中獲取數(shù)據(jù),并用它來(lái)改進(jìn)自己的模型。許多公司也從ShareGPT獲得此類數(shù)據(jù),ShareGPT是一個(gè)開發(fā)人員分享使用OpenAI模型生成答案的網(wǎng)站。小型開發(fā)商的模型通常基于Meta Platforms或Mistral AI免費(fèi)提供的流行開源模型,但通過(guò)融合OpenAI模型的答案,可以顯著提高這些模型輸出內(nèi)容的質(zhì)量。Han表示,一些開發(fā)人員正在使用一項(xiàng)名為OpenPipe的服務(wù)來(lái)自動(dòng)化這一過(guò)程?!霸谝粋€(gè)尚未建立明確規(guī)則的新生態(tài)系統(tǒng)中,就會(huì)發(fā)生這種情況,”Menlo Ventures董事總經(jīng)理Matt Murphy表示,該公司投資了OpenAI的競(jìng)爭(zhēng)對(duì)手Anthropic。Murphy說(shuō):如果大家都使用相同的數(shù)據(jù),你怎么能比其他人更出色呢?目前尚不清楚OpenAI、谷歌、Anthropic和其他大型開發(fā)商會(huì)在多大程度上允許初創(chuàng)對(duì)手利用他們的數(shù)據(jù)進(jìn)行追趕。Radical Ventures合伙人Rob Toews表示:AI模型的訓(xùn)練數(shù)據(jù)的質(zhì)量和來(lái)源正成為最重要的熱點(diǎn)問(wèn)題之一。沒(méi)有人確切知道事情將如何發(fā)展,但任何沒(méi)有對(duì)(數(shù)據(jù)來(lái)源)進(jìn)行周密和戰(zhàn)略考慮的AI初創(chuàng)公司都在落后。如果那些在開發(fā)模型時(shí)暗中依賴其他AI服務(wù)的開發(fā)商被曝光,它們可能會(huì)面臨尷尬的處境。比如,總部位于巴黎的Mistral使用Meta的開源AI 模型Llama 2創(chuàng)建了自己的AI,但直到無(wú)意泄露才披露這一事實(shí),引起了一些開發(fā)者的不滿。Mistral已經(jīng)籌集了數(shù)億美元的資金。大公司也一樣?實(shí)際上,初創(chuàng)公司利用OpenAI數(shù)據(jù)訓(xùn)練模型的做法,與OpenAI等AI巨頭的做法并無(wú)二致。OpenAI首席技術(shù)官M(fèi)ira Murati上個(gè)月在回答有關(guān)該公司是否使用谷歌旗下YouTube以及Meta Platforms旗下Facebook和Instagram的數(shù)據(jù)來(lái)訓(xùn)練生成AI視頻的Sora時(shí)表現(xiàn)出了猶豫和困惑。如果OpenAI真的使用了這些數(shù)據(jù),也不足為奇。據(jù)《紐約時(shí)報(bào)》最近的報(bào)道,OpenAI創(chuàng)建了一個(gè)名為Whisper的語(yǔ)音識(shí)別工具,用于轉(zhuǎn)錄YouTube視頻,以此來(lái)改進(jìn)GPT-4。此前,也有媒體曾報(bào)道稱,OpenAI暗中使用YouTube數(shù)據(jù)訓(xùn)練其早期的AI模型。就在本月早些時(shí)候,YouTube CEO Neal Mohan還表示,他不贊成OpenAI使用YouTube視頻來(lái)開發(fā)像Sora這樣的文生視頻模型。這種行為也導(dǎo)致OpenAI招致了侵權(quán)官司?!都~約時(shí)報(bào)》公司去年12月起訴OpenAI及其最大支持者微軟,指控他們?cè)谟?xùn)練模型時(shí)非法復(fù)制了該報(bào)的新聞文章。訴訟稱,OpenAI的聊天機(jī)器人“可以逐字逐句地生成時(shí)報(bào)內(nèi)容”。作為回應(yīng),OpenAI辯稱,它已努力與新聞出版商建立合作關(guān)系,其訓(xùn)練做法屬于美國(guó)版權(quán)原則“合理使用”所允許的范圍。盡管如此,OpenAI和谷歌都與Axel Springer等出版商達(dá)成了數(shù)百萬(wàn)美元的許可協(xié)議,并與Reddit等主要網(wǎng)站達(dá)成了更大的交易。即使是科技巨頭也難以抗拒捷徑的誘惑。The Information報(bào)道稱,谷歌曾轉(zhuǎn)錄YouTube視頻,Meta雇傭承包商總結(jié)受版權(quán)保護(hù)的書籍,Adobe使用Midjourney的AI生成照片,均是為了訓(xùn)練自家AI模型。一位谷歌工程師因擔(dān)憂公司使用OpenAI的ChatGPT數(shù)據(jù)而辭職。初創(chuàng)公司Lamini的CEO Sharon Zhou表示,AI開發(fā)的快速步伐和激烈競(jìng)爭(zhēng)迫使開發(fā)者求助于有爭(zhēng)議的訓(xùn)練數(shù)據(jù)來(lái)源,如受版權(quán)保護(hù)的內(nèi)容或LLM。Zhou說(shuō):在這個(gè)領(lǐng)域,投資者需要看到非常快的進(jìn)展。