DeepSeek R1與OpenAI模型文風(fēng)相似度高達(dá)74.2%?新研究質(zhì)疑DeepSeek訓(xùn)練數(shù)據(jù)
Copyleaks,一個(gè)專注于檢測(cè)文本中的抄襲和AI生成內(nèi)容的平臺(tái)。

原標(biāo)題:DeepSeek R1與OpenAI模型文風(fēng)相似度高達(dá)74.2%?新研究質(zhì)疑DeepSeek訓(xùn)練數(shù)據(jù)
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):4879字
DeepSeek 與 OpenAI 風(fēng)格驚人相似:Copyleaks 研究引發(fā)爭(zhēng)議
近日,Copyleaks 平臺(tái)發(fā)布的一項(xiàng)研究顯示,DeepSeek 生成的文本中有 74.2% 在風(fēng)格上與 OpenAI 模型驚人相似,引發(fā)廣泛關(guān)注。這項(xiàng)研究使用了由三個(gè)分類器組成的 LLM 檢測(cè)集成系統(tǒng),該系統(tǒng)能夠識(shí)別不同 AI 模型生成的文本,即使這些模型試圖模仿其他風(fēng)格也是如此。
1. Copyleaks 的研究方法
Copyleaks 的研究基于一個(gè)由三個(gè)不同架構(gòu)和訓(xùn)練數(shù)據(jù)的分類器組成的集成系統(tǒng)。該系統(tǒng)使用來自 OpenAI、Llama、Claude 和 Gemini 模型的 5 萬條英文文本進(jìn)行訓(xùn)練,并采用“一致同意制”的投票機(jī)制,只有當(dāng)三個(gè)分類器都一致認(rèn)同時(shí)才輸出結(jié)果。這種方法旨在提高準(zhǔn)確性并降低誤判率,其在測(cè)試集上的準(zhǔn)確率達(dá)到 0.9988,假陽性率僅為 0.0004。
2. 不同模型的風(fēng)格相似性分析
研究對(duì)四個(gè)新模型 (phi-4、Grok-1、Mixtral 和 DeepSeek) 進(jìn)行了測(cè)試。結(jié)果顯示:phi-4 和 Grok-1 模型與訓(xùn)練集中的四大模型風(fēng)格差異顯著;Mixtral 模型有 26% 的文本被識(shí)別為 OpenAI 生成,8.8% 被識(shí)別為 Llama 生成;而 DeepSeek 模型則有高達(dá) 74.2% 的文本被識(shí)別為 OpenAI 生成。
3. DeepSeek 與 OpenAI 相似性引發(fā)質(zhì)疑
DeepSeek 與 OpenAI 風(fēng)格的高度相似性引發(fā)了對(duì)其訓(xùn)練過程的質(zhì)疑。Copyleaks 數(shù)據(jù)科學(xué)主管 Shai Nisan 認(rèn)為,雖然這不能直接證明 DeepSeek 是 OpenAI 的衍生產(chǎn)品,但確實(shí)令人對(duì)其開發(fā)過程產(chǎn)生疑問,暗示其可能使用了 OpenAI 模型的輸出作為訓(xùn)練數(shù)據(jù)。
4. 其他可能解釋及爭(zhēng)議
除了訓(xùn)練數(shù)據(jù)可能存在重疊外,文章也指出,AI 模型隨著時(shí)間推移風(fēng)格趨同的可能性,以及 Copyleaks 檢測(cè)系統(tǒng)的準(zhǔn)確性和客觀性也值得探討。盡管質(zhì)疑聲不斷,DeepSeek 的應(yīng)用卻持續(xù)增長(zhǎng),并通過開源核心技術(shù)回應(yīng)質(zhì)疑。
5. 研究結(jié)果的可靠性
Copyleaks 的研究結(jié)果雖然引發(fā)了廣泛討論,但其結(jié)論的可靠性仍有待進(jìn)一步考量。 高準(zhǔn)確率的檢測(cè)系統(tǒng)和統(tǒng)計(jì)方法固然令人印象深刻,但風(fēng)格相似性并不一定意味著抄襲或衍生關(guān)系。 AI 模型的風(fēng)格趨同、訓(xùn)練數(shù)據(jù)的重疊以及檢測(cè)方法本身的局限性,都需要更深入的分析和驗(yàn)證。
6. 結(jié)論
Copyleaks 的研究為 AI 模型的風(fēng)格識(shí)別提供了新的視角,也引發(fā)了對(duì) AI 模型訓(xùn)練數(shù)據(jù)和開發(fā)過程的更深層次思考。 DeepSeek 與 OpenAI 的高度風(fēng)格相似性值得關(guān)注,但需避免過度解讀,需要更多研究來證實(shí)其背后的原因并評(píng)估其影響。
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)

粵公網(wǎng)安備 44011502001135號(hào)