国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

DeepSeek R1與OpenAI模型文風(fēng)相似度高達(dá)74.2%？新研究質(zhì)疑DeepSeek訓(xùn)練數(shù)據(jù)

AIGC動(dòng)態(tài)10個(gè)月前發(fā)布機(jī)器之心

Copyleaks，一個(gè)專注于檢測(cè)文本中的抄襲和AI生成內(nèi)容的平臺(tái)。

DeepSeek R1與OpenAI模型文風(fēng)相似度高達(dá)74.2%？新研究質(zhì)疑DeepSeek訓(xùn)練數(shù)據(jù)

原標(biāo)題：DeepSeek R1與OpenAI模型文風(fēng)相似度高達(dá)74.2%？新研究質(zhì)疑DeepSeek訓(xùn)練數(shù)據(jù)
文章來源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：4879字

DeepSeek 與 OpenAI 風(fēng)格驚人相似：Copyleaks 研究引發(fā)爭(zhēng)議

近日，Copyleaks 平臺(tái)發(fā)布的一項(xiàng)研究顯示，DeepSeek 生成的文本中有 74.2% 在風(fēng)格上與 OpenAI 模型驚人相似，引發(fā)廣泛關(guān)注。這項(xiàng)研究使用了由三個(gè)分類器組成的 LLM 檢測(cè)集成系統(tǒng)，該系統(tǒng)能夠識(shí)別不同 AI 模型生成的文本，即使這些模型試圖模仿其他風(fēng)格也是如此。

1. Copyleaks 的研究方法

Copyleaks 的研究基于一個(gè)由三個(gè)不同架構(gòu)和訓(xùn)練數(shù)據(jù)的分類器組成的集成系統(tǒng)。該系統(tǒng)使用來自 OpenAI、Llama、Claude 和 Gemini 模型的 5 萬條英文文本進(jìn)行訓(xùn)練，并采用“一致同意制”的投票機(jī)制，只有當(dāng)三個(gè)分類器都一致認(rèn)同時(shí)才輸出結(jié)果。這種方法旨在提高準(zhǔn)確性并降低誤判率，其在測(cè)試集上的準(zhǔn)確率達(dá)到 0.9988，假陽性率僅為 0.0004。

2. 不同模型的風(fēng)格相似性分析

研究對(duì)四個(gè)新模型 (phi-4、Grok-1、Mixtral 和 DeepSeek) 進(jìn)行了測(cè)試。結(jié)果顯示：phi-4 和 Grok-1 模型與訓(xùn)練集中的四大模型風(fēng)格差異顯著；Mixtral 模型有 26% 的文本被識(shí)別為 OpenAI 生成，8.8% 被識(shí)別為 Llama 生成；而 DeepSeek 模型則有高達(dá) 74.2% 的文本被識(shí)別為 OpenAI 生成。

3. DeepSeek 與 OpenAI 相似性引發(fā)質(zhì)疑

DeepSeek 與 OpenAI 風(fēng)格的高度相似性引發(fā)了對(duì)其訓(xùn)練過程的質(zhì)疑。Copyleaks 數(shù)據(jù)科學(xué)主管 Shai Nisan 認(rèn)為，雖然這不能直接證明 DeepSeek 是 OpenAI 的衍生產(chǎn)品，但確實(shí)令人對(duì)其開發(fā)過程產(chǎn)生疑問，暗示其可能使用了 OpenAI 模型的輸出作為訓(xùn)練數(shù)據(jù)。

4. 其他可能解釋及爭(zhēng)議

除了訓(xùn)練數(shù)據(jù)可能存在重疊外，文章也指出，AI 模型隨著時(shí)間推移風(fēng)格趨同的可能性，以及 Copyleaks 檢測(cè)系統(tǒng)的準(zhǔn)確性和客觀性也值得探討。盡管質(zhì)疑聲不斷，DeepSeek 的應(yīng)用卻持續(xù)增長(zhǎng)，并通過開源核心技術(shù)回應(yīng)質(zhì)疑。

5. 研究結(jié)果的可靠性

Copyleaks 的研究結(jié)果雖然引發(fā)了廣泛討論，但其結(jié)論的可靠性仍有待進(jìn)一步考量。高準(zhǔn)確率的檢測(cè)系統(tǒng)和統(tǒng)計(jì)方法固然令人印象深刻，但風(fēng)格相似性并不一定意味著抄襲或衍生關(guān)系。 AI 模型的風(fēng)格趨同、訓(xùn)練數(shù)據(jù)的重疊以及檢測(cè)方法本身的局限性，都需要更深入的分析和驗(yàn)證。

6. 結(jié)論

Copyleaks 的研究為 AI 模型的風(fēng)格識(shí)別提供了新的視角，也引發(fā)了對(duì) AI 模型訓(xùn)練數(shù)據(jù)和開發(fā)過程的更深層次思考。 DeepSeek 與 OpenAI 的高度風(fēng)格相似性值得關(guān)注，但需避免過度解讀，需要更多研究來證實(shí)其背后的原因并評(píng)估其影響。