<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        大模型混入0.001%假數(shù)據(jù)就「中毒」,成本僅5美元!NYU新研究登Nature子刊

        AIGC動(dòng)態(tài)7個(gè)月前發(fā)布 新智元
        252 0 0

        大模型混入0.001%假數(shù)據(jù)就「中毒」,成本僅5美元!NYU新研究登Nature子刊

        原標(biāo)題:大模型混入0.001%假數(shù)據(jù)就「中毒」,成本僅5美元!NYU新研究登Nature子刊
        文章來(lái)源:新智元
        內(nèi)容字?jǐn)?shù):4124字

        大模型醫(yī)療應(yīng)用的風(fēng)險(xiǎn):數(shù)據(jù)污染的隱患

        紐約大學(xué)研究者近期在《自然-醫(yī)學(xué)》發(fā)表的研究,為大模型在醫(yī)療領(lǐng)域的應(yīng)用敲響了警鐘。研究表明,即使少量(低至0.001%)的錯(cuò)誤信息混入訓(xùn)練數(shù)據(jù),也能顯著提高大模型輸出有害醫(yī)療信息的概率,這一現(xiàn)象被稱為“數(shù)據(jù)中毒”。

        1. 數(shù)據(jù)污染的易感性:研究人員通過(guò)創(chuàng)建并嵌入虛假醫(yī)學(xué)文章,模擬了互聯(lián)網(wǎng)數(shù)據(jù)污染的情況。實(shí)驗(yàn)結(jié)果顯示,在1.3B參數(shù)的模型中,僅用0.01%和0.001%的虛假數(shù)據(jù)訓(xùn)練,有害輸出分別增加了11.2%和7.2%。即使是更大的4B參數(shù)模型,用0.001%的虛假數(shù)據(jù)(約2000篇虛假文章,成本僅5美元)進(jìn)行攻擊,有害輸出也會(huì)增加4.8%。 即使是參數(shù)規(guī)模更大的模型,數(shù)據(jù)污染的成本效益依然很高。

        2. 現(xiàn)有方法的局限性:研究發(fā)現(xiàn),常用的應(yīng)對(duì)虛假信息的方法,如提示工程、檢索增強(qiáng)生成(RAG)和監(jiān)督微調(diào),對(duì)已經(jīng)“中毒”的大模型效果有限,降低有害響應(yīng)的比例分別只有26.2%、28.4%和35.9%。

        3. 基于知識(shí)圖譜的解決方案:研究人員提出了一種基于生物醫(yī)學(xué)知識(shí)圖譜的解決方案。該方法通過(guò)命名實(shí)體識(shí)別提取模型輸出中的醫(yī)學(xué)短語(yǔ),并與知識(shí)圖譜進(jìn)行交叉驗(yàn)證。任何無(wú)法與圖譜匹配的短語(yǔ)都被視為潛在錯(cuò)誤信息,從而識(shí)別出包含虛假信息的段落。該方法準(zhǔn)確率超過(guò)90%,且計(jì)算開(kāi)銷小,具有可解釋性。

        4. 專業(yè)領(lǐng)域大模型的風(fēng)險(xiǎn):該研究強(qiáng)調(diào)了在醫(yī)療、法律等專業(yè)領(lǐng)域使用大模型的風(fēng)險(xiǎn)。由于這些領(lǐng)域與用戶利益密切相關(guān),模型的幻覺(jué)可能造成嚴(yán)重后果。研究指出,即使是相對(duì)少量的數(shù)據(jù)污染,也能對(duì)專業(yè)大模型造成顯著影響,這需要引起高度重視。

        5. 歷史偏見(jiàn)和數(shù)據(jù)挑戰(zhàn):即使是高質(zhì)量的數(shù)據(jù)集,也可能包含過(guò)時(shí)的或有害的信息。例如,PubMed中仍存在大量宣揚(yáng)有害醫(yī)療方法的文章。因此,完全避免醫(yī)療誤信息對(duì)大模型來(lái)說(shuō)是一個(gè)巨大的挑戰(zhàn),需要進(jìn)一步研究。

        6. 結(jié)論:這項(xiàng)研究揭示了大模型數(shù)據(jù)污染的嚴(yán)重性和易感性,強(qiáng)調(diào)了在醫(yī)療等關(guān)鍵領(lǐng)域應(yīng)用大模型時(shí),需要加強(qiáng)數(shù)據(jù)質(zhì)量控制和安全措施。基于知識(shí)圖譜的信息驗(yàn)證方法為解決數(shù)據(jù)污染問(wèn)題提供了一種有效的途徑,但仍需進(jìn)一步完善和發(fā)展,以確保大模型在醫(yī)療領(lǐng)域的可靠性和安全性。


        聯(lián)系作者

        文章來(lái)源:新智元
        作者微信:
        作者簡(jiǎn)介:智能+中國(guó)主平臺(tái),致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國(guó)新智能時(shí)代。

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無(wú)評(píng)論

        暫無(wú)評(píng)論...
        主站蜘蛛池模板: 无遮免费网站在线入口| 精品一区二区三区免费视频| 精品免费tv久久久久久久| 亚洲国产成人无码AV在线| 产传媒61国产免费| 亚洲国产精品人人做人人爱| 91在线免费视频| 亚洲A∨午夜成人片精品网站| 亚洲成AV人片在WWW色猫咪| 成av免费大片黄在线观看| 波多野结衣免费在线观看| 四虎永久免费地址在线观看| 亚洲AV无码成人精品区在线观看| 亚洲日韩国产精品无码av| 亚洲一级毛片免费观看| 亚洲一级毛片免观看| 最新中文字幕免费视频| 亚洲国产女人aaa毛片在线| 免费不卡在线观看AV| 亚洲国产综合人成综合网站00| 又粗又大又黑又长的免费视频| 亚洲乱码在线卡一卡二卡新区 | WWW免费视频在线观看播放| 国产亚洲AV夜间福利香蕉149| 亚洲人精品亚洲人成在线| 情侣视频精品免费的国产| 亚洲最新中文字幕| 手机在线毛片免费播放| 免费夜色污私人影院网站| 亚洲精品无码mv在线观看网站| 一级毛片免费观看不卡视频| 亚洲伊人久久大香线蕉影院| 你懂的免费在线观看网站| 久久久久久亚洲精品不卡| 亚洲免费在线播放| 国产精品亚洲综合久久| 成人亚洲性情网站WWW在线观看| 亚洲视频免费在线播放| 黑人粗长大战亚洲女2021国产精品成人免费视频| 免费一级国产生活片| 精品无码专区亚洲|