標簽:概率
AI訓AI慘遭投毒9次大崩潰,牛津劍橋等驚天發現登Nature封面!
新智元報道編輯:編輯部 【新智元導讀】9次迭代后,模型開始出現詭異亂碼,直接原地崩潰!就在今天,牛津、劍橋等機構的一篇論文登上了Nature封面,稱合成數...
Llama 3.1上線就被攻破:大罵小扎,危險配方張口就來!指令遵循能力強了更容易越獄
夢晨 發自 凹非寺量子位 | 公眾號 QbitAI最強大模型Llama 3.1,上線就被攻破了。 對著自己的老板扎克伯格破口大罵,甚至知道如何繞過屏蔽詞。 設計危險病毒、...
生成式模型不只會「模仿」!哈佛、UCSB等最新成果:性能可超越訓練集專家水平
新智元報道編輯:LRS 【新智元導讀】生成式模型原本被設計來模仿人類的各種復雜行為,但人們普遍認為它們最多只能達到與其訓練數據中的專家相當的水平。不過...
零成本突破多模態大模型瓶頸!多所美國頂尖高校華人團隊,聯合推出自增強技術CSR
新智元報道編輯:LRST 【新智元導讀】現有多模態大模型在對齊不同模態時面臨幻覺和細粒度感知不足等問題,傳統偏好學習方法依賴可能不適配的外源數據,存在成...
To Believe or Not to Believe?DeepMind新研究一眼看穿LLM幻覺
新智元報道編輯:庸庸 喬楊 【新智元導讀】DeepMind發表了一篇名為「To Believe or Not to Believe Your LLM」的新論文,探討了LLM的不確定性量化問題,通過...
長文 | 大模型偏好對齊全家桶 – RL側
今天給大家帶來一篇Reinforcement Learning from Human Feedback的全家桶,來自知乎@何枝(已授權)。 隨著 Llama3 的開源,人們對 Alignment 的重視程度又上...
今日arXiv最熱NLP大模型論文:清華大學提出IFT對齊算法,打破SFT與RLHF局限性
夕小瑤科技說 原創作者 | 謝年年 監督微調(Supervised Fine-Tuning, SFT)和基于人類反饋的強化學習(Reinforcement Learning from Human Feedback, RLHF)...
陳丹琦團隊新作:微調8B模型超越Claude3 Opus,背后是RLHF新平替
克雷西 發自 凹非寺量子位 | 公眾號 QbitAI比斯坦福DPO(直接偏好優化)更簡單的RLHF平替來了,來自陳丹琦團隊。 該方式在多項測試中性能都遠超DPO,還能讓8B...
熱帖:大語言模型自薦能夠替代的20種人類工作!快來看你是否需要轉行!
夕小瑤科技說 原創作者 | 付奶茶最近推特上有一個例子引起了廣泛的討論,事情的起因是這樣的:網友讓 GPT-4o 預測一下自己未來將會替代人類哪些工作? 這聽起...
以ACL 2024為例,從投稿到接收:頂會投稿后全流程揭秘
夕小瑤科技說 分享作者 | Erutan Lai來源 | 知乎想必很多同學都會感到好奇,論文投稿之后會經歷什么? 寫這篇文章,就我所知的,簡單科普一下。畢竟沒當過大C...
AI足球教練上崗利物浦,射門機會提高13%!來自DeepMind,網友:這不公平
夢晨 發自 凹非寺量子位 | 公眾號 QbitAIAI足球教練登上Nature子刊,谷歌DeepMind與利物浦隊合作三年打造: 如同AlphaGo顛覆圍棋一樣,改變了球隊制定戰術的...
ICLR 2024 | 無需訓練,Fast-DetectGPT讓文本檢測速度提升340倍
機器之心專欄 機器之心編輯部Fast-DetectGPT同時做到了高準確率、高速度、低成本、通用,掃清了實際應用的障礙!大語言模型如 ChatGPT 和 GPT-4 在各個領域對...
長文綜述:大腦中的熵、能、對稱性和動力學|新春特輯
導語我們的大腦在一定程度上是貝葉斯推理系統,生成內部模型對外部世界作出預測,然后將預測與感官輸入不斷地進行對比,形成預測誤差并更新內部模型。2022年...
根據模型輸出反轉LLM輸入提示,讓惡意攻擊無處可藏
大數據文摘授權轉載自將門創投 作者:seven_ 近一段時間以來,工業界和學術界都對大型語言模型(LLM)的內部運行機理進行了深入的研究和探索。這種基礎理論研...
粵公網安備 44011502001135號