AIGC動態歡迎閱讀
原標題:思路打開!騰訊造了10億個角色,驅動數據合成!7B模型效果打爆了
關鍵字:角色,數據,騰訊,問題,文本
文章來源:夕小瑤科技說
內容字數:0字
內容摘要:
夕小瑤科技說 原創作者 | 謝年年世界由形形的角色構成,每個角色都擁有獨特的知識、經驗、興趣、個性和職業,他們共同制造了豐富多元的知識與文化。
所謂術業有專攻,比如AI科學家專注于構建LLMs,醫務工作者們共建龐大的醫學知識庫,數學家們則偏愛數學公式與定理推導。
LLMs中也是如此,不同的知識是由不同的人類角色創建或者使用。因此在提示中加入角色描述如“你是一個xxx的計算機科學家”會極大提高模型響應準確度。
這一思路也可以用于構建合成數據。騰訊AI lab提出了一種新穎的(基于角色驅動的數據合成方法。即只需在數據合成提示中添加角色描述,就能引導LLM朝著相應的視角生成獨特的合成數據。
由于幾乎任何LLM的應用場景都可以關聯到特定的人格,只要構建一個全面的角色集合,就能實現大規模的全方位合成數據生成。為此作者構建了10億個角色,創建了Persona Hub(角色倉庫),里面包含“搬家公司的司機”、“化學動力學研究員”、“對音頻處理感興趣的音樂家”等多樣化的角色。并在大規模數學和邏輯推理問題生成、指令生成、知識豐富的文本生成、游戲NPC以及工具(功能)開發等場景中創建豐富且多樣化的合成
原文鏈接:思路打開!騰訊造了10億個角色,驅動數據合成!7B模型效果打爆了
聯系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:專業、有趣、深度價值導向的科技媒體。聚集30萬AI工程師、研究員,覆蓋500多家海內外機構投資人,互聯網大廠中高管和AI公司創始人。一線作者來自清北、國內外頂級AI實驗室和大廠,兼備敏銳的行業嗅覺和洞察深度。商務合作:zym5189