星辰語義大模型官網
2024年1月,中國電信正式開源星辰語義大模型-7B,同時開源的還有超 1T 的高質量清洗基礎數據。
開源項目鏈接地址:
- https://openi.pcl.ac.cn/openihu/tele-chat
- https://gitee.com/Tele-AI/tele-chat
- https://github.com/Tele-AI/Telechat
- https://huggingface.co/Tele-AI/telechat-7B
星辰語義大模型的開源方案
在千億參數大模型發布之前,星辰語義大模型已經具備了多版本穩定可用的大模型基座,覆蓋 3B、7B、12B 和 130B 等參數量級。大模型采用純自研方式,AI 團隊選用解碼器架構( decoder-only )并在模型維度做了一些創新和改進。經過數十版模型訓練與優化,模型的穩定性和推理速度都得到了明顯提升。
根據開源服務的對象不同,星辰語義大模型的開源方案也分兩種——對內方案和對外方案。對外方案中,7B 模型在 Gitee 和 Github 同步開源,支持商用。對內方案中,開源對象包括 3B、7B 和 12B 模型。代碼在研發云進行托管。模型使用二方包方式進行托管,權限采用項目申請關聯方式。
開源的模型數量和時間有所不同,但開源內容并無區別。比如,提供基礎模型以及基于相應版本的對話模型、不僅支持傳統的全量參數更新還支持 LoRA 等只更新部分參數的高效微調方法、支持 deepspeed 微調、支持 int8、int4 量化和昇騰卡訓練推理。
長文本處理是星辰語義大模型的一個亮點。開源模型支持外推長度達 96K,有助于模型在訓練與推理階段捕獲更多上下文信息,特別是在引入外部知識做搜索增強的應用場景。
同時開放的還有超 1T 高質量清洗的基礎數據,是由星辰大模型預訓練語料中抽取出的綜合性大規模中文數據集。數據主要來源于網頁、書籍、官方媒體等媒介,數據集大約公開了 2.7 億條數據,由純中文文本構成。據電信 AI 透露,這些數據在 7B、12B 還有未來開源的千億級大模型都會用到。
相關新聞:

星辰語義大模型開源交流群
星辰大模型矩陣

星辰語義大模型-3B并不在開源的對外方案中

星辰語義大模型通用能力一覽
中國電信正式發布星辰語義大模型
2023 年數字科技生態大會人工智能與數據產業發展合作論壇論壇上,中國電信正式發布了”星辰語義大模型“的千億參數版本,在推理和回答準確性方面都有顯著提升,并將上下文窗口提到了 96K Token。中國電信首次提出了緩解多輪幻覺的解決方案,使得大模型的幻覺率降低了 40%。

與此同時,中國電信還宣布將加入到開源開放的行列中,預計今年年底開源百億級別的大模型,明年 4 月則會開源千億級別的大模型,旨在讓更多研究者和開發者從中受益。此外,中國電信還將根據星辰大模型構建各種工具鏈,以滿足不同用戶的需求。
多輪幻覺的解決方案
中國電信千億參數星辰語義大模型在業界首次提出了緩解多輪幻覺的解決方案,將模型幻覺率降低了 40%。這一方案包括四項關鍵技術:
關鍵信息注意力增強技術:通過對關鍵信息進行注意力增強,可以提升模型理解能力和答案回復一致性的能力,較大程度緩解模型幻覺問題;
知識圖譜強化:通過知識圖譜確保訓練數據集知識事實性,并通過知識圖譜知識提示能力輔助模型知識問答能力提升,大幅降低模型幻覺,提高通用問答準確率。
多輪知識記憶和強化技術:通過采用更優模型知識記憶方案,以及關聯信息的強化訓練方案,增強了模型上下文記憶能力和關聯知識理解能力,增強了上下文回復一致性,降低了模型幻覺問題;
知識溯源能力:通過多種湖源方式,關聯問題相關參考出處,生成答案更加可靠。



數據統計
數據評估
本站OpenI提供的星辰語義大模型都來源于網絡,不保證外部鏈接的準確性和完整性,同時,對于該外部鏈接的指向,不由OpenI實際控制,在2023年 11月 14日 下午8:26收錄時,該網頁上的內容,都屬于合規合法,后期網頁的內容如出現違規,可以直接聯系網站管理員進行刪除,OpenI不承擔任何責任。