AIGC動態歡迎閱讀
原標題:星環科技孫元浩:語料已經是大模型最大的挑戰
關鍵字:語料,模型,報告,數據,企業內部
文章來源:機器之心
內容字數:0字
內容摘要:
機器之心報道
作者:Esther「原來以為語料已經匱乏了,大模型訓練已經沒有語料了,實際上不是的,數據還遠遠沒有跑光」。
作為大數據領域超過十年的創業者,「星環科技」創始人及CEO孫元浩并不認同「大模型已經將人類互聯網數據窮盡」的說法。
根據他的觀察,如今在各行各業企業內部的數據還遠遠未被足夠利用,人類在互聯網上的存量數據遠遠大過目前大模型能夠利用的量級。擁有了這些來自各行各業內部高質量的數據,大模型可以在如今的基礎上,大大提高準確性。
而關鍵問題就在于,怎樣可以高效地開發這些數據?
大模型時代,語料的開發遇到了新的挑戰。孫元浩分享稱,目前企業內部的數據往往多是非結構化的、海量的、不同形式的、以小文件居多的,同時標注和校正這些專業數據還有較高的門檻。這對文件系統、知識庫系統、語料開發系統等都提出了新的要求。
比如,面對數據量巨大的問題,對企業內部各種文檔、PPT的處理,意味著存儲和計算資源有更高的要求;在數據多樣性方面,對于企業內部不同類型的文檔,如媒體文章、公文、設計文檔等,都需要用訓練模型進行識別和解析,這就要求數據處理工具具備強大的多模態數據處理能力。
對于數據安全和隱私問題
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...