突破性的創新往往不會與已有的成功經驗相似
原標題:小米語音首席科學家 Daniel Povey:語音識別卷完了,下一個機會在哪里?| 智者訪談
文章來源:機器之心
內容字數:19513字
一線AI洞察:與Kaldi之父Daniel Povey博士的深度對話
本文總結了機器之心對著名開源語音識別項目Kaldi創始人、小米集團語音首席科學家Daniel Povey博士的訪談要點。訪談圍繞AI多模態融合趨勢、大模型與小模型的權衡、技術創新方向選擇等話題展開,并對年輕一代AI研究者提出了務實的建議。
1. 語音技術現狀與未來方向
Povey博士認為語音識別技術已達到較高成熟度,目前研究重點轉向了文字轉語音(TTS),并致力于開發在手機等移動設備上高效運行且音質優良的TTS系統。他指出,語音技術已成為AI的子領域,與AI研究緊密相連,并經歷了從領域到融入AI主流的轉變。
2. 多模態融合與Transformer的思考
Povey博士對Transformer的應用持謹慎樂觀態度。他認為Transformer雖然高效且效果好,但過度依賴單一模型不利于AI領域整體創新。他主張保持不同領域的研究特色和方法,并相信解決特定領域問題的研究可能最終帶來對整個AI領域都有益的通用解決方案。他認為,當前AI研究中,對大模型的追逐可能導致研究重復和進展緩慢。
3. 大模型與小模型的權衡
Povey博士更傾向于中等規模模型的研究,認為超大規模模型的實驗成本高昂,且難以復現,不利于推動領域整體進步。他強調了模型大小、可擴展性和性能之間的權衡,并指出所有的大模型最初都是小模型。
4. 技術創新與研究風格
Povey博士認為真正的技術進步是能夠被分辨出來的,不應該被某種主流范式所限制。他提倡一種注重診斷、注重信息論基礎、并重視可復現性的研究風格。他批評了學術界中過度追求數學證明和“端到端”噱頭而不注重實用性的傾向。
5. AI發展趨勢與機遇
Povey博士對AI領域的未來發展持樂觀態度,他認為機器人、軟件兼容性問題以及簡化計算系統等領域都蘊藏著巨大的機遇。他特別強調了開發支持不同精度整數運算的工具的重要性。
6. 對年輕AI研究者的建議
Povey博士建議年輕研究者要誠實面對自己的目標,不要盲目追逐名利。他指出,AI領域已不再是輕松獲得高薪的行業,只有真正有天賦的人才能做出突破性貢獻。他告誡年輕人要認真考慮職業選擇的長期影響,避免陷入“職業發展陷阱”,將生活與職業發展平衡好。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺