
導讀: 本文聚焦于近期人工智能領域的最新進展,涵蓋了從語音合成、大模型能力突破,到AI在內容創作、編程輔助、教育以及隱私保護等多個維度的創新應用。小紅書、百度、谷歌、OpenAI、騰訊、阿里、Meta等行業巨頭及初創公司紛紛推出新模型、新平臺或優化現有服務,展現了AI技術在提升效率、降低門檻、拓展應用場景等方面的巨大潛力。同時,AI安全治理框架的更新也預示著行業正朝著更加規范和負責任的方向發展。
小紅書FireRedTTS-2:革新AI播客體驗

小紅書的智創音頻團隊近日發布了FireRedTTS-2,這是一款尖端的對話合成模型,其核心優勢在于極大地增強了語音合成的自然度和逼真度。該模型具備強大的音色克隆能力,僅需少量語音樣本即可生成高度逼真的、包含多位說話者的對話。這一突破性進展使得FireRedTTS-2在播客制作、配音等需要自然人聲交互的領域展現出巨大潛力。此外,模型支持多語言,并采用了低幀率離散語音編碼器,顯著優化了合成速度和穩定性,能夠靈活適應各種音頻應用的需求。
詳細信息可在GitHub上找到:https://github.com/FireRedTeam/FireRedTTS2。
百度文心ERNIE-4.5-21B:Hugging Face模型榜單新王者

百度文心大模型家族再添新成員,開源發布了ERNIE-4.5-21B-A3B-Thinking模型。這款模型巧妙地采用了Mixture-of-Experts(MoE)架構,盡管總參數量高達21億,但每次推理實際激活的參數僅為3億,從而大幅削減了計算成本。其突出亮點在于支持高達128K的超長上下文窗口,在邏輯推理、數學問題解決以及多模態任務處理方面表現卓越。憑借這些優勢,ERNIE-4.5-21B-A3B-Thinking迅速攀升至Hugging Face文本生成模型榜單的首位,有力證明了百度在全球人工智能領域的強大實力。
谷歌Gemini:iPhone應用商店的免費新寵

谷歌的Gemini應用在美國App Store免費應用排行榜上迅速躍居榜首,贏得了廣大iPhone用戶的青睞。該應用的核心競爭力在于其搭載的Nano Banana圖像編輯模型,該模型能夠精準地保持人物面部特征的一致性,并生成高質量的圖像,這使其在創意設計和內容創作領域具有廣泛的應用前景。Gemini的成功不僅彰顯了生成式AI在移動端的巨大潛力,也帶動了谷歌旗下其他應用的排名顯著提升。
xAI戰略轉型:聚焦專業AI導師領域
xAI近期進行了一系列戰略調整,其中一項重要舉措是裁減約500名員工,主要涉及數據標注團隊。此舉旨在將公司的發展方向從通用AI導師轉型為更加專注于專業AI導師領域。為此,xAI計劃大幅擴展其專業AI導師團隊,規模預計將增加十倍。這一戰略性轉變旨在提升公司在特定專業領域的AI應用能力,優化資源配置,并加速技術升級的步伐。
OpenAI與微軟:財務協議調整與收入增長
OpenAI正計劃與其合作伙伴微軟就財務協議進行調整。目標是將雙方的收入分成比例從當前的近20%逐步降低,預計到2030年將達到8%。此舉旨在應對日益高昂的AI模型訓練計算成本。據估計,這一調整將為OpenAI帶來超過500億美元的額外收入,這筆資金將用于進一步的模型研發和業務擴張。作為回報,微軟將獲得OpenAI實體約三分之一的股份,但仍將保持OpenAI的運營性,不參與董事會決策。
DeepMCPAgent開源:AI代理生產力飛躍

DeepMCPAgent作為一款新近開源的框架,為AI代理的開發帶來了性的提升。該框架支持動態的MCP(Multi-modal Conversational Programming)工具發現,并且能夠與LangChain和LangGraph等主流開發工具無縫集成,同時兼容多種主流大語言模型(LLM)。這使得開發者能夠更快速、更靈活地構建生產級的AI代理,顯著加速了從原型設計到實際應用的開發流程。DeepMCPAgent的應用場景廣泛,尤其在自動化任務和數據處理方面能夠發揮巨大作用。更多詳情請訪問:https://github.com/cryxnet/deepmcpagent。
螞蟻集團AI開源生態全景圖2.0:引領潮流
螞蟻集團發布了其AI開源生態全景圖2.0報告。該報告通過OpenRank評價體系,精選了114個高價值的AI項目,覆蓋了22個關鍵技術領域,全面展示了全球AI開源領域的最新動態和發展趨勢。報告指出,美國和中國的開發者在AI創新方面占據著主導地位,AI技術已成為全球關注的焦點,并正在有力地推動學術研究和產業發展。
北京中小學引入AI通識課程
北京市教育部門在本學期啟動了一項重要舉措,為全市1400多所中小學引入了AI通識課程。該課程計劃每學年至少開設8個課時,覆蓋小學到高中各個學段。課程內容不僅涵蓋AI的基礎知識和應用技能,還強調AI倫理責任的培養。通過項目實踐,旨在提升學生的創新思維和解決問題的能力。這些課程既可以開設,也可以與現有學科進行融合,有效避免了內容上的重復。
騰訊混元3D 3.0:建模精度提升三倍

在2025全球數字生態大會上,騰訊發布了其最新的混元3D 3.0模型。該模型采用了先進的3D-DiT分級雕刻技術,使得建模精度相較于以往提升了三倍,能夠生成更加逼真細膩的3D內容。同時,騰訊還推出了混元3D Studio平臺,為專業創作者提供了一套高效的創作工具。未來,騰訊計劃將混元3D omni模型進行開源,以期推動3D技術在游戲、影視等多個領域的廣泛應用。
昆侖萬維Mureka Agent Studio:簡化音樂創作流程

昆侖萬維旗下的Mureka平臺推出了Agent Studio這一創新功能,極大地降低了音樂創作的門檻。用戶只需通過簡單的文字描述,AI即可自動生成歌詞和音樂。該功能支持專輯制作、熱點話題創作、情感表達等六大應用場景,無論是專業的音樂人還是普通愛好者,都能輕松上手,享受音樂創作的樂趣。更多信息可訪問:https://www.mureka.ai/。
阿里Qoder推出付費訂閱:Pro版每月20美元

阿里Qoder現已推出Pro(每月20美元)和Pro+兩種付費訂閱計劃,為用戶提供無限代碼補全和高級模型調用等功能。這些新功能旨在優化Credits的消耗機制,并提升智能體工具的并行性,從而顯著提高開發效率。此外,其工程檢索的準確率也得到了提升,使得開發者在處理復雜項目時能夠實現更高效的編程。訂閱服務可在https://qoder.com/上獲取。
VEED Fabric 1.0:圖片瞬間擁有生命

VEED Fabric 1.0是一款性的AI視頻生成工具,只需一張靜態圖片和一段語音輸入,即可快速生成高質量的“會說話”視頻。該工具能夠實現精準的唇形同步和自然的表情,并且生成速度提升了7倍,成本則降低了60倍。Fabric 1.0支持多語言和自動字幕功能,非常適合教育、營銷等需要快速內容生產的場景。了解更多請訪問:https://www.veed.io/ai/fabric-1-0。
OpenAI GPT-5-Codex:重塑AI編碼體驗

OpenAI發布了GPT-5-Codex,引入了動態思考機制,能夠根據任務的復雜程度智能調整處理時間,從而顯著提升編碼效率。該模型支持IDE擴展、Web界面以及GitHub代碼審查等多種集成方式,極大地縮短了開發周期,并有效減少了代碼錯誤。GPT-5-Codex的推出受到了廣大開發者的普遍好評。相關信息可在https://openai.com/index/introducing-upgrades-to-codex/查閱。
《AI安全治理框架》2.0版發布

2025年9月15日,《人工智能安全治理框架》2.0版正式發布。此次更新針對人工智能技術發展帶來的新挑戰,對風險分類和防范措施進行了優化,并著重強調了全球合作的重要性。該框架旨在構建一個安全、可信的人工智能生態系統,從而更好地保障技術的健康發展和用戶的合法權益。
詳情可參見:https://www.cac.gov.cn/2025-09/15/c_1759653448369123.htm。
OpenAI Evals:新增音頻評估功能
OpenAI的Evals工具近期新增了原生音頻輸入功能,這意味著開發者現在可以直接上傳音頻文件來評估語音識別和語音生成模型的性能,而無需進行文本轉錄。這項新功能極大地提升了測試的效率,并為智能語音助手和音頻內容生成等應用提供了更精準的支持。
Mini-o3模型:突破視覺推理新高度

字節跳動與香港大學合作研發的Mini-o3開源模型,在視覺推理能力上取得了重大突破,支持數十輪的視覺推理,遠超傳統模型1-2輪的限制。通過引入VisualProbe數據集和超輪次掩碼策略,該模型在處理復雜視覺問題時表現出色,尤其適合需要多輪對話和深度推理的應用場景。
相關研究論文可在https://arxiv.org/pdf/2509.07969上查閱。
上海AI Lab Lumina-DiMOO:多模態融合新典范

上海人工智能實驗室聯合多所高校推出了Lumina-DiMOO模型。該模型采用了全離散擴散架構,并通過對比學習有效整合了文本、圖像、音頻等多模態數據,從而顯著提升了生成內容的質量和效率。Lumina-DiMOO在圖像生成和多模態理解方面展現出卓越的性能,可廣泛應用于教育、創意設計等領域。項目代碼可在https://github.com/Alpha-VLLM/Lumina-DiMOO獲取。
騰訊AI繪畫技術:美感大幅提升

騰訊通過引入“Direct-Align”和“語義相對偏好優化”(SRPO)等先進技術,對AI繪畫模型進行了優化。這些技術有效減少了梯度現象,使得生成圖像的真實感和美學評分均提升了300%。新的技術解決方案成功解決了獎勵作弊問題,并支持通過文本指令控制圖像風格,為藝術創作帶來了新的可能性。相關研究成果可查閱:https://arxiv.org/pdf/2509.06942。
Meta AI MobileLLM-R1:輕量級模型賦能邊緣設備

Meta AI發布了MobileLLM-R1系列輕量級模型,其參數量范圍從140M到950M不等。這些模型專為邊緣設備設計,僅使用了11.7%的數據進行訓練,卻在多項任務上超越了多款大型模型,特別是在數學和編碼任務中表現尤為突出。MobileLLM-R1系列非常適合在功耗受限的場景下部署。模型可在Hugging Face上找到:https://huggingface.co/facebook/MobileLLM-R1-950M。
騰訊AI應用繁榮計劃:賦能企業數字化轉型
騰訊啟動了AI應用繁榮計劃,該計劃聚焦于垂直行業場景,通過AI共創營和百校行等活動,吸引了超過300家企業參與。騰訊為這些企業提供了技術和資源支持,旨在孵化智能體和大模型應用。首屆活動吸引了近3000名參與者,充分展現了AI技術在產業化方面的巨大潛力。
谷歌DeepMind VaultGemma:保障數據隱私
谷歌DeepMind發布了VaultGemma,該模型基于Gemma2架構,擁有10億參數。VaultGemma集成了差分隱私技術,通過添加隨機噪聲來保護用戶數據的安全,確保輸出結果的隱私性。該模型將在Hugging Face和Kaggle上開源,特別適合對數據隱私有嚴格要求的應用場景。
豆包月活破1.57億:領跑中國AI應用
QuestMobile的最新報告顯示,豆包應用的月活躍用戶已達到1.57億,環比增長6.6%,成功超越DeepSeek,成為中國原生AI應用中的佼佼者。騰訊元寶以22.4%的增速位列第三。報告還指出,在中國TOP50的AI應用中,超過一半是In-App插件形式,豆包在PC和移動端的跨平臺表現尤為突出。

粵公網安備 44011502001135號