AI項目和框架
NeuralAgent
NeuralAgent 是開源的桌面 AI 個人助手,通過自然語言指令自動化執(zhí)行多種復(fù)雜任務(wù),如模擬鍵盤輸入、鼠標(biāo)點擊、瀏覽器導(dǎo)航、表單填寫和郵件發(fā)送等。NeuralAge...
Qwen-Flash
Qwen-Flash是阿里通義千問推出的Qwen3系列Flash模型,版本號為qwen-flash-2025-07-28。模型在通用能力、推理能力、中英文知識處理及Agent能力上均有顯著提升...
Speech 2.5
Speech 2.5 是 MiniMax 推出的新一代語音生成模型,在多語種表現(xiàn)力、音色復(fù)刻和語言覆蓋范圍上實現(xiàn)重大突破。模型支持40種語言,能精準(zhǔn)還原不同語言和口音的...
Claude Opus 4.1
Claude Opus 4.1 是 Anthropic 公司最新推出的大型語言模型,是 Claude Opus 4 的升級版本。模型在多個方面進行優(yōu)化和提升,包括推理質(zhì)量、指令遵循能力及整...
AudioGen-Omni
AudioGen-Omni是快手推出的多模態(tài)音頻生成框架,框架能基于視頻、文本等輸入生成高質(zhì)量的音頻、語音和歌曲。框架通過統(tǒng)一的歌詞-文本編碼器和相位對齊各向異...
LangExtract
LangExtract 是谷歌開源的用在從非結(jié)構(gòu)化文本中提取結(jié)構(gòu)化信息的 Python 庫。LangExtract 用大型語言模型(LLM),自動處理臨床筆記、報告等材料,識別并組織...
Qwen-Image
Qwen-Image 是阿里通義千問團隊開源的 20B 參數(shù)MMDiT模型,是通義千問系列中首個圖像生成基礎(chǔ)模型,模型在復(fù)雜文本渲染和精確圖像編輯方面表現(xiàn)出色,支持多行...
MiDashengLM
MiDashengLM是小米開源的高效聲音理解大模型,具體參數(shù)版本為MiDashengLM-7B 。模型基于 Xiaomi Dasheng 音頻編碼器和 Qwen2.5-Omni-7B Thinker 解碼器構(gòu)建,...
粵公網(wǎng)安備 44011502001135號