AI項目和框架

DynamicControl

DynamicControl是騰訊優圖聯合南洋理工、浙大等研究機構推出的集成多模態大語言模型(MLLM)推理能力的文本生成圖像(T2I)任務新框架。DynamicControl通過自...
閱讀原文

VE-Bench

VE-Bench 是北京大學的研究團隊 MMCAL 最近發布首個專門針對視頻編輯質量評估的指標。VE-Bench 的設計目標是與人類感知能力高度一致,更準確地評估視頻編輯效...
閱讀原文

EDTalk

EDTalk是上海交通大學聯合網易研發的音頻驅動唇部同步模型,能實現對嘴型、頭部姿態和情感表情的獨立操控。只需上傳一張圖片、一段音頻和參考視頻,就能驅動...
閱讀原文

video-analyzer

video-analyzer是開源的視頻分析工具,結合Llama的11B視覺模型和OpenAI的Whisper模型來提取視頻關鍵幀、轉錄音頻內容,并生成視頻的詳細描述。工具支持完全本...
閱讀原文

PeterCat

PeterCat是開源的智能答疑機器人助手。PeterCat能幫助開發者和社區維護者更高效地解決技術問題,提升社區支持效率。PeterCat基于自動構建知識庫,能與GitHub...
閱讀原文

PartGen

PartGen是先進的3D對象生成和重建框架,是牛津大學的視覺幾何小組和Meta AI共同推出的。PartGen能識別并生成由有意義部分組成的3D對象,3D對象能基于文本提示...
閱讀原文

Vision Parse

Vision Parse是開源的PDF文檔轉換工具,基于視覺語言模型(Vision LLMs)將PDF文件轉換成Markdown格式。Vision Parse能智能識別和提取PDF中的文本和表格,且...
閱讀原文

The Language of Motion

The Language of Motion是斯坦福大學李飛飛團隊推出的多模態語言模型,能整合人類動作中的言語和非言語語言。模型能處理文本、語音和動作數據,生成對應的目...
閱讀原文

Mathtutor on Groq

Mathtutor on Groq 是基于 Groq 架構的AI數學輔導工具,基于語音識別功能,支持用戶用語音形式提出數學問題。工具內置強大的數學引擎,能實時計算并用 LaTeX ...
閱讀原文

啟元重癥大模型

啟元重癥大模型是騰訊和邁瑞醫療聯合發布的全球首個重癥醫療大模型,專為ICU病房設計,解決重癥監護中的痛點問題。模型整體參數量達到萬億級別,經過大量醫學...
閱讀原文

Poetry2Image

Poetry2Image是一個專為中文古詩詞圖像生成設計的迭代校正框架,哈爾濱工業大學提出。框架通過自動化的反饋和校正循環,增強了詩歌與圖像之間的一致性,有效...
閱讀原文

聯通元景

聯通元景(UniT2IXL)是中國聯通AI推出的中文原生文生圖模型,完全在國產昇騰AI基礎軟硬件平臺上實現訓練和推理。模型采用復合語言編碼模塊,優化中文長文本...
閱讀原文

DiTCtrl

DiTCtrl是基于多模態擴散變換器(MM-DiT)架構的多提示視頻生成方法,是香港中文大學和騰訊等機構聯合推出的。DiTCtrl能在無需額外訓練的情況下,實現多個文...
閱讀原文

MNN

MNN(Mobile Neural Network)是阿里巴巴集團開源的輕量級深度學習推理框架,為移動端、服務器、個人電腦、嵌入式設備等多種設備提供高效的模型部署能力。MNN...
閱讀原文

Enhance-A-Video

Enhance-A-Video 是新加坡國立大學、上海人工智能實驗室和德克薩斯大學奧斯汀分校聯合推出的視頻生成增強算法。算法能夠顯著提升AI視頻的生成質量,特別是在...
閱讀原文
17980818283146