AI項目和框架
DynamicControl
DynamicControl是騰訊優圖聯合南洋理工、浙大等研究機構推出的集成多模態大語言模型(MLLM)推理能力的文本生成圖像(T2I)任務新框架。DynamicControl通過自...
video-analyzer
video-analyzer是開源的視頻分析工具,結合Llama的11B視覺模型和OpenAI的Whisper模型來提取視頻關鍵幀、轉錄音頻內容,并生成視頻的詳細描述。工具支持完全本...
Vision Parse
Vision Parse是開源的PDF文檔轉換工具,基于視覺語言模型(Vision LLMs)將PDF文件轉換成Markdown格式。Vision Parse能智能識別和提取PDF中的文本和表格,且...
The Language of Motion
The Language of Motion是斯坦福大學李飛飛團隊推出的多模態語言模型,能整合人類動作中的言語和非言語語言。模型能處理文本、語音和動作數據,生成對應的目...
Mathtutor on Groq
Mathtutor on Groq 是基于 Groq 架構的AI數學輔導工具,基于語音識別功能,支持用戶用語音形式提出數學問題。工具內置強大的數學引擎,能實時計算并用 LaTeX ...
Poetry2Image
Poetry2Image是一個專為中文古詩詞圖像生成設計的迭代校正框架,哈爾濱工業大學提出。框架通過自動化的反饋和校正循環,增強了詩歌與圖像之間的一致性,有效...
Enhance-A-Video
Enhance-A-Video 是新加坡國立大學、上海人工智能實驗室和德克薩斯大學奧斯汀分校聯合推出的視頻生成增強算法。算法能夠顯著提升AI視頻的生成質量,特別是在...