AI項目和框架

LayerSkip

LayerSkip是一種用在加速大型語言模型(LLMs)推理過程的技術。基于在訓練階段應用層dropout和早期退出損失,讓模型在推理時從早期層開始更準確地退出,不需...
閱讀原文

Spirit LM

Spirit LM是由Meta AI團隊推出的一種多模態語言模型,能無縫地混合文本和語音數據。Spirit LM基于一個預訓練的文本語言模型,用持續在文本和語音單元上的訓練...
閱讀原文

Story-Adapter

Story-Adapter 是一種新型的長篇故事可視化框架,能在保持語義一致性的同時,生成高質量且具有細膩交互的故事圖像序列。通過迭代方式,基于全局參考交叉注意...
閱讀原文

LOKI

LOKI是由中山大學和上海AI Lab聯合提出的合成數據檢測基準,旨在全面評估大型多模態模型(LMMs)在識別視頻、圖像、3D、文本和音頻等多種模態合成數據的能力...
閱讀原文

NotesGPT

NotesGPT是一款開源的AI驅動語音筆記工具,能將用戶的語音筆記快速轉錄成文本,自動生成行動項。工具基于包括Convex數據庫、Next.js框架、Together推理模型、...
閱讀原文

MEXMA

MEXMA是由Meta AI推出的一種新型的預訓練跨語言句子編碼器。基于結合句子級和詞語級的目標提升句子表示的質量。在訓練過程中,MEXMA用一種語言的句子表示預測...
閱讀原文

Lingua

Lingua 是 Meta AI推出的一個輕量級且獨立的代碼庫,旨在助力大規模訓練語言模型。基于易于修改的 PyTorch 組件,便于研究人員嘗試新的模型架構、損失函數和...
閱讀原文

VideoAgent

VideoAgent是一種自改進的視頻生成系統,由斯坦福大學、滑鐵盧大學、DeepMind等機構的研究人員共同推出。根據圖像觀察和語言指令生成視頻計劃,轉換為機器人...
閱讀原文

Llama Tutor

Llama Tutor 是一個基于AI的個性化學習平臺,由 Llama 3.1 和 Together AI 技術驅動,是一個完全開源的項目。支持用戶輸入想要學習的主題和教育水平,生成一...
閱讀原文

ComfyGen

ComfyGen是由NVIDIA和特拉維夫大學研究人員推出的一種文本到圖像生成系統,基于大型語言模型(LLM)自動創建與用戶文本提示相匹配的工作流,提升圖像生成的質...
閱讀原文

restorePhotos.io

restorePhotos.io 是一個開源的AI項目,專注于修復老舊和模糊的人臉照片。用GFPGAN機器學習模型,基于Next.js API路由處理上傳的照片,再返回修復后的照片。...
閱讀原文

PDFtoChat

PDFtoChat 是一個開源的創新AI項目,支持用戶基于自然語言對話的方式與 PDF 文件互動。工具基于最新的 AI 技術,包括 Together AI 和 Mixtral,理解用戶的查...
閱讀原文

Self-Taught Evaluators

Self-Taught Evaluators是一種新型的模型評估方法,基于自我訓練的方式提高大型語言模型(LLM)的評估能力,無需人工標注數據。從未經標記的指令開始,用迭代...
閱讀原文

TurboSeek

TurboSeek是一個開源的AI搜索引擎,由Together.ai提供技術支持。基于現代化的技術棧,包括Next.js、Tailwind、Bing搜索API及先進的語言模型Mixtral 8x7B和Lla...
閱讀原文

Napkins.dev

Napkins.dev是一個創新的開源項目,基于AI技術將用戶的截圖或線框圖快速轉換成可運行的網頁應用程序。該、項目背后依托于Meta的Llama 3.1 405B大型語言模型和...
閱讀原文