AI項目和框架

OmniCorpus

OmniCorpus是一個大規模多模態數據集,包含86億張圖像和16960億個文本標記,支持中英雙語。由上海人工智能實驗室聯合多所知名高校及研究機構共同構建。OmniCo...
閱讀原文

EasyOCR

EasyOCR 是一個功能強大的開源OCR(光學字符識別)項目,支持80多種語言和多種書寫系統,包括中文、阿拉伯文和西里爾文。基于深度學習技術,提供高精度的文字...
閱讀原文

GptEngineer

GptEngineer 是一個基于 AI 技術通過簡單的文本提示快速生成網頁應用原型的開源工具。用戶只需描述需求,AI 能自動編寫并執行代碼,支持與 GitHub 同步和一鍵...
閱讀原文

STranslate

STranslate是專為Windows用戶設計的多功能翻譯和OCR工具。支持多種語言翻譯,具備劃詞、截圖、監聽剪貼板等多種翻譯方式,并提供多家翻譯服務接口。還擁有基...
閱讀原文

LTM-2-mini

LTM-2-mini是Magic公司推出的支持1億token上下文AI模型,能處理相當于1000萬行代碼或750本小說的內容。LTM-2-mini采用序列維度算法,計算效率比Llama 3.1 405...
閱讀原文

VectorVein

VectorVein 是一款開源的無代碼AI工作流工具,通過簡化的拖拽操作,讓用戶無需編程知識即可構建智能工作流,實現日常任務的自動化。它支持數據處理、分析和知...
閱讀原文

OpenCity

OpenCity是由香港大學聯合華南理工大學和百度共同研發的交通預測模型。OpenCity采用Transformer架構和圖神經網絡,通過大規模預訓練學習交通數據的時空依賴關...
閱讀原文

Eagle

Eagle是英偉達推出的多模態大模型,擅長處理高達1024×1024像素的圖像,顯著提升視覺問答和文檔理解能力。Eagle模型采用多專家視覺編碼器架構,通過簡單高效的...
閱讀原文

PGTFormer

PGTFormer是先進的視頻人臉修復框架,通過解析引導的時間一致性變換器來恢復視頻中的高保真細節,同時增強時間連貫性。該方法無需預對齊,基于語義解析選擇最...
閱讀原文

HivisionIDPhotos

HivisionIDPhoto 是一款基于 AI 的輕量級證件照制作工具,它能智能識別和摳圖,快速生成符合多種規格的證件照。支持自定義背景色和尺寸,未來還將推出美顏和...
閱讀原文

Step-1X

Step-1X 是階躍星辰推出的AI圖像生成大模型,采用自研的 DiT 架構,擅長深度語義理解和細節生成。Step-1X支持長達2000字符的復雜指令,能精準匹配圖文,適用...
閱讀原文

Melty

Melty是一款開源AI編程助手,專為提升開發者的編碼效率和代碼質量而設計。Melty通過實時理解開發者的編程活動,從終端操作到 GitHub 交互,提供智能協作和代...
閱讀原文

Yi-Coder

Yi-Coder是零一萬物推出的開源編程助手系列模型,專為提升代碼生成、理解、調試和補全等任務的效率而設計。Yi-Coder系列模型包含1.5B和9B兩種參數規模的版本...
閱讀原文

VideoGameBunny

VideoGameBunny(VGB)是一個專為視頻游戲設計的開源大型多模態模型,由加拿大阿爾伯塔大學研究團隊開發。它能理解和生成多種語言的游戲相關內容,支持高度定...
閱讀原文

NanoFlow

NNanoFlow 是一個高性能的服務框架,專為大型語言模型(LLMs)設計,以提高模型的推理吞吐量。它通過在單個設備內部并行使用計算、內存和網絡資源,優化了模...
閱讀原文