AI發(fā)展方向——從pipeline到end2end

AIGC動態(tài)歡迎閱讀
原標(biāo)題:AI發(fā)展方向——從pipeline到end2end
關(guān)鍵字:模型,目標(biāo),濾波器,數(shù)據(jù),圖像
文章來源:JioNLP
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
荷樓~~,大家好,我是 JioNLP。
這些天我在做圖像目標(biāo)檢測與跟蹤。
我越做越感覺,這塊 AI 任務(wù)的建模方式和處理方式存在很多的問題。
我先分開說說目標(biāo)檢測和目標(biāo)跟蹤兩塊技術(shù)發(fā)展情況。
目標(biāo)檢測——yolo目前流行的目標(biāo)檢測還是YOLO,這個模型已經(jīng)迭代到了 YOLOv8,修修補補,更新迭代了這么多版本,我認(rèn)為不是一件好事,這說明目標(biāo)檢測領(lǐng)域存在瓶頸和局限性,已經(jīng)很長時間沒有人能做出突破了。
YOLO 系列模型最早是把 R-CNN 那套東西按在地上錘的,這其中蘊含了 AI 發(fā)展的非常典型的思路。
R-CNN 為代表的這類模型,有很強的人類對目標(biāo)檢測任務(wù)的假設(shè),那就是,先標(biāo)定不同大小的框,然后再對框住的圖像做圖像分類。
它把目標(biāo)檢測任務(wù)完全分割成了兩個階段,先選定框,然后再去做分類標(biāo)定類別。這是一種典型的 pipeline 式的處理方式。
而 YOLO 模型一舉采用 end2end 端到端的方式掀了 R-CNN 模型的桌子。
目標(biāo)檢測不就是想要框的坐標(biāo)、類別嗎?那神經(jīng)網(wǎng)絡(luò)直接預(yù)測并輸出坐標(biāo)、類別就好啦!別管坐標(biāo)這種概念對于圖像來說有多抽象。只要還歸香農(nóng)信息論管轄,那就交給神經(jīng)網(wǎng)絡(luò)去
原文鏈接:AI發(fā)展方向——從pipeline到end2end
聯(lián)系作者
文章來源:JioNLP
作者微信:jionlp
作者簡介:我是一只程序員,關(guān)注 AI、數(shù)據(jù)挖掘、數(shù)據(jù)分析、C、C++、音視頻、機器人。 同時還喜歡聊各種小說、故事。

粵公網(wǎng)安備 44011502001135號