圖像和視頻數據的聯合訓練是有效