头像

晓燕

帅气的我简直无法用语言描述!

多模态AI:文本、图像与音频的融合

引言:单一模态的局限传统深度学习模型往往专注于单一模态——NLP处理文本,CV处理图像,语音处理音频。但人类感知世界是 multimodal 的:我们看到物体、听到声音、读到文字,然后综合理解。单一模...
头像1小时前
000