实际问题,长期目标是用一个万能的通用方式去解决。比如语言类,什么翻译,问答,分类,生成,一个模型给他搞定。 不仅语言模型要搞万用模型,视觉语音模型也要做一个究极巨无霸,直接把什么分类检测分割生成给他四合一了。 先掀起视觉风暴,革命图像任务,然后统一语言模型的范式,再融入多模态,语言图片和声音直接融合。” 孟繁岐侃侃而谈,把这时间段还在思索骨干神经网络怎么设计会更好一些