一个直观的解释是训练数据不足,但更本质的问题在于表示空间不匹配。已有研究表明,LLM 已经在统一的语义空间中编码了丰富的跨语言知识,并且在处理多语言文本时会专门「经过」这个统一语义空间(如英语表示空间)。这意味着, LLM ...
打破多模态视觉+语言拼接套路! 腾讯开源Penguin-VL,直接用纯文本LLM训视觉编码器。 这项研究跳出了先有传统视觉 backbone,再接语言模型的常规路径,直接从text-only LLM初始化vision encoder。 并在2B/8B紧凑参数规模下的文档理解、长视频时序定位等复杂任务中表现出 ...