推文|深夜文_无耻之尤网

无耻之尤网

推文|深夜文

发布时间：2024-09-03 06:30:16

腾讯推出的M2UGen是一款多模态音乐生成框架，结合音乐和多模态任务，支持从文字、图像、视频生成音乐，并具备强大的编辑功能。

🔸 纯客户端实现，无需服务端支持，用户友好的方法易于访问

多模态模型将更多地用于文档处理（但首先需要降低成本/延迟）。

LLaVA在视觉聊天和推理问答方面表现出接近GPT-4水平的能力。在视觉聊天方面，LLaVA的表现相对于GPT-4的评分达到了85%，在推理问答方面更是达到了92.53%的超过GPT-4的新SoTA。LLaVA在回答问题时，能够全面而有逻辑地生成回答，并且可以以JSON格式输出。

当被问及把技术公开，其他友商跟进之后，会不会担心荣耀变成第二了，赵明表示：那是我们无能。”