7月2日,由中国文学艺术界联合会、中国作家协会、北京市人民政府指导,北京市广电局主办的第三届北京网络视听艺术大会在北京召开。微博COO、新浪移动CEO、微博技术委员会主席王巍受邀出席,分享了视频大模型的发展与应用,为网络视听艺术的高质量发展提供创新思路。
王巍在分享中指出,视频大模型的发展分为内容理解与内容生成两大方向:内容理解依托类似ChatGPT的自回归生成技术,如同人类的眼睛和大脑;内容生成则借助扩散生成模型,类似人类的双手创作。如今大模型已发展到多模态理解和生成使用同一套“大一统模型”来融合的状态,能够同时具备大脑、眼睛和双手,在短时间内读懂视频内容并生成相关内容互动。
“微博已经把大模型的多模态能力应用到视频理解当中。”王巍表示,“我们利用多模态大模型的OCR等能力理解视频内的数据、文字、图片等内容。结合人物识别技术与微博积累的人物画像数据,精准定位视频中的关键人物。同时通过场景化语义理解,识别视频中发生的事件、用户情绪,甚至是人说话的语气语调,以此判断内容属于八卦类的娱乐视频还是新闻类的叙事视频。同时还能理解多国语言、多种方言生成的相应的字幕。”
王巍还以微博智搜举例。“微博智搜结合微博实时热搜数据、历史沉淀数据以及微博账号信用体系,可以逻辑化地梳理出热点事件的前因后果,把事件脉络、网友精彩观点汇总呈现给用户。”王巍表示,在这个过程中,视频理解能够通过大模型的多模态理解和融合能力,快速检索到相关视频为图文内容做补充,让用户能够更全面立体地了解相关热点。
谈及视频生成,王巍认为,视频大模型能够在不久的将来大大提升视频创作能力,但短期内仍面临挑战。他举例,一个电影完全可以由AI生成,为什么现在AI生成的电影并不多?主要原因是目前视频生成技术在某些方面仍有缺陷,比如生成的人物和场景内容仍然有AI味,不像真实世界看到的景象;再比如细节失真,例如手部变形、快速运动中人体的扭曲等问题。这仍有待于模型进一步发展,才能真正产生高价值的应用。
关于视频大模型的未来发展趋势,王巍指出,随着算力与技术的持续突破,视频理解与生成技术有望实现深度融合,形成类似人类大脑的全面感知与整合能力。这一突破将推动智能创作迈入“所想即所得”的全新阶段。
扫描二维码下载手机客户端
扫描二维码下载手机客户端
-->分享到
发布评论文明上网理性发言,请遵守评论服务协议
未登录
0/200发布发布全部评论0条
点击加载更多欢迎下载“北京日报”客户端发表评论
相关阅读热门报道换一批推荐阅读换一批精彩视频换一批猜你喜欢滚动北京国内国际北晚社会文娱体坛旅游文史阅读深度产经调查互联网美食北晚健康消费北晚行业北晚网摘网站地图新闻评论深度理论视频图库悦读互联网财经文化体坛科教消费矩阵网摘东城区政府网站西城区政府网站朝阳区政府网站海淀区政府网站丰台区政府网站石景山区政府网站门头沟区政府网站房山区政府网站通州区政府网站顺义区政府网站大兴区政府网站昌平区政府网站平谷区政府网站怀柔区政府网站密云区政府网站延庆区政府网站市人大市政协市监察委市高级人民法院市人民检察院市政府办公厅 市发展改革委 市教委市科委市经济信息化局市民族宗教委市公安局市民政局市司法局市财政局市人力社保局市规划自然资源委市生态资源局市住房城乡建设委市城市管理委市交通委市水务局市农业农村局市商务局市文化和旅游局市卫生健康委市退役军人事务局市应急管理局市市场监督管理局市审计局市政府外办市国资委市广播电视局市文物局市体育局市统计局市园林绿化局市地方金融监管局市人防办市信访办市知识产权局市医保局 京报媒体矩阵北京日报 北京晚报北京青年报北京商报音乐周报新闻与写作北京日报客户端长安街知事艺 绽北晚在线北京深读空间关于我们 京报集团京报移动传媒北晚在线版权声明联系我们 友情链接人民网新华网央视网光明网中国网中国日报网中国经济网千龙网今日头条百度新浪网易腾讯搜狐爱奇艺优酷
Copyright ©1996-2025 Beijing Daily Group, All RightsReserved
京公网安备11040202120009号 |工信部备案号:京ICP备14054880号-1
主管:北京日报报业集团 主办:京报移动传媒有限公司
网上有害信息举报专区
北京网络视听艺术大会丨微博王巍:未来智能创作将实现“所想即所得”网络2025-07-04 13:20
专注报道您想看的新闻
长按二维码查看文章详情
点击下载
发布评论文明上网理性发言,请遵守评论服务协议未登录
0/200登录发布全部评论0条
点击加载更多账号登录短信登录请输入手机号
融正配资-中国前十大证券公司排名-查配资App-配资门户网网站提示:文章来自网络,不代表本站观点。