点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:聚焦AI数据开放共享 百度技术委员会主席吴华分享千言开源进展
首页> IT频道> 产业 公司 > 正文

聚焦AI数据开放共享 百度技术委员会主席吴华分享千言开源进展

来源:光明网2021-07-09 17:34

调查问题加载中,请稍候。
若长时间无响应,请刷新本页面

  7月8日,以“智联世界,众智成城”为主题的2021世界人工智能大会(WAIC)在上海正式开幕。今年大会邀请多位图灵奖得主、数十位学界专家、产业界大咖以及百余位行业领军人物等全球AI领域的重磅嘉宾,就AI技术开源、应用创新、人才培养等议题展开深度对话。作为国内AI“头雁”,百度也全方位参与大会多个环节,围绕AI生态发展、前沿科技以及AI人才等话题分享洞见。

  当前,数据已经成为了人工智能技术发展的重要生产要素,促进数据开放共享,对提升人工智能技术水平价值巨大。7月9日,在“AI时代数据开放共享创新论坛”上,数字技术开源生态探索暨白玉兰开源合作伙伴签约仪式举行,百度飞桨也参与其中,助力中国开源生态的共建。在随后的主题演讲环节,百度技术委员会主席吴华分享了百度开源数据集“千言”的发展近况和创新成果。

聚焦AI数据开放共享 百度技术委员会主席吴华分享千言开源进展

  百度技术委员会主席吴华

  吴华首先回顾了百度开源数据BRORD和“千言”的发展历程,她表示,在人工智能领域,数据至关重要。百度自2017年启动了AI公开数据集计划“BROAD”(Baidu Research Open-Access Dataset),并于2020年发布了中文开源数据集“千言”。截至目前,百度开源开放的数据集已涵盖了交通类多场景的细分数据集、大规模自然语言处理及知识图谱数据集、来自真实视频/OCR业务的数据集以及行业数据集等。

  吴华提到,目前的许多技术研发仅关注模型在单一数据集上的效果,然而自然语言处理技术在大规模产业化的应用中,面临着多领域、多场景等诸多挑战,具体可分为三大维度:全面性,即处理多个子任务的能力;泛化性,即跨领域数据上有泛化能力;鲁棒性,即模型或系统是否足够健壮。

  为了解决自然语言技术发展中所面临的挑战,百度、中国计算机学会、中国中文信息学会共同发起了“千言”数据共建计划。“千言”项目作为面向自然语言处理的中文开源数据共建项目,针对每个自然语言处理任务,均收集和整理多个开源数据集,进行统一的处理并提供统一的测评方式。“千言”项目期望从准确性、泛化性和鲁棒性等多角度对模型效果进行综合评价,可支持复杂知识构建、语义理解、语言生成、知识融合、多模态融合等丰富的任务类型。

  目前,“千言”项目已经针对8个任务,汇集了来自哈工大、清华、华为、中科院信息工程研究所等在内的11所高校和企业的28个开源数据集。此外,为了使“千言”能够提供一站式的数据浏览、下载和评测的科研体验,百度还对所有数据进行了处理,每个任务都有统一的数据格式和评测,并在此基础上提供了基线系统,帮助加速模型的研发。

  吴华还表示,在未来3年中,“千言”计划面向超20个任务,收集和建设不少于100个中文自然语言处理数据集,全面覆盖应用系统、语言理解、语言生成、知识图谱、多模态等多个领域。同时,也期待更多数据集作者能够加入共建,共同推动中文信息处理技术的进步。

  作为面向自然语言理解和生成任务的中文开源数据集合,为更好地支持NLP技术的发展和创新,“千言”项目连续多届支持了语言与智能技术竞赛以及CCF大数据与计算智能大赛。其中,2021语言与智能技术竞赛中,竞赛基于“千言”数据集,源于真实应用需求设置了机器阅读理解、多技能对话、多形态信息抽取三大任务。吴华在演讲中以其中的两大命题——机器阅读理解、多技能对话为例,详细论述了“千言”在检验模型的全面性、鲁棒性的优越性,并凭此从而推动技术更好地适应多领域、多场景的产业应用。

  产教融合是当前AI时代数据开源开放的另一重要话题。百度飞桨作为我国首个自主研发、功能丰富、开源开放的产业级深度学习平台,在“千言”等开源数据集的支持下正在积极赋能推动AI技术的开放共享,不仅推出一系列自然语言处理的配套课程,还基于丰富的产业实践助力高校体系化开设AI课程,在高校人工智能实践课的开展中新增开放了包含人工智能全技术方向和产业应用方向的50多个实战案例,到7月底将累积超过100个。未来,百度将持续关注科研和产业实践的创新发展,推动AI开放共享,融合创新。(李文)

[ 责编:李汶键 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • “粤桂协作”旅游专列开进大苗山

  • 春花映古城

独家策划

推荐阅读
2023年3月18日,山东日照经开区"天天有岗位月月有招聘"第六场专场招聘会在奎山体育中心举行,求职者向企业咨询岗位信息。该区先后组织6场专场招聘会,70余家企业发布岗位7000余个,现场达成就业意向1780人。
2023-03-19 10:41
2023年3月18日,河南洛阳,为期两天的中国小浪底轮滑文化节竞赛活动开赛。本次比赛设轮滑马拉松、速度轮滑(公路赛)、自由式轮滑等5大类10多个小项,来自全国各地154支代表队的2174名选手报名参赛。
2023-03-19 10:41
3月16日,北京,七彩云南亮相2023中国国际珠宝展。
2023-03-17 13:12
2023年3月16日,北京,中国国际珠宝展在中国国际展览中心开幕。
2023-03-17 13:12
2023年3月14日,中国国际羽毛球大师赛在江西瑞昌揭幕。
2023-03-15 10:08
2023年3月13日,安徽黄山休宁县,茶农在有机茶园采摘春茶。春回大地,嫩芽吐绿。眼下,休宁首批春茶已进入采摘期。
2023-03-14 10:06
2023年3月9日,湖南常宁,天气晴好,金色油菜花与村庄、田园、河流山峦相映成景,构成一幅秀美山水田园画。
2023-03-10 09:47
2023年3月9日,湖南张家界国家森林公园组织消防救援人员、索道维护人员和社会专业救援力量在天子山索道联合开展索道高空救援模拟演练
2023-03-10 10:09
2023年3月9日,为期三天的广州文交会在广交会展馆D区举行。广州文交会以“文化的广交会”为发展方向,以文化产业和旅游产业高质量发展为主轴,突出文化与旅游、科技、金融、商贸等领域融合发展等亮点。
2023-03-10 10:05
3月7日,“与春之和——2023江苏省小幅油画作品展”在苏州美术馆开展。据了解,展览共展出237位画家的237件作品,将持续至4月9日。此次展览是2023年苏州美术馆农历年后举办的首次展览。
2023-03-08 11:25
惊蛰节气,广西三江侗族自治县春茶已进入全面采摘期,侗乡茶农抢抓时节,采摘、加工早春茶。茶叶是三江侗族自治县的特色农产品,三江茶获批国家地理标志保护产品。
2023-03-07 10:12
2023年3月5日是"向雷锋同志学习"题词发表60周年,也是全国第60个"学雷锋纪念日",许多集邮爱好者来到"雷锋邮局"选购纪念邮品。
2023-03-06 10:45
2023年3月4日,在泰州市海陵区政府市民广场,志愿者为市民缝纫衣服。
2023-03-05 09:57
2023年3月3日,一艘货轮航行在杏花映衬下的长江重庆巫山段水域。随着气温的回升,长江三峡巫峡两岸,杏花竞相绽放,与碧绿的江水交相辉映,船行其间,如在画中。
2023-03-04 10:01
2023年3月3日,浙江省宁波市海曙区一广场的停车楼屋顶光伏项目年发电量约为154.18万度电,光伏发电二氧化碳年减排量达1537吨,推动城市绿色低碳发展,助力"双碳"目标实现。
2023-03-04 10:01
2023年2月28日傍晚,山东荣成爱伦湾海洋牧场,机动船拖着舢板披着晚霞驶向沿海码头,构成海上田园夕阳牧归图
2023-03-01 10:14
2023年2月27日,贵州省黔西南布依族苗族自治州兴义市万峰林街道,盛开的油菜花海与错落有致的乡村民居交相辉映,勾勒出一幅秀美的田园画卷。
2023-02-28 10:00
2023年2月26日,上海人民广场 人们在诗画里踏春乐休闲,草青树绿,鸟语花香,春日融融,俨然都市桃花源的美景。
2023-02-27 11:16
2023年2月24日至27日,山西省第十六届职业院校技能大赛高职组健康与社会照护、中职组医学检验技术赛项,在山西卫生健康职业学院举行。
2023-02-27 11:15
加载更多