做信息时代的代言人

当前位置:信息频道首页 > 最新新闻 > 正文

数据挖掘大战 机器怎么做到“见信如面”(1)

2018-04-09 17:52:54  作者:  来源:新华社  参与评论()人

  视觉中国

大数据杀熟?隐私换便捷?一度被热捧的大数据挖掘,近日站在了舆论的风口浪尖:一些商家利用大数据挖掘技术“杀熟”被网友亲测证实;百度董事长兼CEO李彦宏一句“中国人对隐私问题没有那么敏感”,更是让它的处境雪上加霜。大数据挖掘技术就像一位有了负面新闻的明星,霎时间光彩暗淡,似乎变成了偷人隐私的小贼。

《大数据时代》一书畅销之后的几年,大数据虽不再那么当红,但并未隐退,它的持续发展已成为人工智能得以实现的基础之一。

那么,大数据挖掘究竟是怎样的技术?从诞生发展至今,那些埋头苦干的技术人员又让它长了哪些本领?面对大数据难以管理的问题,有没有技术手段加以控制?

用户画像:机器给人类贴标签

“通过打标签的方式建立用户画像,是数据挖掘常用的一种技术。”北京大学计算机科学技术研究所多媒体信息处理研究室主任彭宇新教授解释,建立用户画像就是利用社交网络的信息,根据用户社会属性、生活习惯和消费行为等信息,抽象出一个标签化的用户模型,目标是使机器实现类似于人的“见信如面”的能力。社交网络数据是实现这一目标的基础,机器对人的“初相见”多是源自于对社交网络数据的挖掘。

标签,通常是通过对用户信息进行分析得到的高度精炼的特征标识,使得机器方便做信息提取、聚合分析等处理。标签本身无需再做过多文本分析等处理工作,这为利用机器提取标准化信息提供了便利。

“有了标签,计算机就能够自动处理与人相关的信息,能够通过算法、模型逐步‘理解’ 人。”彭宇新介绍,多个标签共同完成画像,整个过程可分三步走:一是采集数据,即基于文本的信息抓取,口语称为“爬数据”;二是用户行为建模,通过机器学习技术,形成算法模型,判断用户可能的一些行为;三是可视化展现,把机器运算出来的结果,通过能让人类理解的方式展现出来。这三步是多轮调整的,在实际应用中,根据结果的反馈,以及业务需求,可能进行二次建模等调整。

整个过程的影响参数是相对多元的,不同的行为类型,对于标签信息的权重影响也不同。以应用最广的商品营销为例,比如网售红酒,如果“购买”权重计为5,仅“浏览”计为1,加上浏览间隔、驻留时长、生活习惯等,通过复杂的算法最终呈现出一个标签的权重,再形成画像。

基于用户画像技术,大数据挖掘进行分类和关联规则计算等分析:例如喜欢红酒的用户有多少,喜欢红酒的人群中,男、女比例是多少,喜欢红酒的人通常喜欢什么运动品牌等等。

跨媒体智能识别:为计算机装上慧眼

“以前文本信息占主流,现在图像、视频等多媒体数据铺天盖地而来。”彭宇新说,后者目前占据大数据的80%以上。

数据类型发生的巨大变化,使得智能识别的任务更加艰巨。“管不住”和“用不好”的问题日益凸显。“机器只能读懂自己的语言。”彭宇新说,人类世界的所有语言都要转化为机器理解的语言才能被识别,以前只处理文本相对简单,而现在要加上复杂的图像、视频等数据。

关键词:机器
热点聚焦更多>>

符合首版5G标准的商用系统设备有望年底推出

“5G的发展需要各界的紧密合作和共同努力,建议凝聚产业合力,紧扣国际标准,以技术研发实验为平台,促进系统、芯片、终端、仪表等产业链各环节加速成熟。...【详情】

张居衍:乌兰察布下一个产业发展动力是数据开发

在今日举行的2018中国创业创新博览会大数据与智能+产业发展高峰论坛上,UCloud高级副总裁张居衍表示,乌兰察布有了这么多数据中心之后,乌兰察布市下一个产业的增长动力是数据开发。...【详情】

广州将成为全球科技创新精英定期聚集地

《财富》杂志总裁穆瑞澜(Alan Murray)日前在广州表示,《财富》杂志支持广州成为全球科技创新定期聚集地。11日,《财富》杂志在广州召开新闻发布会,宣布2018《财富》全球科技论坛将于11月29日至30日在广州举行。...【详情】

标准引领,快速推进IPv6规模部署

7月12日,国家下一代互联网产业技术创新战略联盟(以下简称:“产业联盟”)发布“基于云技术的IPv4-IPv6互联互通交换中心系列标准”。...【详情】

专题推荐更多>>

多语种融媒体服务平台为政府企业供提供一站式网站建设与传播服务

为政府企业供提供一站式网站建设与传播服务...【详情】

返回顶部 反馈 -