做信息时代的代言人

当前位置:信息频道首页 > 最新新闻 > 正文

数据挖掘大战 机器怎么做到“见信如面”(1)

2018-04-09 17:52:54  作者:  来源:新华社  参与评论()人

  视觉中国

大数据杀熟?隐私换便捷?一度被热捧的大数据挖掘,近日站在了舆论的风口浪尖:一些商家利用大数据挖掘技术“杀熟”被网友亲测证实;百度董事长兼CEO李彦宏一句“中国人对隐私问题没有那么敏感”,更是让它的处境雪上加霜。大数据挖掘技术就像一位有了负面新闻的明星,霎时间光彩暗淡,似乎变成了偷人隐私的小贼。

《大数据时代》一书畅销之后的几年,大数据虽不再那么当红,但并未隐退,它的持续发展已成为人工智能得以实现的基础之一。

那么,大数据挖掘究竟是怎样的技术?从诞生发展至今,那些埋头苦干的技术人员又让它长了哪些本领?面对大数据难以管理的问题,有没有技术手段加以控制?

用户画像:机器给人类贴标签

“通过打标签的方式建立用户画像,是数据挖掘常用的一种技术。”北京大学计算机科学技术研究所多媒体信息处理研究室主任彭宇新教授解释,建立用户画像就是利用社交网络的信息,根据用户社会属性、生活习惯和消费行为等信息,抽象出一个标签化的用户模型,目标是使机器实现类似于人的“见信如面”的能力。社交网络数据是实现这一目标的基础,机器对人的“初相见”多是源自于对社交网络数据的挖掘。

标签,通常是通过对用户信息进行分析得到的高度精炼的特征标识,使得机器方便做信息提取、聚合分析等处理。标签本身无需再做过多文本分析等处理工作,这为利用机器提取标准化信息提供了便利。

“有了标签,计算机就能够自动处理与人相关的信息,能够通过算法、模型逐步‘理解’ 人。”彭宇新介绍,多个标签共同完成画像,整个过程可分三步走:一是采集数据,即基于文本的信息抓取,口语称为“爬数据”;二是用户行为建模,通过机器学习技术,形成算法模型,判断用户可能的一些行为;三是可视化展现,把机器运算出来的结果,通过能让人类理解的方式展现出来。这三步是多轮调整的,在实际应用中,根据结果的反馈,以及业务需求,可能进行二次建模等调整。

整个过程的影响参数是相对多元的,不同的行为类型,对于标签信息的权重影响也不同。以应用最广的商品营销为例,比如网售红酒,如果“购买”权重计为5,仅“浏览”计为1,加上浏览间隔、驻留时长、生活习惯等,通过复杂的算法最终呈现出一个标签的权重,再形成画像。

基于用户画像技术,大数据挖掘进行分类和关联规则计算等分析:例如喜欢红酒的用户有多少,喜欢红酒的人群中,男、女比例是多少,喜欢红酒的人通常喜欢什么运动品牌等等。

跨媒体智能识别:为计算机装上慧眼

“以前文本信息占主流,现在图像、视频等多媒体数据铺天盖地而来。”彭宇新说,后者目前占据大数据的80%以上。

数据类型发生的巨大变化,使得智能识别的任务更加艰巨。“管不住”和“用不好”的问题日益凸显。“机器只能读懂自己的语言。”彭宇新说,人类世界的所有语言都要转化为机器理解的语言才能被识别,以前只处理文本相对简单,而现在要加上复杂的图像、视频等数据。

关键词:机器
热点聚焦更多>>

中国加博会助推东莞加工贸易实现转型升级

中国加工贸易产品博览会(简称“加博会”)执行秘书长、中共广东东莞市委常委、宣传部部长杨晓棠21日在第十届加博会成果发布会上表示,加博会已经在东莞连续举办了十届,规模越来越大,成效也越来越明显,功能也越来越突出...【详情】

太原2018年实施一批大数据重点项目

4月17日,从省经信委了解到,《山西省促进大数据发展应用2018年行动计划》日前正式印发,今年全省重点推进37个项目,其中我市9项。...【详情】

制造业创新道路将越走越开阔

国内产业界十分关注我国制造业技术创新目前处于什么方位,我们应对各种冲击的能力究竟怎样,本报记者就此采访了工业和信息化部有关负责人及行业专家。...【详情】

5G网络试商用最快明年在汉实现

“几秒钟就可以下载一部高清电影,真是难以想象!”21日,由武汉市网信办主办、湖北移动承办的首个5G公益性科普活动现场,测试设备上显示的5G网络下载速率平均值达到每秒1.25Gb,引得参观市民啧啧称奇。...【详情】

湖北潜江国际马拉松物联网等智能应用成亮点

人手一个智能腕表,“刷脸”安检入场,全程视频监控;当参赛者身体异常,监控平台收到报警信号后调度摄像头实时跟踪,自动分配就近救助人员……潜江返湾湖湿地国际马拉松赛21日开跑,约一万名选手参赛,人工智能、人脸识别等技术应用成为赛事一大亮点。...【详情】

专题推荐更多>>

多语种融媒体服务平台为政府企业供提供一站式网站建设与传播服务

为政府企业供提供一站式网站建设与传播服务...【详情】

返回顶部 反馈 -