【写在前面】有人这样定义“大数据技术”:从各种类型的数据中,采用新处理模式快速获得有价值的信息,从而实现深度理解、敏锐发现与精准决策。它让看似无序的世界变得有规律可寻,它打破传统行业的瓶颈,用现代信息技术让生产升级、生活变得更好。
2017年,是大数据行业里程碑式的一年,“数字经济”首次写进《政府工作报告》,这被业内认为是一个信号——数字时代奔腾而来,将对中国经济未来发展方向产生深远影响。
在南京,大数据产业发展方兴未艾,近年来保持15%的快速增长。在全国31个重点城市的大数据发展指数得分排名中,南京位列第三。
但是对于普通人来说,“大数据”始终是一个漫步在“云端”的时髦词,它从哪里来、到哪里去?怎么改变生活和工作?会不会泄露你我的隐私?无数问题萦绕心头。记者深入产业一线,尝试解开这些数据“密码”。
位于软件谷的南京大数据产业基地。 通讯员 钱坤 记者 崔晓摄
我们身边大数据无处不在
【网购】 “大数据告诉我什么是潮流”
除了买房、租房,网购也用上了大数据。
南京新与力文化传播有限公司11年前从一本潮流杂志《YOHO!》起家,衍生出专卖潮牌的电商平台“有货”。作为全市大数据重点应用示范项目,该电商平台自上线以来,已实现日访问量2600万人次。
YOHO的受众群是18—26岁的年轻人,潮流是啥,可能很多人说不清楚。该企业创始人梁超表示,他也不懂,但大数据可以告诉他。公司目前的销售额90%来自线上App,对用户在线上浏览商品到最后购买的行为轨迹进行处理,针对每个人的不同喜爱,进行首页浏览设置、做出不同的推荐、提供不同优惠券,他们为客户提供的是“千人千面”的服务。同时,大数据还可以告诉他们用户所关注的商品价格、款式等信息,他们进行数据分析后,可以辅导电商进行商品推介,明确库存备货量等。
“这些年来,通过精准的大数据分析,我们帮消费者筛选出了1400多个国内外潮流品牌,其中不少是限量商品,与其他电商平台实现错位,例如我们与天猫有65%的品牌不相同、80%的货品不重复。”梁超说,因此在传统媒体日渐衰落的大背景下,这家靠做杂志起家的企业,不光电商生意在近3年实现每年翻一番,去年销售实现20个亿,并且杂志发行量达到每期40多万份,广告费一直在上涨。
下个月,有货的第一家线下实体店将在新街口开业。“实体店将完全与线上平台打通,例如客户在线上浏览过哪些产品,在实体店里试穿了哪些衣服,最终购买了什么品牌,对衣服的评价如何,所有数据信息都将与线上电商平台互联互通。”
【买房】 语音搜房甚至可以听懂南京话
很多南京市民对“365房产网”耳熟能详,事实上,如今的“365”早已不仅仅是一个房产信息交流平台,而是一家非常典型的大数据企业。
“我们所有的大数据,都来自于有意向通过“365”买房或租房的客户,与其他领域的大数据不太一样,买房租房的数据,活跃期特别短,最长不超过3个月。”江苏三六五网络产品技术高级总监陆洋介绍,这些大数据信息可以帮助判断南京楼市的走向和趋势,进行用户管理等。
经过多年积累,“365”早期搭建的大数据平台“用户CRM管理系统”已非常成熟完善,目前累计数据达到5000万,累计达成新房成交超过万套。去年开始,“365”网与南京大学合作开发了“推荐系统”,根据用户的浏览轨迹,精准进行新房和二手房的房源推荐。
陆洋说,最近,“365”网又开发了一项大数据新技术——“语音语义识别系统”。“例如,在我们的‘爱租哪’平台上,一般手动输入租房查询信息,最快操作一次也需要20秒钟,有了语音识别,对着手机说句话,10秒不到就能搜出想要的信息。”他介绍,“这是我们与科大讯飞合作推出的国内第一款专业房地产领域语音搜索——语音语义分析系统,加入了我们独特的数据分析,不仅能够迅速准确地识别南京所有楼盘的名字,甚至还能听得懂南京话。”
【健康】 大数据“把脉”基因密码
南京江北新区扬子科创中心,“藏着”去年落户在此的首个国家健康医疗大数据中心,目前该中心已引进数十台全球最先进的基因测序仪器。日前,记者前往探访,十多台洗衣机大小、四四方方的白色仪器正在紧张运行。负责该中心运营的南京诺禾致源生物科技有限公司负责人徐源介绍,这些仪器每年可服务30万—40万人次。未来,中国东部地区约4亿—6亿人的临床医疗、公共卫生等健康大数据将集中储存在此。未来,这里将是中国最大的人类全基因组测序中心。
扬子科创相关负责人向记者解释,每个人每天的作息、饮食、运动数据、家族病史、个人用药史,以及全基因组序列信息等等健康医疗大数据与我们的生活息息相关。健康医疗大数据中心的使命就解开这些数据背后的基因密码,将生命科学、医疗技术和信息技术结合,进行健康医疗大数据的管理、分析和服务。通过对健康医疗大数据的收集、整理、挖掘和跨库搜索,为个人精准健康和精准医疗、群体疾病研究和公共突发事件的决策提供支持。
据悉,去年10月,南京成为国家健康医疗大数据应用及产业园建设的首批试点城市,试点工程落户在扬子科创中心。目前,该平台已吸引了十余家国际、国内知名生物科技企业,包括诺禾致源、云健康、世和基因等9家知名企业。今后,所有这些大数据信息可以用来进行健康人的遗传病携带筛查、肿瘤风险预测、新生儿基因筛查等都将变得更精准和简单。“随着设备和试剂的不断更新完善,最快到今年底明年初,普通人进行一次全基因组测序的成本将从目前的1000美元降至几百美元。”徐源说。
【运输】 海量数据搭建高效物流平台
南京“福佑卡车”是一个专注城际整车运输的互联网交易平台,主营业务是为货主企业提供整车运输服务,融合大数据、移动互联网、人工智能技术,为货主企业提供智能运力、保险、金融等综合产品和服务。
截至目前,福佑卡车平台积累了197万次询价数据,平均每月新增10万次询价数据,这些数据能够反映价格波动规律和市场供需波动情况;拥有55万单交易数据,这些数据能够反映经纪人路线偏好数据和经纪人报价数据;沉淀了26万名司机信息,能够全面反映司机登录数据、经纪人与司机关系记录等。
“我们所有的数据都是基于平台真实的交易、服务和结算场景生成的数据。从交易到服务,从行为到信用,这些数据都是在平台上真实发生的,都能做到有据可查、有迹可循。”企业相关负责人介绍,目前福佑卡车已实现全国化网络布局,服务覆盖30个省份,93个大中城市。快递领域的京东物流、韵达、优速、百世、顺丰等;零担快运领域的德邦、远成、新邦、安能等;合同物流领域的招商物流、中外运、嘉里大通、荣庆、大田、宅急送等均与福佑卡车开展了业务合作。目前,福佑卡车平台日均询价量5500单,日均成单1500单,平台单月交易额突破4亿元。
快马争先南京抢占产业制高点
为什么要做大数据?
软件谷管委会副主任黄敖齐说:“这是顺势而为。软件产业每年的热点都不一样,但不管是现在风头正劲的互联网还是人工智能,说到底,它们的基础都是大数据。”
而在大数据公司江苏新视云科技股份有限公司总经理张长昊眼中,这是产业发展到一定阶段“水到渠成”的事:“很多大数据企业是做业务出身,当你在某个领域把业务做到一定规模,必然形成数据沉淀,自然而然就进入了大数据领域。就像阿里巴巴,淘宝做大了,‘卖东西的’转型为数据公司了。”
回顾南京大数据产业的发展“轨迹”图,南京市经信委副主任翟胜强说,作为工信部认定的首个“中国软件名城”,这些年南京软件业保持竞争力的秘诀就是不断寻找“新增长点”,快步从“人口红利”时代向更高附加值产品时代迈进。早在2013年,南京就在全国较早制定出台了《关于加快大数据产业发展的意见》。同年,南京首家以大数据创新应用为主题的产业园区——南京大数据产业基地在中国(南京)软件谷起步。
起得早,走得快。依托南京的产业基础和科教人才资源优势,目前南京市大数据产业发展状况在全国领先。2016年全市大数据产业规模同比增长18%,成为引领和拉动全市软件产业持续增长的新引擎。
2016年,中国大数据产业生态联盟发布“区域大数据发展水平评价体系”报告,南京市被评为2016年首批四个大数据发展五星级城市之一。2017年,国家大数据战略重点实验室发布的《大数据蓝皮书:中国大数据发展报告No.1》显示,南京在全国31个重点城市的大数据发展指数得分排名中位列第三,大数据发展水平居全国前列。
近日,由江苏省经济和信息化委员会组织的“2017年江苏大数据应用示范项目”评选结果揭晓,评出经济发展与产业升级、民生服务、社会治理三大领域60个大数据应用示范项目,其中优秀大数据应用示范项目20项。南京地区共有29项大数据应用项目入选,其中优秀大数据应用示范项目14项,占比过半。
数据为王产业盛宴中隐忧浮现
【盛宴】 价值释放,产业规模正急剧扩张
全球所掌握的数据,每18个月就会翻倍。到2020年,全球的数据量将达到40ZB,其中我国所掌握的数据将占20%。大数据,能够总结经验、发现规律、预测趋势、辅助决策,充分释放和利用海量数据资源中蕴含的巨大价值,下一个时代,“数据为王”已经成为业内共识。
阿里巴巴是最早提出DT数据时代的企业。马云说:“在大数据时代,特别是万物互联的时代,人类获得数据的能力以及处理的速度也远远超过想象,不管是AI也好,MI也好,我们对世界的认识将会提升到一个新的高度。数据也将成为主要的能源,大数据让计划和预判成为了可能。如果离开了数据,任何组织的创新都基本上是空壳。”
业内数据显示,2015年全球大数据产业规模达到了1403亿美元。到2020年,这一规模将达到10270亿美元。其中,2020年中国大数据产业规模或达13626亿元。
【隐忧】 掘金大数据,当下难有“隐私界限”
大数据崛起的背后,也有不小隐忧:大数据时代,你无法拒绝个人信息被收集。它就像一双无所不在的眼睛,静悄悄窥视你的一举一动。
今年5月,记者联系南京一家金融大数据企业采访时,企业老总思忖再三,婉言拒绝了。让他“被迫低调”的,是大数据行业当月发生的一起“地震”——大数据行业“第一股”、市值曾高达21亿元的——“数据堂”高管和业务人员被警方带走调查,多条数据线业务处于停摆状态,原因是涉及泄露客户隐私。
他说:“其实我们的数据主要靠平台数据商提供,以及在网络公开资料中用‘爬虫’等技术调,并没有去‘偷’。但大数据技术的厉害之处是,可以把老百姓点点滴滴不经意的行为串联起来,‘碎片’拼成人,甚至比你自己还了解自己。眼下,这种大数据‘画像’技术引发了关于隐私权的争议。我们公司今年刚刚涉足这部分业务,因为很多P2P公司有需求。很多老百姓惊讶,P2P公司放贷怎么那么快,并不是他们审核松,而是他们有大数据做支撑,知道你是不是讲信用、有财力。企业需要这种技术,但是技术提供商又不知道隐私的‘红线’在哪里,并没有人来告诉我们可以做到什么‘度’。”
这家金融大数据公司负责人还和记者坦言,自从进了大数据这一行业,他再也没用过机场的公共WiFi。蹭一次免费网络,扫一次二维码,可能从此你什么信息都是透明的。不可避免的,他自己的生活也在大数据影响下。“我还没结婚,从来没买过婴儿用品、结婚用品,经常会收到相亲活动短消息,估计我的‘单身’信息就是被大数据分析出来的。”
不仅在中国,其实在全世界,企业掘金大数据都没有明确的隐私界限。去年7月,谷歌首家省级AdWords体验中心落户南京,该中心将利用谷歌的大数据资源帮助企业在全球精准营销,这样的中心在中国已有数十家。记者看到,作为知名搜索引擎,谷歌每天有50多亿的点击量,业务涉及190个国家。谷歌的后台可以追踪到用户浏览网页时的每一个细节,点击什么页面、停顿时间,你的行为习惯、兴趣爱好将无一例外进入后台系统,形成大数据分析报告。
为了对大数据技术进行约束,今年6月1日《中华人民共和国网络安全法》实施,最大亮点是对个人信息进行保护。
8月16日举办的第三届中国互联网安全领袖峰会安全法治治理分论坛上,北京大学法学院教授、互联网法律中心主任张平的观点代表大多数百姓的诉求:个人信息的收集应以人身权或敏感信息不受伤害为基本原则。但她也直言,保护个人隐私面临一个巨大挑战是技术层面的。大数据的区块链技术是去中心化的,这就意味着没有人能够控制它,很多时候,用户都找不到真正的责任人。
从当前的现状来看,保护大数据时代下的个人隐私,不仅需要详细的立法,还需要更强大的技术支撑。