中国工程院院士陈鲸:大数据运营
中国工程院院士陈静认为,使用大数据面临四大问题。一是数据的异质性和不完整性;第二:严峻的挑战是大数据处理的及时性;第三,是大数据应用中的安全和隐私保护;第四,高能耗。
“大数据包含与社会趋势、市场变化、技术发展和国家安全相关的重要战略资源。”中国工程院院士陈静认为,大数据将为中国处理器芯片的自主研发提供巨大机遇,将会有更多的新兴企业和商业模式应用数据技术。
然而,尽管大数据的前景是光明的,但在陈鲸看来,它面临的挑战也非常复杂和艰巨。首先是数据的异质性和不完整性。陈鲸解释说,大数据来自各种来源,越来越分散在不同的管理系统中。据不完全统计,目前收集的数据有85%以上是非结构化和半结构化的,因此不能用现有的简单数据结构来描述。然而,传统的关系数据库不能有效地处理这些复杂数据结构所表示的数据。数据的不完整性主要是指获取的大数据往往包含一些不完整的信息和错误的数据。因此,在分析和处理大数据之前,有必要有效地处理这些数据的不完整性。

其次,严峻的挑战是大数据处理的及时性。随着时间的推移,大数据中包含的知识价值也在下降,其价值与时效性密切相关。陈静表示,一般数据的样本量越大,分析处理时间就越长,但在许多情况下,大数据用户需要即时的数据分析结果。这就要求为结构复杂的数据建立一个合适的索引结构,索引结构的设计简单高效,并且可以在数据模式发生变化时快速调整。

第三是大数据应用中的安全性和隐私保护。“根据目前的数据分析,人们在互联网上的言行基本上掌握在互联网商家手中。例如,淘宝知道用户的购物偏好,腾讯知道用户朋友的联系方式,百度知道用户的搜索习惯等。目前,中国没有专门的法律法规来定义用户隐私。”此外,“如何确保大数据环境中信息共享的安全性?如何为用户提供更详细的数据共享安全控制策略?这些问题值得进一步研究。”。

第四是高能耗。根据2012年的数据,谷歌数据中心的年发电量约为3亿瓦,facebook的年发电量约为6000万瓦。最令人惊讶的是,在这些巨大的能量消耗中,实际上只有6% ~ 12%的能量用于响应用户的查询请求,而大部分能量用于保证系统服务器处于正常待机状态,以应对用户查询网络流量的突然高峰。

对此,陈鲸建议考虑采用新的低功耗硬件,在计算核心和缓存之间建立直接通道,在应用、编译器、架构等方面进行协同优化,并引入可再生新能源。
陈鲸还谈到了在大数据管理中易用性的挑战。“复杂的分析过程和难以理解的分析结果将限制各行各业从大数据中获取知识的能力。”他认为,大数据分析结果的可视化将是大数据管理可用性中需要解决的一个重要问题。
陈鲸还强调,中国迫切需要提出适合国情的大数据发展战略和技术路线。“大数据R&D计划是抢占信息技术发展制高点的重大举措。它将解决爆炸性数据增长带来的控制和利用问题,同时提高获取、管理、挖掘和利用大数据的能力,实现数据到知识和知识的转化。决策、决策和行动的迅速转变将推动人类社会进一步走向智能化。”
上一篇:羊年的祝愿——广东省自动化学会
下一篇:机器人四大家族竞相落户上海暗战
标题:中国工程院院士陈鲸:大数据运营 地址:http://www.zgshouguang.cn/article/2024.html
