10月29日,中国新闻史学会舆论学研究委员会首届中国国际舆论学年会暨海丝国际舆情研讨会在广东外语外贸大学北校区隆重举行。上午暨南大学新闻与传播学院副院长张晋升教授做了精彩发言。
张晋升教授
张教授首先从全球化层面介绍了国际舆情研究的背景及必要性。他引用了习近平主席在主持中共中央政治局第二十七次集体学习时所提出的观点阐明了背景。随着全球性挑战增多,加强全球治理、推进全球治理体制变革已是大势所趋。全球治理本身是一个协商过程,是一个参与和身份重塑的过程,要真正改变全球治理失灵现象,就需要以多元主义的世界观、以伙伴关系的思维方式、以参与治理过程的实践活动建构起一种真正的全球身份认同。而从传播的层面来看,传播治理作为全球治理的前提,又尤为重要。“中国如何加强同外界对话和沟通,虚心倾听世界的声音”对于消除各种偏见和误解,以客观、历史、多维的眼光观察中国、认识中国意义重大。有鉴于此,基于大数据技术应用的国际舆情研究,有助于我们更好地了解国际社会对中国的看法,进而明确中国国际关系中的角色定位和全球治理策略。
随后张教授简要介绍了大数据的相关知识。他指出,大数据处理的一般步骤为:采集获取,清洗导入,分析统计,挖掘预测,呈现展示。首先大数据是通过从大众媒体和UGC运用手动获取、RSS、API 、爬虫抓取等方式搜集,再通过从单机到集群,从历史到实时,从特定到广泛处理的步骤,实现数据可视化。
张教授还向我们介绍了几种常用的数据统计方法并对比了他们各自的优缺点。如采用搜索引擎、EXCEL等全自动单机式软件,其优点就是是容易上手 、无需服务器 、绘图灵活多样,但其缺点是无法获取大量数据 、较难获得规范数据 、无法处理大量数据。
而采用半自动单机式或者多机式的方法,如运用API、爬虫、Python等工具,其优点就是数据量较大 、格式较为规范 、可灵活绘制图表 ,但其缺点就是数据规模受平台限制 、需要一定编程能力 。
而如果采用全自动工具,也就是我们所说的利用别人的集群如Media Intelligence Company 、GDELT ,其优点是,只要有钱就能获得大量数据且都是自动统计分析、形成图表和报告,但缺点就是贵!需要很大的资金,而且数据规模受提供商策略限制,分析维度受提供商系统限制,原始数据较难获取。
还有就是自主研发型的就是建立属于自己的集群,如ELK Stack 等等多种来源。这种方式的优点就在于能够长期保留历史数据,能够灵活选择技术栈,并按需选择具体方案 ,而缺点在于需要很强的运算能力和海量存储以及技术人员,另外花费也是不小的。而暨南大学现在就是采用的自建的方法。
张教授还谈到真正的大数据处理需要云计算作为基础,云计算服务构架可分为IaaS、PaaS 和SaaS ,三者的核心区别在于其提供的资源类型不同。
最后张教授表示期待能将暨南大学大数据实验室打造成为国内一流的重点实验室,建立自身掌握核心技术的舆情分析预警系统,为发表高水平论文和申请重要项目提供支撑,成为满足相关教学需求的综合服务平台。