港口大数据应用建设中的关键技术

港口大数据技术在港口大数据应用中,首先需要搭建一体化的港口集团信息集成平台,这个集成的平台覆盖包括港口的生产管理系统、集装箱管理系统、散杂货码头系统、财务系统、设备管理系统、物资管理系统、人力资源管理系统、档案管理系统、固定资产管理系统以及工程管理系统等各类港口应用系统的数据。再利用数据仓库技术,对数据进行抽取、清洗、整合等数据采集及加工处理,实现港口基础应用系统的数据由原来孤立分散的、弱规则的业务数据的集成,形成按业务主题划分的港口主题数据库。最后引入可以对港口数据挖掘的算法技术应用,通过对大量的港口数据挖掘与分析,便可以得到对港口企业决策有一定指导作用的信息,从而让港口大数据对港口企业的管理决策起到支撑作用。
较为常见的港口大数据技术包括:港口数据采集、存储、加工及查询,港口数据挖掘及分析技术。具体如下:
1.港口大数据采集技术
在港口日常的生产业务流程的运作中,会生产比较高数量级的数据,因此,通过各种手段获取港口自身的这些数据显得格外重要。港口大数据的采集是大数据处理流程的最基础一步。常见的方法如下:
关系数据采集:建议采用hadoop生态系统中的sqoop组件,sqoop可以根据不同的数据采集特点基于开源产品进行定制化开发;
实时数据采集:建议采用消息队列kafka(apache开源)接收来自不同实时源的数据,后端采用流处理(spark streaming)技术对实时数据进行分析;
文本信息采集:建议采用基于hadoop生态体系中的flume组件。
2.港口大数据存储技术
目前最适用的技术是以 hadoop、 spark 为代表的分布式存储(如hdfs)和分布式计算框架,基于key-value型nosql数据库进行存储,例如:bigtable 、dynamo、hypertable、 casandra等。
3.港口大数据加工技术
运用数据仓库技术,将港口业务数据、港区设备运作数据、船舶装卸数据、船舶 ais 数据、运输量、货物类型和港口吞吐量等多源异构数据,经过 etl(extract 抽取→transform 转换→load 装载)的处理形成统一的港口数据仓库。常见的数据加工技术如下:
重复数据处理:排序、 分组、 聚类、vsm算法、n-gram方法等。
错误数据处理:利用统计分析或人工智能的方法检测属性可能的存在的错误值或异常值,分箱,按照简单的数据清洗规则库检测和修正数据错误。
噪声数据处理:聚类算法(孤立点挖掘),包括基于统计的孤立点检测、 基于距离的孤立点检测和基于偏离的孤立点检测。
缺失值处理:推导,用平均值、 中间值、最大值、最小值或更为复杂的概率统计函数值代替缺失的值,人工输入一个可接受的值。
4.港口大数据查询技术
目前,专门针对大数据查询及检索的方法主要有:布隆过滤器、 散列法、 索引、 倒排索引、 trie树等方法。
5.港口数据挖掘与分析技术
港口数据挖掘与分析是港口大数据技术的核心部分,传统数据分析方法有预测技术、 绩效分析、能耗分析、关联规则分析和聚类分析,而港口大数据较复杂,针对大数据分析的方法主要有:并行计算、 粒度计算、 数据挖掘等方法。比如利用港口大数据分析技术,可以基于ais船舶实时监控数据以及电子海图数据对港口拥堵情况进行统计,可以推断出任何时间港口的拥堵情况。
以上是在港口大数据应用建设过程中较长涉及的港口大数据技术。关于上述的列举的港口大数据技术以及更多大数据技术的详细介绍,后期可以参考港口大数据观察推出的港口大数据智库。