可用于解析 Excel 文件的程序语言
Excel 文件是常见的数据文件,数据分析过程中经常会用到。有时我们需要用程序代码对 Excel 文件进行一些自动化处理,这需要程序语言能够方便地解析 Excel 数据。
可以用于解析和处理 Excel 文件的程序语言一般有以下几种:
1、 常规高级编程语言,比如 Java
2、 Excel VBA
3、 Python
4、 esProc SPL
本文依次介绍以上几种程序语言解析 Excel 文件的特点,重点放在如何将 Excel 文件读出为结构化数据,之后是用来再计算或是入库或是其它用途,就只作简单介绍。
一、 高级语言(以 Java 为例)#
高级语言几乎都可以读取 Excel 数据文件,但要看有没有第三方提供专业的 API 来读取,若是没有,就需要程序员自己去了解 Excel 数据文件的结构,编写程序来读取数据,工作量非常大。幸运的是, Apache 为 Java 提供了开源包 poi 用以读写 Excel 文件,它能读取每个单元格的数据和属性。让我们来看看用 poi 如何将 Excel 文件读成结构化的数据。
先看一个很简单的文件:第一行是列标题,第二行开始直到最后一行都是数据行。文件内容如下图:
用 java 调用 poi 读取数据,写出来的程序是这样:
DataSet ds = null; // 此类用来保存从 Excel 中读取的数据,需要自己编写
HSSFWorkbook wb = new HSSFWorkbook( new FileInputStream( “simple.xls” ) );
HSSFSheet sheet = wb.getSheetAt (0); // 假定要读取的数据在第一个 sheet 中
int rows = sheet.getLastRowNum();
int cols = sheet.getRow(0).getLastCellNum();
ds = new DataSet( rows, cols );
for( int row = 0; row <= rows; row++ ) {
HSSFRow r = sheet.getRow( row );
for( int col = 0; col <= cols; col++ ) {
HSSFCell cell = r.getCell( col );
int type = cell.getCellType();
Object cellValue; // 单元格数据值对象
switch (type) { // 根据单元格数据类型,将格值处理成对应的 Java 对象
case HSSFCell.CELL_TYPE_STRING:
……
case HSSFCell.CELL_TYPE_NUMERIC:
……
……
// 格值处理代码比较长,此处省略
}
if( row == 0 ) ds.setColTitle( col, (String)cellValue );
else ds.setCellValue( row, col, cellValue );
// 如果是第一行,则将格值设成列标题,否则设成数据集单元格数据
}
}
这段代码只能读取最简单格式的 Excel 文件,中间还省略了很多格值处理的代码,但代码已经不短了。如果文件格式更复杂,比如有合并格、复杂的多行表头表尾、数据记录分散于多行、交叉表等,读取数据的程序代码就会变得更长更复杂。
可以看出,即使有了 poi 这样强大的开源包,使用 Java 来解析 Excel 仍然是非常麻烦的。
而且,高级语言只提供比较基础的底层函数,缺乏专业的结构化数据计算函数,比如数据集的过滤、排序、分组统计、连接等,都需要程序员自己去编写,因此即使数据读出来了,但要进行后续的计算,仍然有大量的工作要做。
二、 Excel VBA#
VBA (Visual Basic for Applications) 是 Visual Basic 的一种宏语言,主要能用来扩展 Windows 的应用程序功能,特别是 Microsoft Office 软件如 Word、Excel、Access 等。VBA 用于 Excel 的目的是为了增强 Excel 的灵活性和数据处理能力。VBA 可以直接获取单元格的数据,相当于天然有了解析能力,这一点比 Java 等高级语言方便了很多。但除此之外,它与高级语言一样,仍然缺乏专业的结构化计算函数,读取数据以后的后续计算,还是需要编写大量的程序代码。
比如写一段分组汇总 (对 sheet1 的 A 列分组,对 B 列求和) 的代码是这样的:
Public Sub test()
Dim Arr
Dim MyRng As Range
Dim i As Long
Dim Dic As Object
Set MyRng = Range(“A1”).CurrentRegion
Set MyRng = MyRng.Offset(1).Resize(MyRng.Rows.Count - 1, 2)
Set Dic = CreateObject(“Scripting.dictionary”)
Arr = MyRng
For i = 1 To UBound(Arr)
If Not Dic.exists(Arr(i, 1)) Then
Dic.Add Arr(i, 1), Arr(i, 2)
Else
Dic.Item(Arr(i, 1)) = Dic.Item(Arr(i, 1)) + Arr(i, 2)
End If
Next i
Sheet2.Range(“A1”) = “subject”
Sheet2.Range(“A2”).Resize(Dic.Count) = Application.WorksheetFunction.Transpose(Dic.keys)
Sheet2.Range(“B1”) = “subtotal”
Sheet2.Range(“B2”).Resize(Dic.Count) = Application.WorksheetFunction.Transpose(Dic.items)
Set Dic = Nothing
End Sub
毕竟我们解析 Excel 文件是为了后续计算和处理,仅仅解析本身是没有用处的。VBA 能天然解析 Excel 文件,但后续处理能力并不方便。
三、 Python#
Python pandas 提供了读取 Excel 文件的接口,对于前述用 Java 读取的那个简单格式的 Excel 文件,用 Python 读取的代码如下:
import pandas as pd
file = ‘simple.xls’
data = pd.read_excel(file,sheet_name=’Sheet1’,header=0)
参数 header=0 表明第一行是列标题,data 就是读出来的结构化数据集。
对于表头结构比较复杂的 Excel,比如下图:
用 Python 读取这个文件的程序如下:
import pandas as pd
file = ‘complex.xls’
data = pd.read_excel(file,sheet_name=’Sheet1’,header=None,skiprows=[0,1,2,3])
data.columns=[‘No’, ‘ItemCode’, ‘ItemName’, ‘Unit’, ‘Quantity’, ‘Price’, ‘Sum’]
在读取时用参数指定没有表头且读数时跳过前面 4 行,从第 5 行数据区开始读 (如果有表尾,还可以指定忽略最后几行),程序最后一行设置数据集 data 的列名。
Excel 文件中还常有交叉表数据,例如下图:
读取这个交叉表的程序如下:
import pandas as pd
file = ‘cross.xls’
data = pd.read_excel(file,sheet_name=’Sheet1’,header=1)
data = data.melt(id_vars=[‘Unnamed: 0’],
value_vars=[‘West’, ‘East’,’Center’, ‘North’,’South’, ‘Northwest’,’Southwest’],
var_name=’Area’,
value_name=’Amount’)
data.rename(columns={‘Unnamed: 0’: ‘Type’})
读出来的 data 数据如下图:
可以看出来,Python 读取 Excel 文件的代码比较简单,比 Java 前进了一大步。而且 pandas 封装了不少结构化数据的处理函数,对于后续计算也比 Java 和 VBA 提供了较好的支持。如果是可读入内存的小文件,它可以很简单地处理。
可惜的是,pandas 没有针对大文件提供直接分批处理的方法,无论读取还是运算仍然要自己写,非常麻烦。可参考 Python 如何处理大文件。
四、 esProc SPL#
esProc 是专业的数据处理工具,提供了各种读取 Excel 文件的方法,其脚本语言 SPL 中封装了丰富的结构化数据计算函数,可以完美地支持各种后续计算、数据导出及入库等工作。
esProc 读取 Excel 文件的程序非常简单,只要写一行代码就可以:
1、 简单格式
=file(“simple.xls”).xlsimport@t()
选项 @t 表示第一行是列标题
2、 复杂表头
=file(“complex.xls”). xlsimport(;1,5).rename(#1:No,#2:ItemCode,#3:ItemName,
#4:Unit,#5:Quantity,#6:Price,#7:Sum)
参数 1,5 表示读第 1 个 sheet,从第 5 行开始读 (也可以指定结束行),读数以后再用 rename 修改列名
3、 交叉表
=file(“cross.xls”).xlsimport@t(;1,2).rename(#1:Type).pivot@r(Type;Area,Amount)
pivot 函数中以 Type 分组对表数据进行行列转置,选项 @r 表示将列数据转换为行数据,转换后新的列名分别为 “Area”、“Amount”。
从代码上可以看出来,对于解析 Excel 文件,esProc SPL 比 Python pandas 更为简洁。事实上,SPL 做后续处理计算比 pandas 有更大优势,具体可参考桌面轻量级数据处理脚本。
而且,esProc 还可以很方便地进行大文件数据的读取和计算,它提供游标机制,允许数据分析师用类似处理小数据量的语法,直观地处理较大的数据量,程序代码和处理小文件一样简单,比如简单格式的大数据量文件,用游标读数的程序代码是:
=file(“big.xlsx”).xlsimport@tc()
通过比较,我们可以看到,Python pandas 和 esProc SPL 用于解析 Excel 文件的代码都很简练,而且也都具备丰富的结构化计算函数,可以实现日常工作中的数据处理。两者相比,esProc SPL 更为简洁,并且还能方便地处理大文件。
本作品采用《CC 协议》,转载必须注明作者和本文链接
推荐文章: