将 MongoDB 导出成 csv

本文介绍了如何使用集算器SPL语言辅助MongoDB,将存储的非结构化JSON数据转换为结构化数据并导出为CSV文件。通过示例展示了从MongoDB的carInfo集合中选取数据,处理cars字段并将结果写入CSV的详细步骤,展示了SPL在处理此类转换任务时的高效和便捷。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

原文链接:http://c.raqsoft.com.cn/article/1568624571679?r=CGQ

 

Mongodb 可以存储非结构化数据,尤其擅长存储 json 格式的数据。对于习惯于数据库表结构的用户或需要使用结构化数据的用户来说,往往希望能将非结构化的数据转换成结构化的数据,以方便后面的计算,而要将这些数据导出为标准的结构化数据经常存在一定的困难。针对这种情况,我们可以利用集算器 SPL 语言来辅助 MongoDB,方便地导出结构化数据,下面用例子说明。


Collection carInfo 的部分数据如下:
{
  “_id” : ObjectId(“5518f6f8a82a704fe4216a43”),
  “id” : “No1”,
  “cars” : {
    “name” : “Putin”,
    “car” : [“porche”, “bmw”]
  }
}
 
{
  “_id” : ObjectId(“5518f745a82a704fe4216a44”),
  “id” : “No2”,
  “cars” : {
    “name” : “jack”,
    “car” : [“Toyota”, “Jetta”, “Audi”]
  }
}
……

 

需要将其导出为CSV文件,期望的数据格式如下:

 

   a_100png

 

使用集算器SPL的代码如下:

 A
1=mongo_open("mongodb://localhost:27017/local?user=test&password=test")
2=mongo_shell(A1,"carInfo.find(,{_id:0})")
3=A2.conj((t=~,~.cars.car.new(t.id:id,   t.cars.name:name, ~:car)))
4=file("D:\\data.csv").export@t(A3;",")
5>mongo_close(A1)

A1: 连接MongoDB,连接字格式为mongo://ip:port/db?arg=value&…

A2: 使用find函数从集合carInfo中取数,形成游标。过滤条件是空,取出_id之外的所有字段。

A3: 取出需要的字段,拼接合成结构化二维表,结果仍然是游标。其中~表示A2中的每个document,并对cars.car字段进行拆分成行后组成序表,函数conj表示对序表纵向合并。

A4: 将A3导出为逗号分隔的csv文件,其中@t表示导出时带列名。SPL引擎会自动管理缓存,每次从游标取一批记录到内存进行计算。

A5: 关闭MongoDB。

如果用户想自己管理每批处理的数据,也可以用下面的代码:

 AB
1=mongo_open("mongodb://localhost:27017/local?user=test&password=test")
2=mongo_shell(A1,"carInfo.find(,{_id:0})")
3for A2,1000=A3.cars.car.new(A3.id:id,   A3.cars.name:name, ~:car)
4 =file("D:\\data.csv").export@ta(B3;",")
5>mongo_close(A1) 

A3: 循环从游标读数,每次读1000条到内存。A3的作用范围是缩进的B3到B4,其间可以用A3来引用循环变量。A3中的数据如下:

a_101png

B3:将本批次数据转换为结构化二维表,如下:

 

a_102png

B4:将本批次的计算结果追加到文件中,其中@a表示数据追加。

       简言之,SPL得到数据集合的游标后,将每个document按car字段拆分后组成序表,将序表合并或以追加方式保存为文件即可。显然,对于这类非结构化数据向结构化数据的转换,SPL语言的处理非常高效且简明。

### 将 MongoDB 数据导出CSV 文件 为了将 MongoDB 中的数据导出CSV 文件,可以采用多种方法。以下是几种常见的解决方案: #### 方法一:使用 `mongoexport` 命令行工具 命令行工具 `mongoexport` 是一种简单而有效的方式,适用于大多数场景下的数据导出需求。 ```bash mongoexport --collection score \ --type=csv --fields=name,age,province,Chinese,English,Math,Chemistry \ --out D:\tmp\exp_data.csv ``` 此命令会连接到本地运行的 MongoDB 实例中的 `student` 数据库,并从中提取名为 `score` 的集合里的文档,随后按照指定字段列表将其保存 CSV 文件[^3]。 #### 方法二:通过 Java 程序实现自定义逻辑 对于更复杂的需求或是希望集到应用程序内的场合,则可以通过编写 Java 应用来完这项工作。下面是一个简单的例子来展示如何操作: ```java import com.mongodb.client.MongoClients; import org.bson.Document; import java.io.FileWriter; import java.io.IOException; import java.util.ArrayList; import java.util.List; public class ExportToCsv { public static void main(String[] args) throws IOException { try (var client = MongoClients.create("mongodb://localhost:27017")) { var collection = client.getDatabase("student").getCollection("score"); List<String> lines = new ArrayList<>(); for (Document doc : collection.find()) { String line = String.format("%s,%d,%s", doc.getString("name"), doc.getInteger("age"), doc.getString("province")); // 添加更多字段... lines.add(line); } try (FileWriter writer = new FileWriter("D:/tmp/exp_data_java.csv")) { writer.write(String.join("\n", lines)); } } } } ``` 这段代码展示了怎样利用官方提供的 Java 驱动程序读取 MongoDB 文档并写入 CSV 文件中。注意这里仅作为概念验证用途,在实际项目里可能还需要考虑异常处理、性能优化等问题[^1]。 #### 方法三:借助第三方 ETL 工具或框架 除了上述两种方式外,还可以选择一些专门用于ETL(Extract Transform Load)过程的专业软件包来进行批量迁移作业。这些工具有助于简化流程管理以及提高效率。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值