一个混乱的gpu/cpu联合调度大文本离线计算任务，求大佬指导设计方案，没有完整方案只提建议也接受

问答 / 0 / 10 / 创建于 4年前 / 更新于 4年前

之前的描述

问答：golang协程调度 - 线程数设置越多，资源利用率越低，执行时间无差别...

执行流程如图所示

一个混乱的gpu/cpu联合调度大文本离线计算任务，求大佬指导设计方案，愿意付费，没有完整方案只提建议也接受

执行过程说明:

解析bed文件，按业务逻辑拆分为多个region。(一次性执行完全部放入channel，与后续计算无竞争关系)
使用Region pool并行管理N个region处理线程，针对每一个region:
2.1. 初始化一个reader读取record(借助htslib)
2.2. 使用map对record进行配对(配对结果流出速度不稳定，可能相差不远就能配对，也可能距离几万个record才配对)
2.3. 配对后根据业务逻辑区分delins和nonDelins(1:9)
2.4. 汇集一组delins后(64)或一组nonDelins(4096)后分别提交给go worker和gpu worker完成这一组计算
2.5. 每一个region内初始化一个result，属于同一组的所有go worker和gpu worker将结果写入同一个result
2.6. 待record读取计算结束，将result写入result channel
writer线程处理result channel中的数据，输出到文件。

一些测试和结果和个人分析

1.执行读record，配对record然后丢弃，不做下游计算。
一个混乱的gpu/cpu联合调度大文本离线计算任务，求大佬指导设计方案，愿意付费，没有完整方案只提建议也接受

线程池使用的ants。根据其提供的接口动态监控正在执行的worker数量。
监控方法：

poolSize分配:
生产者线程: 即流程图中的regionPoolSize = 32
go计算线程: batchNum=64,PoolSize = 64
cuda计算线程：batchNum=4096,PoolSize = 64
执行现场:
生产者数量全程 = 32 为线程池最大值
go计算线程 30-50少数时候会达到64
cuda计算线程 30-50少数时候会达到64

协程调度 IO阻塞 cgo GPU调用

DPeng

8 声望

软件开发工程师 @ 北京吉因加科技有限公司

暂无个人描述~

0 人点赞

推荐文章：

更多推荐...

分享创造

DDD在Gin中的工程实践；（有人看嘛？）欢迎留言讨论 11 / 14 |

翻译

成为一名 Go 程序员的7个阶段 12 / 6 |

博客

[Golang三关-典藏版] Golang 调度器 GMP 原理与调度全分析 192 / 56 |

博客

GRPC 服务调用实践（一） 11 / 9 |

翻译

[奔跑的 Go] 教程十七、深入学习 Go 并发编程之通道（Channel） 24 / 4 |

讨论数量: 10

renxiaotu

377 声望

有demo吗？

主要是不知道具体是计算啥不好预测优化方案

4年前评论

DPeng （楼主）

我们做基因组学的数据比对，具体业务逻辑不重要。简单来讲，就是读取大文件的一行成对象，然后并行计算，然后把结果输出到文件。模型上是简单的生产者消费者模式。中间计算的部分，用gpu加速。

DPeng

8 声望 / 软件开发工程师 @ 北京吉因加科技有限公司

运行环境比较复杂。1.读数据依赖一个开源库，叫htslib，需要编译好配置动态链接库路径。2. 依赖cuda，需要有gpu和cuda运行环境。3. 程序有三个输入文件。这个我可以切到MB级别发出来。或者，如果您有兴趣帮我看看，我可以给代码，并配合你的猜想做一些测试，截屏或共享屏幕给你。

4年前评论

renxiaotu

代码可以放git仓库，附带切出来的文件，我会看下有没有思路，即使我没有优化方案，也许论坛里有大神能优化

DPeng

8 声望 / 软件开发工程师 @ 北京吉因加科技有限公司

得嘞，感谢感谢，不过，代码是团队集体开发的，应该不能直接公开出来，我重新画了一个流程图来解释执行过程，你先看看行嘛，或者您给我一个github或者gitee的账号，我建一个私库共享给你。

4年前评论

renxiaotu

那就不必了，我只是有兴趣看一下，但没有信心解决，我甚至不是个go开发者，有隐私性就不必给我了，看看有什么别的大神吧

GoNewBee

0 声望

有串行你的 cpu 就不会存在满载；

你在提交合并的时候应该采用异步提交，避免多协程的调度切换，至少会减少一部分。

4年前评论

DPeng （楼主）

我也是这么个解决思路。可以，目前测试下来，io与cpu操作串行比异步提交速度更快。这个我很疑惑。我做了这样一组测试：下游不做计算，读取对象后直接抛弃，一棵树(一个处理单元)需要500ms。下游计算与io异步提交，对象读取时间变慢了，达到1-10s不等。同时资源利用率很低。

test_chugs

0 声望

好奇2.4和2.5是怎么具体实现的

4年前评论

DPeng （楼主）

这个与业务逻辑相关性比较大。我尝试描述一下：我们处理的数据是基因测序数据，即数条position从start到end的record。这些record有很大的程度的覆盖(overlap)，但也不会重合。原始数据是以一条一条序列为存储单元的，我们想要的中间结果是以position为存储单元的，即一个位置一个对象(我们把它成为pile)，该对象记录都有哪些序列有这个位置。所以，我的最终结果是一个position做key(通过数组index+区域初始start确定)，pile做value的数组。然后遍历一个个序列，再遍历序列上的每一个碱基，将对应位置的信息更新到pileArray中的对应pile上。所以，对于一个处理区间，无论是用cpu还是GPU，串行还是并行，我都有一个pileupArray作为最终结果，多线程更新相应position的pile时，简单处理直接将对应的position加锁即可。这是关于2.5。如果上述内容能说明白的话，无论是gpu还是cpu，在处理时，我会设置一个批量，一批单独开一个协程，这个批可以是一条序列(最多协程)，可以是全部序列在一批(串行)，也可以设置64,4086等不等长批次，选择这两个值是根据经验值测出来的。

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容，与人为善，比聪明更重要！

帮助

一个混乱的gpu/cpu联合调度大文本离线计算任务，求大佬指导设计方案，没有完整方案只提建议也接受

之前的描述

执行流程如图所示

执行过程说明:

一些测试和结果和个人分析

推荐文章：

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

一个混乱的gpu/cpu联合调度 大文本离线计算任务，求大佬指导设计方案，没有完整方案只提建议也接受

之前的描述

执行流程如图所示

执行过程说明:

一些测试和结果和个人分析

推荐文章：

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

请登录

一个混乱的gpu/cpu联合调度大文本离线计算任务，求大佬指导设计方案，没有完整方案只提建议也接受