请教文档翻译的实现思路/方向?

问题描述

请问有哪位大佬知道文档翻译的实现思路/方向/技术栈吗?比如 office 文档和 pdf。

已知信息

  • 文本翻译是通过机器学习
  • txt 翻译可以直接获取文件内容
  • html 翻译可以通过解析标签来获取文本内容

已知 word 文件 docx 的 document.xml 的主要内容分为段落 p: paragraph、连续文本区域 r:run,实际文本区 t: text,其中 p > r > t 且都可重复出现,pr 可嵌套出现。

目前方向

读取 document.xml 并解析内容,依次翻译后重新写入。

遇到的问题

1、对于实际显示的某个句子,体现在 document.xml 中,该句子可能会被多个 r任意位置打断,从而导致实际读取的句子不完整,导致翻译效果很差。

2、若将同一个 p 下的多个 r 合并后再行翻译,则会导致样式与原来严重不符。

期望得到的结果

期望得到关于文档翻译(文档解析也好,机器学习也好)的实现方向,或搜索关键词

在百度和谷歌上搜索了很久,几乎没有这方面的资料。

谢谢各位!

附言 1  ·  1个月前

暂不讨论直接对接第三方接口哈,我更好奇第三方是怎么实现/处理的

讨论数量: 2

如果是工作的话,直接花钱调用百度翻译api

1个月前 评论
zhaojjiang (楼主) 1个月前

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容,与人为善,比聪明更重要!