18910140161

HTML-Apertium意外输出语句分为三部分-堆栈溢出

顺晟科技

2022-10-18 12:43:27

12

使用输入文件apertest.HTML

<代码><;H4>;<;a href=";/";rel=";nofollow";title=“ Vodafone Anuncia SU Plan para actualizar la Red de Cable de Ono a la Tecnología DOCSIS 3.1 para Poder ofrecer Conexiones Simétricas de 1 Gbps&”>;<;span Class=“ title&”>;Vodafone actualizarála Red de Ono para Poder ofrecer 1 Gbps Simétrico<;/span>;<;span类=";范围";>;144<;/span>;<;span类=";日期";>;2016<;/SPAN>;<;/a>;<;/H4>;

运行<h4><a href="/" rel="nofollow" title="Vodafone anuncia su plan para actualizar la red de cable de Ono a la tecnología DOCSIS 3.1 para poder ofrecer conexiones simétricas de 1 Gbps"><span class="title">Vodafone actualizará la red de Ono para poder ofrecer 1 Gbps simétrico</span> <span class="reach">144</span> <span class="date">2016</span> </a></h4> ,输出:

<代码><;H4>;<;a href=";/";rel=";nofollow";title=";沃达丰宣布其计划将Ono的有线网络升级到DOCSIS 3.1技术,以便能够提供1Gbps的对称连接";>;<;span Class=";title>;沃达丰将<;/span>;更新<;span CLASS=";TITLE";>;Ono的网络,使其能够提供1 Gbps对称<;/span>;<;span类=";范围";>;144<;/span>;<;span类=";日期";>;2016<;/SPAN>;<;/A>;<;:/H4>;

我期待着:

<代码><;H4>;<;a href=";/";rel=";nofollow";title=";沃达丰宣布其计划将Ono的有线网络升级到DOCSIS 3.1技术,以便能够提供1 Gbps的对称连接";>;<;span Class=";title>;>;沃达丰将升级Ono的网络,以便能够提供1 Gbps的对称连接<;/span><;span类=";范围";>;144<;/span>;<;span类=";日期";>;2016<;/SPAN>;<;/A>;<;:/H4>;

为什么要把句子分成三部分?


顺晟科技:

可以肯定的是,这是因为span被认为是单词绑定标记(如cat apertest.html | apertium -f html -u es-en<h4><a href="/" rel="nofollow" title="Vodafone Announces his plan to update the network of wire of Ono to the technology DOCSIS 3.1 to be able to offer symmetrical connections of 1 Gbps"><span class="title">Vodafone Will</span> update <span class="title">the network of Ono to be able to offer 1 Gbps symmetrical</span> <span class="reach">144</span> <span class="date">2016</span></a></h4> )而不是块级别(如<h4><a href="/" rel="nofollow" title="Vodafone Announces his plan to update the network of wire of Ono to the technology DOCSIS 3.1 to be able to offer symmetrical connections of 1 Gbps"><span class="title">Vodafone Will update the network of Ono to be able to offer 1 Gbps symmetrical</span> <span class="reach">144</span> <span class="date">2016</span></a></h4> )。如果标签是文字绑定的,Apertium可以自由删除或复制它。块级结构OTOH始终被保留。

如果使用某些类的span,就好像它们是块级标记一样,则可以预处理(turn all<em>into DIV),或者您可以使用https://github.com/tinodidriksen/transfuse/(底层格式处理库)来查看是否有可能对范围进行更细致的处理(如果这种情况经常发生,那么在Transfuse中添加一个新特性来允许您将某些范围标记为真正的DIV可能更有意义)。不过,预处理似乎是最简单的方法。

  • TAG:
相关文章
我们已经准备好了,你呢?
2024我们与您携手共赢,为您的企业形象保驾护航