Outils pour capturer et convertir le Web

Comment GrabzIt convertit-il HTML en DOCX

HTML peut représenter de nombreuses structures complexes telles que des DIV en ligne ou des SPAN côte à côte. Éléments HTML qui se chevauchent et bordures appliquées à différents éléments HTML. Pour la plupart, ce ne serait pas une approche judicieuse dans DOCX alors qu'il serait possible de créer floatEn combinant des éléments HTML avec des zones de texte, presque tout le contenu serait contenu dans des zones de texte, ce qui donnerait un document Word très laid et désordonné.

C'est à cause de ce problème que nous ignorons le floating des éléments HTML et des bordures de la plupart des éléments HTML. Cependant nous respectons les bordures sur certains éléments HTML comme les cellules de tableau et l'alignement sur les éléments d'image par exemple.

Cela signifie-t-il que vous ne pouvez pas placer du contenu côte à côte ? Non. Ceci est toujours possible en utilisant attributs CSS de colonne, les tableaux HTML et les taquets de tabulation comme indiqué ci-dessous.

Si vous souhaitez qu'un document HTML soit capturé exactement tel qu'il apparaît à l'écran, il serait préférable de convertir le HTML en PDF car le format de fichier PDF utilise un positionnement absolu.

Taquets de tabulation

Taquets de tabulation sont une fonctionnalité DOCX spéciale qui est activée si floatLes éléments HTML, avec alignement de texte, sont contenus dans un élément HTML de 100 % de largeur qui n'a pas d'alignement de texte spécifique lui-même. Ceci est important car cela signifie que l’alignement normal ne doit pas être appliqué aux éléments enfants. Cela se fait en utilisant text-align:start. Notez que les taquets de tabulation ne fonctionneront pas dans un tableau ou une liste.

Un exemple de ceci est présenté ci-dessous.

<div style="width:100%;text-align:start">
   <div style="width:50%;text-align:left;float:left">Aligned One</div>
   <div style="width:50%;text-align:left;float:left">Aligned Two</div>
</div>

Langue du texte

Pour que le texte du document DOCX ait une langue particulière. Le HTML L'élément tag du document HTML doit avoir un lang attribut. Ou un autre élément HTML à l'intérieur du document HTML tel qu'un P la balise doit avoir une langue spécifiée.

Si l'élément HTML enfant n'a pas de balise lang spécifiée, la langue revient à la langue par défaut du document. Si aucun n’est spécifié, l’anglais est utilisé.