Principaux formats de fichiers rencontrés sur le Web

Préliminaires

Tout fichier est un ensemble de bits formant une entité identifiée par une dénomination constituée d'un nom et d'une extension.
Tout fichier est identifié par deux parties distinctes : son nom et son extension sous la forme : NOM.EXT
Élément essentiel, l'extension identifie la nature du fichier, signale au système d'exploitation ce qu'il est capable d'en faire et quel logiciel il conviendra de lancer pour lire les informations contenues dans ce fichier. Par exemple, un fichier avec l'extension .doc lancera le logiciel Word et un fichier .xls, le logiciel Excel.
Certaines extensions plus ouvertes nécessitent une affectation manuelle dans la table de correspondance. Ce sera notamment le cas des fichiers images (.jpeg ou .jpg ; .gif ; .png, etc) qui peuvent être lus dans la plupart des visualiseurs d'images. Il faudra donc, dans ce cas, choisir un logiciel graphique ou encore le navigateur web Internet Explorer qui sera associé à telle ou telle extension.

Un fichier, au sens informatique du terme peut contenir tout type de document : logiciel, texte, son, vidéo, image, image animée...et même bien sûr du code source HTML. Le résultat dans ce dernier cas donne des pages Web.
Il existe, aujourd'hui, une très grande variété de formats informatiques. Il est utile de connaître les principaux formats de fichiers utilisés afin de mieux maîtriser leur manipulation, et surtout leur récupération lorsqu'on souhaite capturer des documents sur le Web.

Les formats du web

Les navigateurs interprètent directement un certain nombre de formats de fichiers, c'est-à-dire qu'ils sont capables d'en afficher directement le contenu. Voici une liste non exhaustive :

Famille de formats HTML

Format et extensions HTML (HyperText Markup Language) ou HTM pour les pages Web en elles-mêmes : Il est utile de préciser que le HTML est un langage de balisage de texte qui définit la mise en forme des pages d'un site web, à savoir la création de documents affichables par un navigateur web et pouvant contenir des liens hypertextes. Ce format est donc utilisé spécifiquement pour la rédaction de page web.

Principaux formats d'image fixe

GIF (Graphics interchange format) pour des icônes et les « puces » notamment ;
JPEG (Joint photographic expert group : format d'image compressée) pour des images plus importantes : concernent les images qui agrémentent les pages Web. C'est par ailleurs ce format d'image qui est le plus répandu en matière d'appareils photos numériques.
On trouvera également des images au format TIFF (Tagged image file format) pour les facsimilés de documents de texte, ou encore des images PNG (Portable network graphics), format universel développé dans le but de détrôner le format GIF.

Fichiers de programmes

On trouve également des fichiers de programmes qui permettent d'introduire des éléments dynamiques dans les sites web : les fichiers Java, Javascript, les CGI (Common gateway interface), le langage PHP, etc.

Les fichiers de texte

D'autres formats de fichiers peuvent se rencontrer lors des navigations. Ils sont notamment proposés en télédéchargement ; ils ne peuvent être directement interprétés et donc affichés par le navigateur. Ce sont le plus souvent des formats bureautiques qui nécessitent de posséder les logiciels appropriés pour les lire ou les lancer. Il en est ainsi des différents formats de fichiers de texte.

TXT : correspond à un fichier contenant du texte brut, c'est-à-dire en texte ASCII (American Standard Code for Information Interchange). Texte brut, sans aucun enrichissement. Ce fichier - qui se caractérise par l'absence tout balisage - a une présentation basique, ne contenant que du texte sans mise en page particulière (ni titre, ni paragraphe, etc.), sans enrichissement graphique tel que gras, italique...

DOC : format de fichier, développé par Microsoft et utilisé dans plusieurs autres traitements de texte. Ce format est devenu un standard de fait en raison de sa relative grande portabilité (compatible sur divers systèmes d'exploitation et divers types de matériels). Cette extension de fichier est donc utilisée pour représenter de nombreux formats de textes.

XLS (Excel) : format de fichier développé par Microsoft et utilisé notamment dans son tableur Excel.

RTF (Rich Text Format) : texte enrichi. C'est le format d'échange entreplateformes et traitements de texte différents. Permet de conserver les enrichissements graphiques et, en principe, de transférer un texte dans tous les environnements sans nuisance (PC, Mac,...) et dans tout type de traitement de texte. RTF est universellement reconnu. La quasi-totalité des applications de traitements de texte lisent le format RTF et parviennent à afficher ce type de fichier en conservant une présentation identique

Les fichiers PDF (Portable Document Format) sont un peu différents en ce sens qu'ils permettent de visualiser tout type de document (texte dessins, plans, cartes, pages html...) encapsulé dans un format dit Portable Document Format ou PDF, format créé par la société Adobe à partir de son logiciel Acrobat. L'encapsulage des documents au format PDF nécessite l'acquisition du logiciel Acrobat. En revanche sa lecture ne nécessite que la visionneuse (Acrobat Reader) qui elle, est diffusée gratuitement par une infinité de canaux. C'est cette diffusion large qui a fait le succès du format PDF. Aujourd'hui, le format PDF est toujours propriétaire mais sa source est ouverte, de sorte que d'autres applications peuvent l'utiliser.
L'ISO (Organisation intenationale de normalisation) vient d'adopter (en septembre 2005) la Norme d'archivage électronique ISO 19005 sous le titre Format de fichier de documents électroniques pour une conservation à long terme. C'est un format ouvert qui devrait permettre de pérenniser de l'archivage électronique.

Les fichiers audiovisuels

L'Internet est un espace privilégié pour le développement du monde du multimédia. Il est donc logique que le World Wide Web offre l'accès à une masse impressionnante de fichiers associant le son et l'image : de la vidéo avec, par exemple, des fichiers MPEG (Moving Pictures Expert Group) ou divX (Digital Video eXpress) pour l'échange et la visualisation de films via Internet ; ou encore le domaine du multimédia / interactif avec des formats comme le Flash ou SWF (Flash file format) qui permet de créer des animations ludiques.

Les fichiers compressés

Il existe encore d'autres types de formats de fichier, tels que les fichiers compressés qui permettent aux données de tenir moins de place, et donc de passer plus vite par le réseau. On peut ainsi compresser tout type de fichier informatique.
Il existe de nombreux utilitaires de compression qui définissent des formats spécifiques. Le principal de ces outils, et qui tend à devenir la norme sur Internet est WinZip. Les fichiers compressés par ses soins ont l'extension ZIP et nécessitent un « dézipeur »; c'est-à-dire la partie de logiciel capable de décompresser le fichier pour le rendre utilisable. Pour éviter cet écueil (posséder le dézipeur), on peut avoir recours à la compression de fichiers dits auto-extractibles, c'est-à-dire qu'ils se décompressent d'eux-mêmes sans outil nécessaire. Ces fichiers sont compressés avec le même logiciel (Winzip). Moyennant une opération de plus, qui occupe quelques dizaines d'octets supplémentaires, le fichier se trouve auto-extractible. Il prend alors l'extension .exe, ce qui crée le risque de le confondre avec un logiciel. Le seul fait de double-cliquer sur le fichier lance son extraction. Les récentes versions de Windows XP intègrent directement un utilitaire de compression de fichier ZIP.
D'autres formats de fichiers compressés existent tels que RAR, SIT, CAB, ACE, ARJ, LHA, LZH, LZX, ZOO ou encore ARC.

|cc| Didier Frochot & Fabrice Molinaro - 2004 - Février 2006

Voir aussi : Les fichiers en informatique - Récupérer du texte sur Internet

 

Fabrice MOLINARO