résumé : too huge datafile ?

From: Antoine Guisan (antoine.guisan@cscf.unine.ch)
Date: Sat Feb 27 1999 - 12:34:59 MET


Bonjour

Merci pour les nombreuses réponses à ma question sur un problème de transformation de donnée texte (ascii) en binaire par le module TextToBin ! Le nombre de données (4000 lignes) n'était donc pas incriminé, mais bien Excel, qui laisse apparemment trainer (parfois) des caractères cachés après la dernière ligne de données. Ayant dès le départ remplacé les vides par des zéros dans toute les lignes, mon problème n'était donc pas lié à des cases vides en bout de ligne. Par contre, il a suffit que je sélectionne le tableau de données (seulement; et pas toute la feuille excel) et le
recopie dans une nouvelle feuille, puis que j'exporte cette nouvelle feuille en texte (sép. tabulation) pour que la conversion en binaire fonctionne ! Encore merci à Emmanuel Castella, Daniel Chessel, Pedro Gomes et Georges Carrel pour leur aide précieuse !

Antoine

Daniel Chessel a écrit:

> Les problèmes du type de celui d'Antoine Guisan ont souvent une solution simple en utilisant la remarque qui suit.
>
> Les tableaux écologique en présence absence (0-1) ou en notes d'abonce (0à7) sont souvent volumineux, ont de nombreuses cellules et peu d'information par cellule. En particulier l'absence d'un taxon par relevé est souvent saisi par une case vide. Si c'est le cas il faut que chaque la dernière colonne soit pleine et remplie de 0 pour les absences. A ce moment Excel garde dans son format texte autant de tabulations qu'il faut pour positionner la dernière cellule non vide.
>
> En cas de difficultés il vaut mieux remplir tout le tableau. Remplacer rien par 0 (cellule entière) met des 0 dans toutes les cases vides. De manière plus générale et c'est vrai pour les fichiers de variables qualitatives (numéros de 1 à n), le contrôle des très gros fichiers est plus simple en utilisant dans les cases 0, 1, ..., 9, A pour 10, B pour 11, ..., Z pour 35 (au delà l'opération n'est plus possible) et en sauvegardant le fichier en texte. L'ouvrir ensuite avec un traitement de texte et supprimer toutes les tabulations. On obtient des fichiers sans séparateur du type :
>
> 00000000000201333533443
> 00120010112234422131222
> 11201010000001210000000
> 14010104000000020000000
> ....
> 10002100101000000000000
> 00000000011000000000100
> 32000310100000000000000
> 01001221100000000000000
> 00000000043430000000000
> ....
> 00000000100000000110000
> 01010000000000000100000
> 11000000000000000000000
>
> ou
>
> 42111212225
> 42112312222
> ....
> 41121212225
> 41123414234
> 41111314233
> ....
> 14122314132
>
> De nombreuses cartes de données dans Data.hyp contiennent des infos de ce type.
>
> Le fichier s'il s'appelle XXXXX.car est transformé automatiquement en binaire (XXXXX) par AdeTrans ou explicitement par TextToBin: Char->Binary
>
> L'intérêt est que le contrôle du nombre de valeurs par lignes est très simple puisque toutes les lignes contiennent exactement le même nombre de caractères et qu'il n'y a plus qu'un seul retour-charriot en fin de lignes commme séparateur. On peut importer sans problèmes jusqu'à 32000 relevés à 8000 colonnes.
>
> Cordialement
>
> >J'essaye désespèrement de convertir un fichier texte sép. tabulation
> >(matrice espèce de 0 et de 1) en binaire. J'obtient chaque fois le
> >rapport suivant :
> >
> >Ascii file D:\ade_data\odo\sp.txt does not contain a
> >constant number of numerical figures by row
> >-----------------------------------------------------
> >No file creation
> >-----------------------------------------------------
> >
> >bien que dans mon fichier d'origine, les colonnes aient toutes le même
> >nombre de lignes et vice versa. Le problème peut-il venir du fait qu'il
> >y ai près de 4000 lignes (3768 exactement) pour 85 colonnes ?
>
> > Antoine Guisan



This archive was generated by hypermail 2b30 : Sat Feb 10 2001 - 10:35:57 MET