Mardi 6 janvier 2009

Aujourd'hui, mardi 6 janvier 2009, à 21h04, nous pouvons annoncer officiellement que notre projet est terminé!!
Youpi!!

Par agnieszka sophie marie
Ecrire un commentaire - Voir les commentaires - Recommander
Mercredi 17 décembre 2008
Quelques changements pas très évidents dans le script perl et on obtient ce qu'on voulait. En fait, en polonais, à cause de déclinaison, il faut chercher plusieurs mots dans le fichier dumpé. Sophie a créé de très belles expréssions régulières mais cela ne marchait pas comme il fallait: d'abord le minigrep ne les reconnaissait pas du tout, puis, après intervention de M. Fleury, il affichait toute une expression au lieu du mot cherché.
Enfin, ensemble, on a trouvé la résolution. Voici les changements a apporter dans le minigrep pour qu'il reconnaisse les regexp:

ligne 73:
$formein=~/MOTIF=(.*)/;

ligne 113:
while ($ligne =~/($forme)/g)

lignes 115-117:
    my $droite = $';
    my $formereconnue=$&;
    my $test=0;

ligne 127:
print FILEOUT "<li><font color=\"blue\"><b>Ligne n°$i</b></font> : $gauche<font color=\"red\"><b>$formereconnue<\/b><\/font>$droite </li>"; #formereconnue au lieu de forme
    $verif=1;


Si quelqu'un a besoin du script tout fait, je l'enverrai par mail.
Bon travail à tous!
Par agnieszka sophie marie
Ecrire un commentaire - Voir les commentaires - Recommander
Lundi 15 décembre 2008
Comme on a choisi de traiter 7 sens du mot mémoire en 3 langues, cela devient ennuyeux de faire les nuages des mots. On a pensé alors de faire une nuage par sens et par langue, ce qui nous donne 21 nuages... Certes, on pouvait tout mélanger mais cela ne donnerait pas le résultat fiable pour l'utilisation du mot en contexte ("écrire + carte mémoire" n'est pas correct mais "écrire des mémoires" si).
J'ai encore un problème avec le polonais comme les fichiers contexte sont en html et non en txt. Pour anglais et français ça marche.
Chez nous, le contenu de la liste des sens "donneesCAT.txt" est suivant: "1234567" avec les sauts de ligne entre les chiffres. C'était la façon la plus rapide de le faire: la syntaxe de la boucle est presque la même que dans le script principal:)
Le script:

#!/bin/bash
# fic=fichier contextes .txt
read chemin < rm_don.txt; #rep de travail, on peut très bien écrire ici le chemin normalement
for sens in `cat donneesCAT.txt`;  #liste des sens, entree manuellement /
Chez nous, le contenu de la liste des sens "donneesCAT.txt" est suivant: "1234567" avec les sauts de ligne entre les chiffres. C'était la façon la plus rapide de le faire: la syntaxe de la boucle est presque la même que dans le script principal:)

            {
            i=1
            for fichier in `ls $chemin/CONTEXTES/FR/$sens` #pour chaque sens, prend un fichier de contextes...
                {
                cat $chemin/CONTEXTES/FR/$sens/$i.txt >> $chemin/CONCATENATION/FR/sens$sens.txt; # ... et le concatène avec le prochain. Le fichier de sortie est dans le dossier CONCATENATION/'LANGUE' et il s'appelle "sens1.txt" ou "sens2.txt" etc.
                #echo "******************************" >> $chemin/CONCATENATION/FR/sens$sens.txt; #si on enlève le "#", avant "echo" on serait capable de vérifier les résultats: dans le fichier de concaténation, après le contenu de chaque fichier contextes, on aura une ligne de *********: si on a concaténé 10 fichiers, il y aura des lignes et 10 lignes de ******** entre elles.
                let i+=1;
                }
            }
echo "patience...";    # c'est un peu long dans cygwin, on se demande après quelques secondes si tout va bien... on le voit écrire "patience" alors:)
et on repète toute la boucle pour l'anglais:
for sens in `cat donneesCAT.txt`;
            {
            i=1
            for fichier in `ls $chemin/CONTEXTES/EN/$sens`
                {
                cat $chemin/CONTEXTES/EN/$sens/$i.txt >> $chemin/CONCATENATION/EN/sens$sens.txt;
                #echo "******************************" >> $chemin/CONCATENATION/EN/sens$sens.txt;
                let i+=1;
                }
            }
echo "fini";

Par agnieszka sophie marie
Ecrire un commentaire - Voir les commentaires - Recommander
Lundi 15 décembre 2008
Je me suis aperçue qu'on n'avait pas mis les modifications du script perl en ligne et que cela pouvait servir à quelqu'un. Voici donc les changements qu'on a fait, les mêmes qu'on a vu M. Fleury faire pendant le cours il y a quelques semaines: 

ligne 50:
version originale
if ((!($ARGV[0])) || (!($ARGV[1])) || (!($ARGV[2])))  {
notre version:
if ((!($ARGV[0])) || (!($ARGV[1])) || (!($ARGV[2])) || (!($ARGV[3])))  {
 #on rajoute un quatrième option que le programme va reclamer pendant qu'on le lance: On sera obligé alors de lancer le minigrep de cette façon:
perl .............../minigrepmultiligue.pl "UTF-8" fichier_d'entrée motif fichier-de-sortie.txt;

ligne 66:
originale:
my $fileout="resultat-extraction.html";
notre:
my $fileout=$ARGV[3];
#on utilise l'option qu'on a demandé de l'utilisateur tout à l'heure pour connaître le fichier de sortie






Par agnieszka sophie marie
Ecrire un commentaire - Voir les commentaires - Recommander
Mardi 9 décembre 2008
Et voilà, notre script principal est fini. Il faut encore ajouter quelques décorations comme des commentaires plus lisibles et plus pertinents et vérifier les chemins pour qu'ils puissent marcher correctement chez tout le monde qui le fera marcher chez lui.
On travaille encore sur le script additionnel qui concaténera les fichiers de contextes pour les nuages, et sur le site final.
Demain plus de précisions.

A.
Par agnieszka sophie marie
Ecrire un commentaire - Voir les commentaires - Recommander

Publicité

Présentation

Recherche

Calendrier

Novembre 2009
L M M J V S D
            1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30            
<< < > >>
Créer un blog sur over-blog.com - Contact - C.G.U. - Rémunération en droits d'auteur - Signaler un abus