Mensagem .doc
Se você não pode evitar o recebimento de
documentos com extensão .doc, que tal convertê-los facilmente em
formato .html?
Rubens Queiroz de Almeida
queiroz@ccuec.unicamp.br
Um dos maiores inconvenientes de quem usa sistemas Linux para seu trabalho
diário é o recebimento de documentos anexados gravados no
formato Microsoft Word (extensão .doc). Diante dessas situações,
existem duas alternativas possíveis: responder ao remetente e pedir
que reenvie o documento em formato mais aceitável, como texto puro
- que pode ser lido em qualquer computador e sistema operacional existente
na face da Terra -, ou então fazer uma conversão do formato
para algo mais aceitável, como o formato HTML.
O aplicativo Netscape Messenger pode ser configurado para realizar todas
essas tarefas automaticamente, a saber, a conversão do documento do
formato MS Word para HTML e a exibição do documento convertido
na tela do browser, a partir de onde pode ser salvo com outro nome ou como
for mais conveniente.
O programa que faz a conversão de arquivos no formato MS Word
para HTML costumava se chamar mswordview. O autor resolveu, entretanto,
renomear o produto para wv[1], simplesmente, visto que o nome original,
mswordview, era bastante semelhante ao nome de um produto da Microsoft,
o wordview. O produto é distribuído sob a licença
GPL, ou seja, qualquer pessoa pode utilizá-lo livremente. O wv é
uma biblioteca que permite acesso a arquivos gerados pelo software Microsoft
Word, nos formatos Word 2000, 97, 95 e 6, conhecidos internamente como
Word 9, 8, 7 e 6.
O programa é excelente e são raríssimos os casos
em que não consegue converter corretamente os documentos. Embora
não seja distribuído no formato RPM, o software compila facilmente
em ambientes Linux, bastando seguir as instruções, contidas
na distribuição original. A sua utilização
é também bastante simples, bastando digitar:
wvHtml arquivo.doc. Será gerado então um arquivo de igual nome,
porém com extensão HTML (em nosso caso, arquivo.doc.html).
O nome do arquivo gerado pode ser alterado, através da
especificação da flag -o: wvHtml arquivo.doc -o arquivo.html.
A utilização do software é extremamente simples,
como se pode ver pelos exemplos acima. Entretanto, existe um grande número
de opções de utilização que pode ser explorado.
Para maiores detalhes, ler a documentação do programa. O
programa wvWare pode ser baixado a partir do endereço
www.wvWare.com. Resta agora
criar uma shell script que faça automaticamente a tradução
de formatos e exiba o resultado em seu browser Web:
#!/bin/sh
msw -
# Tradução de arquivos MS
# Word 8 para HTML
# Queiroz: 29/11/1999
wvHtml $1 > /tmp \
tmp.htmlnetscape -remote \
`openURL(file:/tmp/ \
tmp.html)'
A segunda linha invoca o programa Netscape com a opção
-remote. Essa opção sinaliza ao Netscape para que realize
a ação solicitada utilizando uma sessão já
existente. Ou seja, se o browser Netscape já se encontra aberto em seu ambiente de
trabalho, a tela solicitada será aberta em uma das telas já
existentes. A ação solicitada, em nosso caso, é a leitura do
arquivo criado pelo programa wvHtml, /tmp/tmp.html. Criada a shell script, resta
agora configurar o browser para fazer uso desse recurso. Os passos
descritos a seguir aplicam-se às versões 4.x do Netscape.
Primeiramente selecionar, no menu Edit, o submenu Preferences. Selecionar
então, na opção Navigator, a opção Applications.
Procurar então na tela da direita uma entrada para Microsoft Word
Document. Selecionar essa entrada com o mouse e em seguida clicar no botão
Edit (ver figura 1). Na tela que se segue, na parte inferior, selecionar
o botão Applications e escrever no campo apropriado: msw %s (ver figura 2).
O programa msw deve estar em algum diretório que esteja definido
na variável de ambiente Path, para que possa ser encontrado pelo
Netscape. A string %s é interpretada pelo browser como um argumento
a ser passado ao programa especificado, msw. Dessa forma, sempre que solicitarmos
ao nosso browser a abertura de um documento com extensão .doc, através
do netscape messenger ou do próprio browser, a ação
tomada será a invocação da shell script msw que receberá
como argumento o nome do arquivo selecionado. Isto feito, aceitar as modificações,
clicando nos botões OK e pronto. Daqui para a frente o seu browser
Web está capacitado a traduzir automaticamente documentos nos vários
formatos do aplicativo MS Word, tanto aqueles que vierem anexados em mensagens
eletrônicas quanto aqueles que estiverem em seu próprio sistema,
quando estiver utilizando o seu browser como um gerenciador de arquivos.
Na hipótese de se desejar realmente salvar um arquivo anexado no
formato original, basta clicar com o mouse sobre o nome do arquivo, pressionando-se
simultaneamente a tecla [Shift]. O procedimento padrão será a conversão
e exibição na tela do browser. O pacote wv traz também
um outro utilitário que faz a conversão de arquivos em formato
MS Word para texto puro, chamado wvText. Pode-se assim realizar facilmente
a migração de documentos entre o formato .doc e qualquer
outro aplicativo ou editor de textos. Neste artigo abordou-se o uso desses
programas a partir do aplicativo NetscapeCommunicator, porém uma
grande variedade de aplicações é possível,
como a conversão em massa de documentos MS Word para seu equivalente
no formato texto ou HTML, invocando-se os aplicativos diretamente a partir
da linha de comandos ou através de shell scripts. Uma shell script
como a apresentada abaixo pode ser utilizada para tal tarefa:
#!/bin/sh
# conversão de arquivos no
# formato word para HTML
wordconv for file do \
wvHtml $file > `echo $file\
| sed `s/doc$/html/'`done
Para invocar essa shell basta digitar wordconv (ou qualquer outro nome
com o qual a shell tenha sido batizada) e fornecer como argumento o nome
dos arquivos a serem convertidos:
% wordconv *.doc
O sufixo .doc dos arquivos originais é substituído por
.html. Se desejarmos converter para o formato texto puro basta substituir
o comando wvHtml por wvText.