Revista Do Linux  
EDIÇÃO DO MÊS
  A música da Internet
  Banco de Dados
  Bibliotecas
  CD do Mês
  Em modo texto
  Governador do Software Livre
  Grandes e Pequenos
  Linux no iMac
  Mensagem .doc
  Operação Resgate
  Periféricos Complicados
  Segurança

Mensagem .doc
Se você não pode evitar o recebimento de documentos com extensão .doc, que tal convertê-los facilmente em formato .html?


Rubens Queiroz de Almeida
queiroz@ccuec.unicamp.br

Um dos maiores inconvenientes de quem usa sistemas Linux para seu trabalho diário é o recebimento de documentos anexados gravados no formato Microsoft Word (extensão .doc). Diante dessas situações, existem duas alternativas possíveis: responder ao remetente e pedir que reenvie o documento em formato mais aceitável, como texto puro - que pode ser lido em qualquer computador e sistema operacional existente na face da Terra -, ou então fazer uma conversão do formato para algo mais aceitável, como o formato HTML.

O aplicativo Netscape Messenger pode ser configurado para realizar todas essas tarefas automaticamente, a saber, a conversão do documento do formato MS Word para HTML e a exibição do documento convertido na tela do browser, a partir de onde pode ser salvo com outro nome ou como for mais conveniente.

O programa que faz a conversão de arquivos no formato MS Word para HTML costumava se chamar mswordview. O autor resolveu, entretanto, renomear o produto para wv[1], simplesmente, visto que o nome original, mswordview, era bastante semelhante ao nome de um produto da Microsoft, o wordview. O produto é distribuído sob a licença GPL, ou seja, qualquer pessoa pode utilizá-lo livremente. O wv é uma biblioteca que permite acesso a arquivos gerados pelo software Microsoft Word, nos formatos Word 2000, 97, 95 e 6, conhecidos internamente como Word 9, 8, 7 e 6.

O programa é excelente e são raríssimos os casos em que não consegue converter corretamente os documentos. Embora não seja distribuído no formato RPM, o software compila facilmente em ambientes Linux, bastando seguir as instruções, contidas na distribuição original. A sua utilização é também bastante simples, bastando digitar: wvHtml arquivo.doc. Será gerado então um arquivo de igual nome, porém com extensão HTML (em nosso caso, arquivo.doc.html). O nome do arquivo gerado pode ser alterado, através da especificação da flag -o: wvHtml arquivo.doc -o arquivo.html.

A utilização do software é extremamente simples, como se pode ver pelos exemplos acima. Entretanto, existe um grande número de opções de utilização que pode ser explorado. Para maiores detalhes, ler a documentação do programa. O programa wvWare pode ser baixado a partir do endereço www.wvWare.com. Resta agora criar uma shell script que faça automaticamente a tradução de formatos e exiba o resultado em seu browser Web:

#!/bin/sh
msw -
# Tradução de arquivos MS
# Word 8 para HTML
# Queiroz: 29/11/1999
wvHtml $1 > /tmp \
tmp.htmlnetscape -remote \
`openURL(file:/tmp/ \
tmp.html)'

A segunda linha invoca o programa Netscape com a opção -remote. Essa opção sinaliza ao Netscape para que realize a ação solicitada utilizando uma sessão já existente. Ou seja, se o browser Netscape já se encontra aberto em seu ambiente de trabalho, a tela solicitada será aberta em uma das telas já existentes. A ação solicitada, em nosso caso, é a leitura do arquivo criado pelo programa wvHtml, /tmp/tmp.html. Criada a shell script, resta agora configurar o browser para fazer uso desse recurso. Os passos descritos a seguir aplicam-se às versões 4.x do Netscape.

Primeiramente selecionar, no menu Edit, o submenu Preferences. Selecionar então, na opção Navigator, a opção Applications. Procurar então na tela da direita uma entrada para Microsoft Word Document. Selecionar essa entrada com o mouse e em seguida clicar no botão Edit (ver figura 1). Na tela que se segue, na parte inferior, selecionar o botão Applications e escrever no campo apropriado: msw %s (ver figura 2).

O programa msw deve estar em algum diretório que esteja definido na variável de ambiente Path, para que possa ser encontrado pelo Netscape. A string %s é interpretada pelo browser como um argumento a ser passado ao programa especificado, msw. Dessa forma, sempre que solicitarmos ao nosso browser a abertura de um documento com extensão .doc, através do netscape messenger ou do próprio browser, a ação tomada será a invocação da shell script msw que receberá como argumento o nome do arquivo selecionado. Isto feito, aceitar as modificações, clicando nos botões OK e pronto. Daqui para a frente o seu browser Web está capacitado a traduzir automaticamente documentos nos vários formatos do aplicativo MS Word, tanto aqueles que vierem anexados em mensagens eletrônicas quanto aqueles que estiverem em seu próprio sistema, quando estiver utilizando o seu browser como um gerenciador de arquivos.

Na hipótese de se desejar realmente salvar um arquivo anexado no formato original, basta clicar com o mouse sobre o nome do arquivo, pressionando-se simultaneamente a tecla [Shift]. O procedimento padrão será a conversão e exibição na tela do browser. O pacote wv traz também um outro utilitário que faz a conversão de arquivos em formato MS Word para texto puro, chamado wvText. Pode-se assim realizar facilmente a migração de documentos entre o formato .doc e qualquer outro aplicativo ou editor de textos. Neste artigo abordou-se o uso desses programas a partir do aplicativo NetscapeCommunicator, porém uma grande variedade de aplicações é possível, como a conversão em massa de documentos MS Word para seu equivalente no formato texto ou HTML, invocando-se os aplicativos diretamente a partir da linha de comandos ou através de shell scripts. Uma shell script como a apresentada abaixo pode ser utilizada para tal tarefa:

#!/bin/sh
# conversão de arquivos no
# formato word para HTML
wordconv for file do \
wvHtml $file > `echo $file\
| sed `s/doc$/html/'`done

Para invocar essa shell basta digitar wordconv (ou qualquer outro nome com o qual a shell tenha sido batizada) e fornecer como argumento o nome dos arquivos a serem convertidos:

% wordconv *.doc

O sufixo .doc dos arquivos originais é substituído por .html. Se desejarmos converter para o formato texto puro basta substituir o comando wvHtml por wvText.

 

A Revista do Linux é editada pela Conectiva S/A
Todos os Direitos Reservados.

Política de Privacidade