-->

domingo, 11 de novembro de 2007

O corretor ortográfico do Firefox 2.0

Eu sabia que isso existia, mas há meses eu uso o FF2.0 e nunca vi a cara do corretor. Procurei nos menus mais de uma vez e nem a mais leve pista foi encontrada. Nem mesmo o help ajudou.

Como eu não uso mesmo corretores ortográficos (é mais fácil eu cometer vários outros erros que os de ortografia) não dei muita bola para isso. Mas ultimamente eu tenho cometido uma quantidade enorme de erros de digitação onde até letras estão sumindo (é fácil culpar meu teclado Clone de R$20 por isso), por isso decidi descobrir por que a correção nunca deu as caras por aqui.

Eu comecei lendo esta explicação. Aí eu entendi que apesar de estar usando o FF 2.0 PT-BR, o dicionário PT-BR não vem com o produto (eu nunca ia imaginar isso).

OK. Segui as instruções. O dicionário foi instalado como um complemento qualquer e pediu para reiniciar o Firefox. Reiniciei e...

...Nada! Abri uma postagem nova aqui do blog e não teve jeito das linhas vermelhas aparecerem sob o texto que eu digitava propositalmente errado.

Então eu voltei ao gerenciador de complementos e o dicionário estava lá instalado mas desativado. Foi preciso ativar e reiniciar de novo o FF para que funcionasse. Isso não está nas instruções.

Se fosse o IE, era incompetência da MS...

Bom... funciona! Embora não seja lá muito completo. Por exemplo, não tem a palavra "Firefox" e tem a palavra "descongelamento" mas não tem "congelamento" (vá entender...) mas como você pode ir adicionando palavras o dicionário vai ficando mais esperto com o tempo. E de qualquer forma ajuda bastante a pegar os meus erros de digitação.

19 comentários:

  1. Estou usando isto desde a semana passada. Tentando me acostumar, mas ele sublinha tantas palavras (não conhece nada em inglês, muito menos termos técnicos) que eu tenho achado ele bem chato.

    Estou adicionando as palavras que ele não conhece e deveria conhecer (existem algumas absurdas), mas fiquei pensando: Seria ótimo se eu pudesse fazer um backup da minha lista personalizada de palavras! Serviria tanto para usar depois de formatar o computador, quanto para passar para um amigo usar.

    Encontrei alguns arquivos relacionados com o corretor ortográfico aqui:

    C:\Documents and Settings\[user]\Dados de aplicativos\Mozilla\Firefox\Profiles\[profile]\extensions\pt-BR@dictionaries.addons.mozilla.org\dictionaries

    Mas as palavras que eu adiciono não estão indo pra este arquivo. Estão indo para algum lugar que eu ainda não encontrei.

    Percebi que o corretor ortográfico é um tanto quanto inteligente! Ao digitar a palavra "atraso" no Firefox, ele não a sublinha, pois a conhece como sendo uma palavra digitada corretamente, mas você não encontra a palavra "atraso" no arquivo 'pt-BR.dic'. Ao invés de "atraso", você encontra "atrasar/R/T/F/N/C". Pelo que pude deduzir essas barras e demais letras ao lado da palavra fazem o corretor ortográfico mesclar as informações do arquivo 'pt-BR.dic' com o arquivo 'pt-BR.aff', que contém algumas informações que devem possibilitar o reconhecimento da palavra com outras terminações.

    P.S.: Encontrei o arquivo que guarda a lista personalizada de palavras:

    C:\Documents and Settings\[user]\Dados de aplicativos\Mozilla\Firefox\Profiles\[profile]\persdict.dat

    ResponderExcluir
  2. Eu descobri o dicionário quando fui postar num fórum e cliquei com o botão direito numa palavra, aí tinha lá "Add dictionaries".
    Depois de instalado ele funcionou normalmente, sem precisar ativar depois do reinício do programa.
    E realmente, faltam muitas palavras nele sim. Já adicionei muita coisa nova nele. Imagino se teria um jeito de salvar esse dicionário do jeito que ele está agora... Vou procurar me informar.

    ResponderExcluir
  3. Exatamente isso, rafa. Veja exemplo do /R: se for no pt-BR.aff você encontra isso:
    SFX R r va ar
    SFX R r vas ar
    SFX R ar ávamos ar
    SFX R ar áveis ar
    SFX R r vam ar

    Que instrui: se terminar em "ar", troca o "r" por "va"/"vas"/"vam" ou o "ar" por "ávamos"/"áveis" e considera as palavras derivadas como válidas também. E assim segue para as outras regras (/F, /C, /T, etc)

    Note que o "R" não quer dizer "Replace": é apenas o nome de uma das regras de substituição para verificar se dada palavra é válida.

    ResponderExcluir
  4. Rafa,

    Obrigado pela dica!

    persdict.dat é um arquivo texto comum do Linux (usa 0x0A com quebra de linha). Fica muito fácil criar um dicionário personalizado de forma automática. Basta gerar seu conjunto de palavras no Windows mesmo e converter para o formato Linux com o FixCrLf.

    ResponderExcluir
  5. Há um bug no dicionário padrão que faz palavras como "periódicamente" serem consideradas erradas e a sugestão ser "periódica mente".

    Deve ser um erro no mecanismo explicado por Kenshin.

    ResponderExcluir
  6. Aqui ele reconheceu corretamente.

    A palavra "periodicamente" não tem acento no o, pois a sílaba tônica da palavra é 'men'. (periodicaMÊNte)

    ResponderExcluir
  7. Arghhhhh!

    Estou cometendo erros de ortografia!

    Estou ficando velho...

    Eu não acentuo baseado em regras. Eu me baseio apenas em "saber" como a palavra é escrita. Reconhecer sílabas tônicas sempre foi difícil para mim e compensei montando um enorme dicionário na cabeça.

    ResponderExcluir
  8. Já vi de onde veio meu erro.

    "Períódica" e "Periódico" tem acento.

    Vou me vigiar quanto a isso.

    ResponderExcluir
  9. Uso há um bom tempo, e acho uma ferramenta fantástica, apesar de imperfeita, mas me poupa muito aborrecimento e me poupa dos erros de digitação ( e outros descuidos ). Antes para isso eu usava o Word para passar este pente fino ( o Thunderbird tem uma ferramenta parecida, que por sinal surgiu bem antes da do Firefox ).

    Mas além dicionário ser bastante incompleto ( como eu gostaria de ter o Dicionário Aurélio no banco de dados do FF ), ainda tem a chateação de se incorporar acidentalmente alguma palavra escrita errada sem ter uma forma simples de se voltar atrás. Isto sempre me da dor de cabeça, pois eu tenho dificuldades de encontrar no dicionário ( do FF ) a palavra incorporada erroneamente.

    Um dos motivos das minhas dores de cabeça com o dicionário é que no meu arquivo perdict.dat as palavras acentuadas aparecem com uma fonte irreconhecível, vejam o exemplo ( confortável ), e é assim com todas as palavras acentuadas.

    ResponderExcluir
  10. Intruder,

    Isso pode ter algo a ver com o suporte a Unicode no seu Windows. Aqui as palavras acentuadas estão aparecendo normalmente no Notepad.

    ResponderExcluir
  11. Eu acabo de constatar que realmente o arquivo está em Unicode (cada caractere acentuado é representado por dois bytes). Assim só aplicações que suportem Unicode vão mostrar a acentuação corretamente.

    ResponderExcluir
  12. Uso o ultraedit ( um notepad melhorado )

    E ai, como eu posso resolver isso ??? ( Vi que com o notepad até que ve os acentos corretamente, mas não se muito bem com os arquivos no formato Unix )

    O interessante é que no arquivo pt-BR.dic as palavras acentuadas estão perfeitas ( vistas pelo ultraedit ), acho que o problema pode ter mais a ver com a configuração do FF ( será ??? ).

    ResponderExcluir
  13. Intruder,

    pt-BR.dic não está em Unicode. Isso tem lógica. Como o dicionário só tem palavras em PT-BR não faz sentido desperdiçar bytes com codificação em Unicode. E então é usado o velho método da CodePage.

    Eu suponho que persdict.dat esteja em Unicode porque vai acomodar palavras em diversas línguas se você instalar diversos dicionários.

    Eu estou estudando um modo de resolver seu problema.

    ResponderExcluir
  14. O dicionário não vem com o Firefox devido a incompatibilidade de licença.

    O atual dic não é bom. Estamos adaptando o dic pt-PT para substituí-lo. Isso permitirá também aproveitar recursos do hunspell, o componente de ortografia do Firefox 3.

    A adaptação está lenta, pois é um trabalho chato. :) Aos interessados:

    http://groups.google.com/group/dic-br-bsd

    É possível que ele também possa ser incorporado ao Firefox, caso os autores usem licenças compatíveis.

    P.S. O perdict.dat é salvo com a codificação UTF-8

    ResponderExcluir
  15. Jeferson,

    Obrigado pelas informações!

    Eu já desconfiava que era Unicode UTF-8, baseado no que li nesta página.

    ResponderExcluir
  16. Mesmo tendo palavras pt-PT, recomendo o uso do nosso dic na fase de adaptação. Eu acho que ele corrige melhor na maioria das vezes.

    P.S. o Opera também tem um verificador ortográfico. Mas também vem desativado (acredito que por causa da licença do componente).

    ResponderExcluir
  17. Intruder,

    Que versão do Ultraedit você está usando? Eu testei a versão Ultraedit-32 professional 12.00 e ele reconheceu corretamente o arquivo como U8-Unix e exibiu a acentuação.

    O Ultraedit tem inclusive uma função Sort que facilita a busca por palavras.

    ResponderExcluir
  18. Encontrei uma solução freeware.

    O PSPAD reconhece o arquivo como UTF-8, exibe a acentuação corretamente, reconhece as quebras de linha Unix, faz a ordenação e salva ainda como arquivo Unix.

    ResponderExcluir
  19. O meu Ultraedit é de uma versão antiga, a versão é a 6.20 ( por sinal até esbarrar nesse problema não tinha nada contra ela ). Como gosto muito do programa vou atrás de uma atualização, mas testarei este seu programa ( PSPAD ) por via das dúvidas, quem sabe eu goste dele ???

    Jefferson, Já que você é um grande "futucador", porque será que tem muito site que o texto acentuado fica com a os caracteres errados no FF ? ( no IEca não acontece isso ). Provavelmente deve ser problema de fonte, imagino eu. No meu FF a fonte está configurada para Ocidental (ISO-8859-1), será que a acentuação ficaria direito se eu configurasse o FF para usar Unicode (UTF-8) ?

    ResponderExcluir

Siga as regras do blog ou seu comentário será ignorado.