Tretas.org

Busca Tretas

Anúncios

Asneiras como a que aconteceu com o I-Online, ou como o fecho do Jornal Semanário em Outubro de 2009, ou ainda como o desperdiçar dos espólios do Primeiro de Janeiro, de valor incalculável, foram alguns dos motivos que nos levaram a criar, em fins de 2009, o projecto Busca Tretas, que apresentamos publicamente, pela primeira vez, neste post. O primeiro commit foi exactamente em 2009-10-31 00:44:14.

Os objectivos do projecto começaram por ser simplesmente termos uma cache dos artigos dos principais media on-line portugueses. A partir deste ponto, as coisas evoluíram de forma quase orgânica.


Reparámos, enquanto paralelamente a este projecto ia-mos trabalhando no tretas.org, que o acesso às notícias dos jornais on-line era dificil através dos motores de busca convencionais, dado que os resultados eram poluídos por inúmeros blogs, posts em fóruns, etc. Reparámos também que os serviços de busca na generalidade dos media on-line era muito pobre. O passo seguinte foi acrescentar ao sistema a capacidade de indexar os artigos recolhidos e fazer buscas sobre estes.

Assim, nascendo quase sempre das necessidades que tínhamos, quer pessoais quer a nível do tretas.org, foi desenvolvido o seguinte conjunto de características principais:

Temos na calha o desenvolvimento de outras ideias que julgamos interessantes:

Consideramos o software está em estado alfa, há inúmeras tarefas que têm de ser feitas, tais como, limpeza do JS que está espalhado por todo o lado. Fazer o refactoring de algumas partes do código, especialmente adaptar os scraper para ligação a um web robot (os jornais estão a abandonar a identificação dos artigos por ID, o que implica técnicas mais sofisticadas de busca dos artigos), etc (a lista TODO é grande demais para colocar aqui!).

É nossa firme convicção que este trabalho deveria ser feito a nível da Biblioteca Nacional, à semelhança do que já acontece com os jornais em árvore morta. As ferramentas extra de tratamento da informação, seriam apenas um bónus.

Finalmente, apenas uma pequena nota técnica:

A nossa ideia, do Projecto tretas.org, é continuar a utilizar este sistema quase de forma particular, dado que não temos po$$ibilidades de colocar o sistema em hardware decente, com um link que suporte mais do que o modestíssimo tráfego que agora suportamos.

Em todo o caso, resolvemos divulgar este trabalho na esperança de encontrar apoios que permitam levar este projecto para o nível seguinte.

Estamos, como sempre, abertos a críticas construtivas e propostas de colaboração.

Anúncios

Anúncios