Buscador vertical brasileiro, Deep Peep, explora a fundo a web


Otodo-poderoso Google pode ter impressionado a todos quando levou o internauta para conhecer detalhes do fundo do mar, em seu belo programa Earth. No entanto, quando se trata do oceano da web, o buscador global ainda não superou pequenos concorrentes que conseguem explorar um terreno ainda virgem, o Deep Web, com informações específicas, escondidas sob o trilhão de webpages da superfície. A cientista brasileira Juliana Freire pertence a esse grupo de destemidos "garimpeiros", que inovam com ferramentas da tecnologia conhecida como busca vertical.

Ela admite que o Google é soberano na busca superficial "ainda muito útil". Mas os mecanismos de buscas desenvolvidos para explorar o fundo do oceano virtual, procuram muito menos a quantidade de informações de um tema – muitas delas inúteis – e focam mais na qualidade do conteúdo.


Juliana Freire, que é docente da Universidade de Utah, explica que search engines, como o seu DeepPeep (algo como "espiando o fundo"), empregam pura inteligência artificial , assimilando as necessidades, aprendendo o que devem "rastrear" no fundo.

O êxito desses "robozinhos", conhecidos como crawlers (seres rastejantes na tradução literal), chamou a atenção do jornal The New York Times, que destacou a sua eficiência em seguirem as trilhas que os gigantes buscadores não conseguem ainda com eficácia. Entre os brilhantes desenvolvedores citados pela reportagem do jornal, lá está em destaque o nome da cientista brasileira e seu projeto criado após inúmeros experimentos nos laboratórios da universidade, em Salt Lake City.

Formulários online – Cearense de origem, Juliana comanda uma equipe de estudantes fora-de-série no desenvolvimento do DeepPeep (www.deeppeep.org), um mecanismo de busca usado para o setor tecnológico, que explora o "fundo" da web e torna a busca extremamente específica, em pontos cobertos pela "superfície" de webpages. A engenhosidade do programa está em colocar seus rastejadores na trilha de web forms (formulários online) usados obrigatoriamente para acessar os bancos de dados. "O DeepPeep funciona exatamente como o Google. A grande diferença é que, ao invés de cobrir todas as páginas da web, focaliza em um subconjunto específico. O foco é em páginas que contenham formulários eletrônicos", explica a pesquisadora brasileira, em entrevista concedida ao DC Informática.

"Para achar essas páginas, o nosso crawler usa aprendizagem de máquina (machine learning). Ele é um classificador que aprende a identificar forms de um domínio", acrescenta.

A brasileira não esconde a surpresa com a repercussão de sua entrevista. "Fiquei muito impressionada com a quantidade de gente que viu a matéria no NYT. Em um dia, recebi mais de 100 e-mails e minha página no site da universidade atingiu 10 mil hits em 24 horas", comemorou. "Buscas verticais ou especializadas estão sendo muito difundidas nos Estados Unidos. A tendência é de crescimento desse mercado, que pode roubar um bom pedaço do market share de gigantes da busca", prevê Juliana Freire.

A versão beta de seu search engine especializado em web forms, como Juliana define, contém atualmente 13 mil formulários de sete domínios diferentes. "Na versão atual, mostramos apenas as páginas que contém os formulários. No entanto, temos 'rastejantes' que são capazes de completar formulários e obter as informações escondidas, mas isso não está ainda disponibilizado", explica a professora.

Graduada em Ciência da Computação na Universidade Federal do Ceará em 1991, Juliana foi para a cidade americana de Salt Lake City, em Utah, no mesmo ano e, após trabalhar no staff técnico do Departamento de Pesquisas de Sistemas de Dados da Bell Laboratories, logo obteve a cadeira de professora da conceituada Escola de Computação da Universidade de Utah, destacando-se em tecnologias de gerenciamento de dados para aplicações científicas e web.

Estudantes – No projeto do DeepPeep, conta com uma equipe de desenvolvimento de estudantes de doutorado brasileiros, além da colaboração de universidades brasileiras – Amazonas, Pernambuco, Rio Grande do Sul, entre outras. "No Brasil, existem pesquisadores de alto calibre em tecnologia, que já chegam aqui para estágio extremamente bem treinados. E pensar em protecionismo é bobagem. Além da troca de informações diárias com as universidades brasileiras, os alunos voltam para o País com uma grande bagagem para novas pesquisas brasileiras", observa Juliana.

A cientista disse que, para desenvolvimento de seus projetos, recebeu US$ 30 mil iniciais da Universidade de Utah e mais US$ 350 mil da National Science Foundation (o departamento que equivale ao CNPQ brasileiro). "Foi uma façanha, porque no governo Bush apenas 5% das propostas foram financiadas. Felizmente, a era Obama está garantindo muito mais dinheiro para pesquisas científicas", afirma Juliana.

Além do DeepPeep, outro projeto promissor destacado pela professora é o chamado VisTrails (www.vistrails.org). Trata-se de um software open source de visualização e análise de dados, que consegue revelar todo o histórico linear (etapas de modificações) de produtos digitais criados em programas como o Photoshop, "permitindo que outras pessoas aprendam sobre o desenvolvimento". Até o momento, o VisTrails já obteve 8 mil downloads em seu site. Este é mais um exemplo de sucesso de cientistas brasileiros em terras estrangeiras.