14 nov. 2011

Apache Tika.

Después de 5 años de desarrollo, la comunidad Apache ha lanzado la versión 1.0 de la herramientaTika.
Tika está destinada a la detección, extracción y análisis de metadatos y texto a partir de una gran variedad de formatos (1.200 en el momento actual)
Entre los formatos se encuentran HTML, XML, Microsoft Office, OpenOffice/OpenDocument, PDF, EPUB, RTF, diversos formatos de compresión y empaquetado, audio/vídeo/imagen, etc. 
Más información

No hay comentarios: