Después de 5 años de desarrollo, la comunidad Apache ha lanzado la versión 1.0 de la herramientaTika.
Tika está destinada a la detección, extracción y análisis de metadatos y texto a partir de una gran variedad de formatos (1.200 en el momento actual)Entre los formatos se encuentran HTML, XML, Microsoft Office, OpenOffice/OpenDocument, PDF, EPUB, RTF, diversos formatos de compresión y empaquetado, audio/vídeo/imagen, etc.
Más información
No hay comentarios:
Publicar un comentario