Disenho para buscar OCR texto

14/05/2008 - 18:33 por JORGE VERA | Informe spam
Un saludo a todos
Situacion: Millones de documentos que han sido digitalizados, asi mismo el
texto ha sido extraido e inicialmente almacenado en un tabla con un campo
tipo NTEXT
La Consulta: EL usuario requiere BUSCAR por cualquier palabra en el
documento limite 4 palabras como podria ser el nombre completo de alguna
persona

Las soluciones tratadas:
1.- Realizar un simple
select * from OCRText where
OCRCampo LIKE '%palabra1 palabra2 palabra3 palabra4%'
El resultado ya lo saben...
toma muchisimo tiempo y el programa cliente me dio Timeout. El pograma
cliente esta desarrollado en vb.net

2.- Separe cada linea del texto (un aproximado de 50 a 60 lineas de texto
por cada registro) en otra tabla, cada linea maxima de varchar(255) y
aplique un indice a dicho campo
trate la misma consulta
select * from OCRLine where
OCRCampo LIKE '%palabra1 palabra2 palabra3 palabra4%'
me da el mismo resultado

3 mi jefe sugiere mantener el texto en archivos separados y hacer una
busqueda de archivos text usando algo llamado dtSearch.

les agradezco cualquier sugerencia.
 

Leer las respuestas

#1 Gux (MVP)
14/05/2008 - 22:23 | Informe spam
La funcionalidad especializada de SQL Server para buscar texto libre es
Full-Text Search. Es lo recomendado.


Gustavo Larriera, Microsoft MVP
https://mvp.support.microsoft.com/p...o.larriera
Este mensaje se proporciona tal como es, sin garantías de ninguna clase.



"JORGE VERA" wrote:

Un saludo a todos
Situacion: Millones de documentos que han sido digitalizados, asi mismo el
texto ha sido extraido e inicialmente almacenado en un tabla con un campo
tipo NTEXT
La Consulta: EL usuario requiere BUSCAR por cualquier palabra en el
documento limite 4 palabras como podria ser el nombre completo de alguna
persona

Las soluciones tratadas:
1.- Realizar un simple
select * from OCRText where
OCRCampo LIKE '%palabra1 palabra2 palabra3 palabra4%'
El resultado ya lo saben...
toma muchisimo tiempo y el programa cliente me dio Timeout. El pograma
cliente esta desarrollado en vb.net

2.- Separe cada linea del texto (un aproximado de 50 a 60 lineas de texto
por cada registro) en otra tabla, cada linea maxima de varchar(255) y
aplique un indice a dicho campo
trate la misma consulta
select * from OCRLine where
OCRCampo LIKE '%palabra1 palabra2 palabra3 palabra4%'
me da el mismo resultado

3 mi jefe sugiere mantener el texto en archivos separados y hacer una
busqueda de archivos text usando algo llamado dtSearch.

les agradezco cualquier sugerencia.



Preguntas similares