Disenho para buscar OCR texto

14/05/2008 - 18:33 por JORGE VERA | Informe spam
Un saludo a todos
Situacion: Millones de documentos que han sido digitalizados, asi mismo el
texto ha sido extraido e inicialmente almacenado en un tabla con un campo
tipo NTEXT
La Consulta: EL usuario requiere BUSCAR por cualquier palabra en el
documento limite 4 palabras como podria ser el nombre completo de alguna
persona

Las soluciones tratadas:
1.- Realizar un simple
select * from OCRText where
OCRCampo LIKE '%palabra1 palabra2 palabra3 palabra4%'
El resultado ya lo saben...
toma muchisimo tiempo y el programa cliente me dio Timeout. El pograma
cliente esta desarrollado en vb.net

2.- Separe cada linea del texto (un aproximado de 50 a 60 lineas de texto
por cada registro) en otra tabla, cada linea maxima de varchar(255) y
aplique un indice a dicho campo
trate la misma consulta
select * from OCRLine where
OCRCampo LIKE '%palabra1 palabra2 palabra3 palabra4%'
me da el mismo resultado

3 mi jefe sugiere mantener el texto en archivos separados y hacer una
busqueda de archivos text usando algo llamado dtSearch.

les agradezco cualquier sugerencia.

Preguntas similare

Leer las respuestas

#1 Gux (MVP)
14/05/2008 - 22:23 | Informe spam
La funcionalidad especializada de SQL Server para buscar texto libre es
Full-Text Search. Es lo recomendado.


Gustavo Larriera, Microsoft MVP
https://mvp.support.microsoft.com/p...o.larriera
Este mensaje se proporciona tal como es, sin garantías de ninguna clase.



"JORGE VERA" wrote:

Un saludo a todos
Situacion: Millones de documentos que han sido digitalizados, asi mismo el
texto ha sido extraido e inicialmente almacenado en un tabla con un campo
tipo NTEXT
La Consulta: EL usuario requiere BUSCAR por cualquier palabra en el
documento limite 4 palabras como podria ser el nombre completo de alguna
persona

Las soluciones tratadas:
1.- Realizar un simple
select * from OCRText where
OCRCampo LIKE '%palabra1 palabra2 palabra3 palabra4%'
El resultado ya lo saben...
toma muchisimo tiempo y el programa cliente me dio Timeout. El pograma
cliente esta desarrollado en vb.net

2.- Separe cada linea del texto (un aproximado de 50 a 60 lineas de texto
por cada registro) en otra tabla, cada linea maxima de varchar(255) y
aplique un indice a dicho campo
trate la misma consulta
select * from OCRLine where
OCRCampo LIKE '%palabra1 palabra2 palabra3 palabra4%'
me da el mismo resultado

3 mi jefe sugiere mantener el texto en archivos separados y hacer una
busqueda de archivos text usando algo llamado dtSearch.

les agradezco cualquier sugerencia.



Respuesta Responder a este mensaje
#2 Jorge
27/05/2008 - 22:12 | Informe spam
grax Gux.
solo para seguimiento
tuve the hacer backup de mis bases de datos y reinstalar SQL 2000 para que
pudiera funcionar la busqueda de texto libre.
cuando trate de añadir el componente de texto libre mediante un
actualizacion no funciono :(

realice una consulta sencilla

select top 10 * from edoc_images where contains (ocrText,'rodriguez')
esta consulta no demoro NADA y regreso los 10 registros.
el plan de trabajo mostro una mejor distrucion al momento de realizar la
consulta

la segunda consulta sin el texto libre

select top 10 * from edoc_images where ocrText like '%rodriguez%'
demoro 4 segundos y una tarea consumio el 99% del tiempo.

ahora probare con la aplicacion a ver que pasa.
espero no me de time out.


"Gux (MVP)" wrote in message
news:
La funcionalidad especializada de SQL Server para buscar texto libre es
Full-Text Search. Es lo recomendado.


Gustavo Larriera, Microsoft MVP
https://mvp.support.microsoft.com/p...o.larriera
Este mensaje se proporciona tal como es, sin garantías de ninguna clase.



"JORGE VERA" wrote:

Un saludo a todos
Situacion: Millones de documentos que han sido digitalizados, asi mismo
el
texto ha sido extraido e inicialmente almacenado en un tabla con un campo
tipo NTEXT
La Consulta: EL usuario requiere BUSCAR por cualquier palabra en el
documento limite 4 palabras como podria ser el nombre completo de alguna
persona

Las soluciones tratadas:
1.- Realizar un simple
select * from OCRText where
OCRCampo LIKE '%palabra1 palabra2 palabra3 palabra4%'
El resultado ya lo saben...
toma muchisimo tiempo y el programa cliente me dio Timeout. El pograma
cliente esta desarrollado en vb.net

2.- Separe cada linea del texto (un aproximado de 50 a 60 lineas de texto
por cada registro) en otra tabla, cada linea maxima de varchar(255) y
aplique un indice a dicho campo
trate la misma consulta
select * from OCRLine where
OCRCampo LIKE '%palabra1 palabra2 palabra3 palabra4%'
me da el mismo resultado

3 mi jefe sugiere mantener el texto en archivos separados y hacer una
busqueda de archivos text usando algo llamado dtSearch.

les agradezco cualquier sugerencia.



email Siga el debate Respuesta Responder a este mensaje
Ads by Google
Help Hacer una preguntaRespuesta Tengo una respuesta
Search Busqueda sugerida