검색 상세

자동 색인을 위한 검색 엔진 가중치 시스템의 개선

An Improved Weight System of Search Engine for Automatic Indexing,

박찬이 (Park, Chan Ee)

원문보기

  • 발행기관 경상대학교 대학원
  • 지도교수 김상복
  • 발행년도 2006
  • 학위수여년월 2006. 8
  • 학위명 박사
  • 소속대학원 및 학과 대학원 컴퓨터과학과
  • 전공 컴퓨터시스템
  • 원문페이지 vii, 104
  • 본문언어 한국어
초록/요약moremore
The popular search engines such as Naver, Yahoo Korea and Empas show good performance of analyzing compound nouns. However, the popular search engines do not provide good search result. Specifically, search accuracies of Naver, Yahoo Korea and Empas are respectively 10,03%, 7.11% and 6.28%. Such a c...
The popular search engines such as Naver, Yahoo Korea and Empas show good performance of analyzing compound nouns. However, the popular search engines do not provide good search result. Specifically, search accuracies of Naver, Yahoo Korea and Empas are respectively 10,03%, 7.11% and 6.28%. Such a contradictory phenomenon is mainly caused by the index system. This thesis thus proposes a new indexing system in order to improve the accuracy of a search engine. Most queries and primary document indices consist of compound nouns, multiple nouns and/or noun phrases. The less is the distance among the nouns, the less the rate that the nouns are selected as index tends to be. The new index system is based on this observation. The new index system first extracts simple nouns from sentence by means of morphological analysis and compound noun segmentation. Then index candidates are chosen from the simple nouns based on the weights produced by the currently available weight value assignment method. Next, distances among the candidates are measured. Finally the candidates with distance less than 3 words are selected as indices. The new index system was implemented. Then an experiment was performed to empirically compare its performance and that of the current index system. The proposed index system showed 1.85%~25% improvement in search accuracy. Two methods of segmenting compound nouns were considered for of segmentation ratio comparison. When compound nouns are segmented based on affix information, the new index system improved of segmentation ratio by 1.11%. When compound nouns are segmented by using preferred syllable information, the segmentation ratio improvement was shown to be 7.34%.
목차moremore
I. 서론 1
II. 관련연구 5
1. 검색엔진 5
...
I. 서론 1
II. 관련연구 5
1. 검색엔진 5
1) 검색엔진의 구성 및 동작 흐름 5
2) 주제별 검색엔진 8
3) 단어별 검색엔진 9
2. 자동색인 10
3. 관련연구 고찰 13
III. 검색엔진 성능 분석 15
IV. 색인 시스템 23
1. 색인 시스템 설계 23
1) 거리 계산 24
2) 전처리 24
(1) HTML 태그 계층 구조 분석 25
(2) 강조 태그 부분 가중치 부여 29
(3) 스타일시트를 이용한 강조 부분 가중치 부여 29
(4) 태그의 삭제 및 형태소 분석 과정의 준비 33
3) 형태소 분석 33
(1) 형태소 분석기의 구성 34
(2) 형태소 분석 사전의 구성 35
(3) 자료 구조 37
(4) 전처리 38
(5) 조합형 및 완성형 코드 변환 40
(6) 조사/어미의 분리 45
(7) 불규칙 용언의 처리 53
(8) 접두사/접미사 처리 61
(9) 준말, 복합명사, 미등록어 처리 63
4) 가중치 계산 및 주제어 선정 73
(1) 빈도에 따른 가중치 74
(2) 유형별 가중치 76
(3) 위치적 가중치 79
(4) 최종 가중치 선정 81
(5) 1차 주제어 선정 82
(6) 최종 주제어 선정 83
Ⅴ. 실험 및 평가 88
1. 복합명사 분해 88
1) 실험 자료 88
2) 접사 및 접사화 정보를 이용한 복합명사의 분해 89
3) 미등록어가 포함된 복합명사의 분해 92
2. 자동 색인 93
1) 실험 환경 93
2) 평가 및 분석 95
Ⅵ. 결론 및 향후 연구과제 97
참고문헌 99