Tag Archives: 한글

Java에서 한글을 정규표현식으로 찾기

문서를 읽어서 한글을 제외한 나머지 문자를 제거하기 위해 정규표현식을 사용했다. 이 과정에서 이해할 수 없는 경험들을 하게 되어 이곳에 정리한다. 처음에는  [^가-힣ㄱ-ㅎㅏ-ㅣ]  형태로 한글을 범위로 해서 찾았는데, 이렇게 하니 윈도우 기반 로컬 머신에서는 잘 동작하던 모듈이 linux 머신에서는 동작하지 않았다. 다른점을 살펴보니 linux 머신은 utf-8 기반이였고, 한글 정규표현식이 다르게 동작하는 것으로 보였다. 그래서 현재는 [^\\u3131-\\u318E\\uAC00-\\uD7A3] 와 같이 [...]
Posted in Java | Also tagged , | Leave a comment