[python] 웹 파싱, re 모듈 사용시 주의 사항

최근 웹 크롤링하는 프로그램을 취미삼아 짜고 있는데 특정 단어가 너무 거슬려서 제거 하기 위해서 re 라이브러리를 사용하고 있다.

사실 테스트 삼아 실행한 문자열은 잘 분리해주는데…

실제 적용하면 분리를 못해주는 증상이 있어서 한참보았더니… 유니코드 문제… 하아….

분리를 하려는 대상은 유니코드이고 검색하려는 값이 유니코드가 아니라서 발생한 문제 하아…

filter 값을 유니코드로 주면 해결된다. 혹시 몰라 기록.

댓글 남기기

이메일은 공개되지 않습니다.