[Python] pdf정제를 위한 코드를 짜면서 느낀점 / 회고
1. kss 모듈을 먼저쓸까? 정제와 토큰화 후 kss를 쓸까? -> 모듈을 사용하여 불러온 pdf를 split('\n')해주고, 함수를 사용하여 정제 후 깨끗한 한글문장에서 kss를 사용. 2. kss 사용을 위한 문자열 변환 시키기 -> 임의의 ex_sentence = '' 를 생성 후 한글을 출력해 string sentence를 ex_sentence =+ sentence 이용하여 만듬 2. 파이참에서 출력 시 부분적으로 짤리는 오류가 있었고, 터미널에선 없었는데 왜 그럴까? -> 추후 추가 3. footer의 규칙없는 더러운 내용 지우는 방법? -> 정규식을 써야할 지, 다른 방법이 있나 고민 중... 4. all_text = '' / all_text += sentence 의 사용으로 ''를 붙이자..
💻 개발/언어
2021. 6. 29. 08:20
250x250
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday