[Python] 전체 글 목록에서 헤더 푸터 자르기 / pdftotex, 함수 만들기
pdftotext나 docx를 사용하여 문서를 파싱 한 후 필요 없는 헤더와 푸터를 자를 필요가 있습니다. 예시로 이미지와 같은 부분만 남기고 서론과 결론은 자를 경우에 대한 함수를 짜 보겠습니다. 가정: 라이브러리를 통해 파일을 불러온 상태입니다. 본론만 가져오기 목표 1. 전체 글에서 특정 단어가 나올 경우 서론을 날린다. 2. 전체 글에서 특정 단어가 나올 경우 결론을 날린다. 3. 날린 부분에 대한 빈 문자열 처리를 해서 전체 길이를 같게 유지한다. 목표의 세부 가정 1. 전체 글에서 특정 단어를 찾는다. 2. 전체 글에 대한 각각의 string index 번호를 알아낸다. 3. 전체 string에서 특정 단어가 나올 경우 해당 index를 last_index로 담는다. 4. last_index ..
💻 개발/언어
2021. 7. 18. 19:03
250x250
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday