[ 리버싱 / 프로그래밍 / 음악 / 게임 / 그 외... ]

레이블이 첨부파일인 게시물을 표시합니다. 모든 게시물 표시
레이블이 첨부파일인 게시물을 표시합니다. 모든 게시물 표시


화요일, 11월 15, 2016



얼마 전, 네이버 블로그 첨부파일을 다운로드 받는 파이썬 코드를 작성했는데요...

자매품으로(?) 티스토리 첨부파일을 받는 코드도 만들어봤습니다. ^^;;;;

Win95/98 용 고전 게임들 찾다보면 첨부파일이 어마어마하게 많은 경우가 있는데...

하나하나 클릭하기 귀찮아서 코딩까지 하게 되었네요~ ^^;;;;


네이버 블로그는 첨부파일 정보가 있는 페이지까지 접근하기가 좀 귀찮을뿐(?)

그 페이지까지 접근만 하면 첨부파일 다운로드는 비교적 쉽게(?) 해결이 됩니다.

"aPostFiles" 라는 자바스크립트 배열이 있고 그 안에 모든 첨부파일의 정보(링크, 파일이름, 크기 등...)가

가지런히 담겨져 있기에 해당 배열의 내용만 잘 가져오면 되거든요 :)


티스토리는 처음에 접근하는 페이지에 첨부파일 정보가 바로 있어서~

첨부파일 정보를 확인하는 건 어렵지 않습니다.

그런데 네이버 블로그처럼 첨부파일 정보가 한 곳에 몰려있는게 아니라...

<a href="첨부파일 링크"> .... 파일이름</a>
형태로 포스팅 내용 전역에 걸쳐서 포함될 수 있기에 이걸 처리하는게 좀 귀찮습니다. -_-;;;

( 전 그냥 페이지 전체 소스에서 '첨부파일 링크' 를 포함한 태그를 모조리 찾는 방법으로 해결을.. -_-;;;; )


[ GitHub - https://github.com/XeroNicHS/GMF ]

# GMF [File Downloader] for Tistory Blog

import re
import sys
from http import client
from urllib import request


def print_logo():
    print("#------------------------------------------#")
    print("# [GMF] Give Me a File!! [File Downloader] #")
    print("#------------------------------------------#")
    print("# for Tistory Blog\n")


def get_url_source(url):
    try:
        f = request.urlopen(url)
        url_info = f.info()
        url_charset = client.HTTPMessage.get_charsets(url_info)[0]
        url_source = f.read().decode(url_charset)

        return url_source

    except Exception as e:
        print("[-] Error : %s" % e)
        sys.exit(-1)


def main():
    print_logo()

    if len(sys.argv) != 2:
        print("[*] Usage : gmf_ti.py [Tistory Blog URL]")
    else:
        url = sys.argv[1]
        print("[*] Target URL : %s\n" % url)
        url_source = get_url_source(url)

        # find 's1.daumcdn.net/cfs.tistory'
        if url_source.find("t1.daumcdn.net/tistory") == -1:
            print("[-] It is not a Tistory Blog")
            sys.exit(0)

        try:
            # find all 'attach file link'
            p_attach = re.compile(r"href=[\'\"](\S+?/attachment/.*?)[\'\"]\s*.*?/> (.*?)</", re.IGNORECASE | re.DOTALL)
            result = p_attach.findall(url_source)

            if result:
                for each_file in result:
                    file_url = each_file[0]
                    if each_file[1] == "":
                        file_name = file_url[file_url.rfind('/') + 1:]
                    else:
                        file_name = each_file[1]
                    print("* File : %s" % file_name)
                    print("  Link : %s" % file_url)
                    request.urlretrieve(file_url, file_name)
                    print("  ==> Done")
            else:
                print("[-] Attached File not found !!")

        except Exception as e:
            print("[-] Error : %s" % e)
            sys.exit(-1)

if __name__ == "__main__":
    sys.exit(main())

gmf_ti.py 실행

티스토리 첨부파일 태그의 모든 형태를 다 확인한게 아니라...

경우에 따라서는 정보를 못가져올 수도 있습니다... @_@;;;;




일요일, 11월 13, 2016



첨부파일이 2~3개 정도면 별 생각없이 클릭~ 클릭하면서 다운받지만...

7~8개가 넘어가면 귀차니즘 지수가 상승하면서 고민을 하게 됩니다.

' 받을까...? 말까...? '

기분이 좋은 날은 받을 수도 있고... 아닌 날은 그냥 넘어갈 수도 있겠죠... -_-;;;

받아야 될 첨부파일이 20개 이상이면 솔직히(?) 받기 싫어집니다.

네이버 블로그 첨부파일


정말 필요한 것일까...? 다시 한번 고민을 하게 되죠...


며칠 전에 총 50개가 넘는 파일을 일일이 클릭해서 받자니 미칠 것 같아서...

고민 좀 하다가 파이썬으로 뚝딱뚝딱 만들어봤습니다.

일단은 '네이버 블로그' 전용으로~ ^^;;;;


[ GitHub - https://github.com/XeroNicHS/GMF ]

# GMF [File Downloader] for NAVER Blog

import re
import sys
import json
from http import client
from urllib import request


def print_logo():
    print("#------------------------------------------#")
    print("# [GMF] Give Me a File!! [File Downloader] #")
    print("#------------------------------------------#")
    print("# for NAVER Blog\n")


def get_url_source(url):
    try:
        while url.find("PostView.nhn") == -1 and url.find("PostList.nhn") == -1:
            f = request.urlopen(url)
            url_info = f.info()
            url_charset = client.HTTPMessage.get_charsets(url_info)[0]
            url_source = f.read().decode(url_charset)

            # find 'NBlogWlwLayout.nhn'
            if url_source.find("NBlogWlwLayout.nhn") == -1:
                print("\n[-] It is not a NAVER Blog")
                sys.exit(0)

            # get frame src
            p_frame = re.compile(r"\s*.*?<iframe.*?mainFrame.*?(.*)hiddenFrame", re.IGNORECASE | re.DOTALL)
            p_src_url = re.compile(r"\s*.*?src=[\'\"](.+?)[\'\"]", re.IGNORECASE | re.DOTALL)
            src_url = p_src_url.match(p_frame.match(url_source).group(1)).group(1)
            url = src_url

        if url.find("http://blog.naver.com") == -1:
            last_url = "http://blog.naver.com" + url
        else:
            last_url = url

        print("   => Last URL : %s\n" % last_url)
        f = request.urlopen(last_url)
        url_info = f.info()
        url_charset = client.HTTPMessage.get_charsets(url_info)[0]
        url_source = f.read().decode(url_charset)

        return url_source

    except Exception as e:
        print("[-] Error : %s" % e)
        sys.exit(-1)


def main():
    print_logo()

    if len(sys.argv) != 2:
        print("[*] Usage : gmf_nb.py [NAVER Blog URL]")
    else:
        url = sys.argv[1]
        print("[*] Target URL : %s" % url)
        url_source = get_url_source(url)

        # find 't.static.blog.naver.net'
        if url_source.find("t.static.blog.naver.net") == -1:
            print("\n[-] It is not a NAVER Blog")
            sys.exit(0)

        try:
            # find 'aPostFiles'
            p_attached_file = re.compile(r"\s*.*aPostFiles\[1\] = \[(.*?)\]", re.IGNORECASE | re.DOTALL)
            result = p_attached_file.match(url_source).group(1)
            if result:
                # convert to JSON style
                data = "[" + result.replace('\'', '\"') + "]"
                json_data = json.loads(data)

                for each_file in json_data:
                    print("* File : %s, Size : %s Bytes" % (each_file["encodedAttachFileName"], each_file["attachFileSize"]))
                    print("  Link : %s" % each_file["encodedAttachFileUrl"])
                    # File Download
                    request.urlretrieve(each_file["encodedAttachFileUrl"], each_file["encodedAttachFileName"])
                    print("  => Done!!\n")
            else:
                print("[-] Attached File not found !!")

        except Exception as e:
            print("[-] Error : %s" % e)
            sys.exit(-1)

if __name__ == "__main__":
    sys.exit(main())


사용법은 간단합니다.

스크립트 파일의 인자로 첨부파일을 받고 싶은 블로그의 주소를 넣어주면 됩니다.

ex) gmf_nb.py http://blog.naver.com/janghs1117/70066915050

gmf_nb.py 실행

일단... 제가 원하는 선에서는 문제없이 동작하는 것 같네요... ^^;;;

파이썬 만세 i(-0-)i




카테고리

가장 많이 본 글

통계

Copyright © XeroNic(HS) BLOG | Powered by Blogger
Design by WP Lift | Blogger Template by NewBloggerThemes.com