worldint
mathengi
worldint
전체 방문자
오늘
어제
  • 분류 전체보기 (152)
    • infra, cloud (4)
      • aws (4)
    • TIL,WIL(일간,주간 회고) (57)
    • 컴퓨터 공학 (5)
      • 정보통신 (3)
      • 컴퓨터 구조 (2)
    • Math (1)
      • linear algebra (0)
      • 명제와 집합 (1)
    • Operating System (8)
      • Linux Ubuntu (1)
    • programming (66)
      • c , c++ (9)
      • c# (0)
      • java (2)
      • javascript (14)
      • Python (4)
      • github (1)
      • programing terms (12)
      • html, css (2)
      • docker (3)
      • algorithm_datastructure (5)
      • database (11)
      • flutter(dart) (2)
    • 항해99 부트캠프 (7)
      • 사전교육 (7)
    • 보안관련 (1)

블로그 메뉴

    공지사항

    인기 글

    태그

    • flutter #provider #error
    • AWS
    • EC2
    • ec2 #코드디플로이 #리눅스
    • nodejs
    • 디비데드락
    • ci/cd
    • docker
    • MongoDB
    • NVM
    • NoSQL
    • MONGOOSE
    • Blue/Green
    • db데드락
    • CloudFront
    • Javascript
    • node

    최근 댓글

    최근 글

    티스토리

    hELLO · Designed By 정상우.
    worldint
    TIL,WIL(일간,주간 회고)

    2022. 12. 05 TIL 파이썬 이미지소스 크롤링 문제

    TIL,WIL(일간,주간 회고)

    2022. 12. 05 TIL 파이썬 이미지소스 크롤링 문제

    2022. 12. 6. 01:33

    -문제점:
    이미지 크롤링해와야되는데 tech_image['src']이렇게 하면 a테그안에 src라는게 없다고 나온다

    tech = soup.select('#main_content > div > div._persist > div:nth-child(1) > div')
    
    for report in tech:
    
        r = report.select_one('div.cluster_body > ul > li')
        if report is not None:
            tech_image = r.select_one('div.cluster_thumb > div > a')['src']

    -알게된점:

    마지막줄 tech_image변수에 들어가는 select_one을 통해 가져온 객체는 bs4.element.Tag타입으로

    저기에 ['블라블라']를 하려면 테그안의 속성에 블라블라가 들어있어야한다.

    하지만 'src'는 a테그의 속성이 아니고 a테그 하위테그인 image테그안쪽에 들어있는 속성(attr)이기 때문에

    하위테그를 추출할수있는 .하위테그, 여기서는 .img를 붙인수 ['src']를 붙여야한다.

    코드는 아래처럼 바뀌어야한다

    tech = soup.select('#main_content > div > div._persist > div:nth-child(1) > div')
    
    for report in tech:
    
        r = report.select_one('div.cluster_body > ul > li')
        if report is not None:
               tech_image = r.select_one('div.cluster_thumb > div > a').img['src']

    마지막줄을 보면 .img['src'] 이것이 붙어있는것을 확인할수 있다

     

    다시말해

    테그안에 테그가 하나더있고 그걸 추출하고 싶으면 만약 그게 a테그라면 
    image.a['src'] 이런식으로 해줘야된다

    'TIL,WIL(일간,주간 회고)' 카테고리의 다른 글

    2022. 12. 05 TIL 다양한 오타문제  (0) 2022.12.06
    2022. 12. 05 TIL 파이썬Flask app.py에서 바로 클라이언로 뿌려주기  (0) 2022.12.06
    2022. 12. 05 TIL 파이썬Flask get연결 문제  (0) 2022.12.06
    2022. 12. 05 TIL html 상단바 layer문제  (2) 2022.12.06
    2022. 12. 05 TIL html 상단바 위치 문제  (0) 2022.12.06
      'TIL,WIL(일간,주간 회고)' 카테고리의 다른 글
      • 2022. 12. 05 TIL 다양한 오타문제
      • 2022. 12. 05 TIL 파이썬Flask app.py에서 바로 클라이언로 뿌려주기
      • 2022. 12. 05 TIL 파이썬Flask get연결 문제
      • 2022. 12. 05 TIL html 상단바 layer문제
      worldint
      worldint
      공부한 내용들, 트러블 슈팅, 아티클 번역 등등 올리는 블로그입니다

      티스토리툴바

      단축키

      내 블로그

      내 블로그 - 관리자 홈 전환
      Q
      Q
      새 글 쓰기
      W
      W

      블로그 게시글

      글 수정 (권한 있는 경우)
      E
      E
      댓글 영역으로 이동
      C
      C

      모든 영역

      이 페이지의 URL 복사
      S
      S
      맨 위로 이동
      T
      T
      티스토리 홈 이동
      H
      H
      단축키 안내
      Shift + /
      ⇧ + /

      * 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.