YouTube 콘텐츠 수집기 - 얼굴, 번호판, 타투, 텍스트 감지

These details have not been verified by PyPI

Project links

Project description

YouTube 콘텐츠 수집기

유튜브에서 특정 카테고리(얼굴, 번호판, 타투, 텍스트)의 영상을 자동으로 검색, 다운로드, 분석하여 수집하는 CLI 도구입니다.

설치

필수 패키지

pip install yt-dlp

분석 기능용 패키지 (권장 - v1.2.5+)

분석 기능을 원활하게 사용하려면 아래 패키지들이 필요합니다. GPU(CUDA)가 설치된 경우 자동으로 가속이 활성화됩니다.

pip install opencv-python easyocr numpy ultralytics

사용법

기본 실행

ytcollector

기본값: 얼굴 카테고리 5개, 최대 90분 영상 수집 후 3분 트리밍

옵션

옵션	설명	기본값
`-c`, `--categories`	수집할 카테고리	`face`
`-n`, `--count`	카테고리당 다운로드 수	`5`
`-d`, `--duration`	최대 영상 검색 길이(분)	`90`
`-o`, `--output`	저장 경로	`.` (현재 폴더)
`--fast`	고속 모드 (병렬 다운로드)	비활성화
`-w`, `--workers`	병렬 다운로드 수	`3`
`--proxy`	프록시 주소	없음
`--cookies-from-browser`	브라우저 쿠키 사용 (rate limit 우회)	없음

카테고리 종류

카테고리	설명	검색 소스
`face`	얼굴/인물	SBS/MBC/tvN/JTBC 인터뷰, 기자회견 등
`license_plate`	자동차 번호판	SBS 드라마 자동차/추격/주차장 씬 등
`tattoo`	타투/문신	타투 시술, 타투이스트 작업 영상
`text`	텍스트/자막	SBS/tvN/JTBC/MBC 예능, 유튜버 자막 편집 등

예시

단일 카테고리

# 얼굴 영상 10개 수집
ytcollector -c face -n 10

# 번호판 영상 수집 (최대 90분 검색)
ytcollector -c license_plate -d 90

# 타투 영상 수집
ytcollector -c tattoo -n 5

여러 카테고리

# 얼굴과 텍스트 각 10개씩
ytcollector -c face text -n 10

# 모든 카테고리 수집
ytcollector -c face license_plate tattoo text -n 5

고속 모드

# 병렬 다운로드 (기본 3개 동시)
ytcollector -c face -n 10 --fast

# 5개 동시 다운로드
ytcollector -c face -n 10 --fast -w 5

저장 경로 지정

ytcollector -c face -o /path/to/save

프록시 사용

ytcollector -c face --proxy http://proxy.server:8080

쿠키 인증 (rate limit 우회)

# Chrome 브라우저 쿠키 사용
ytcollector -c face -n 100 --cookies-from-browser chrome

# Firefox 쿠키 사용
ytcollector -c license_plate --fast --cookies-from-browser firefox

# Safari 쿠키 사용 (macOS)
ytcollector -c tattoo --cookies-from-browser safari

지원 브라우저: chrome, firefox, safari, edge, opera, brave

SBS Dataset 구축 (URL 리스트 기반)

URL 리스트를 기반으로 영상을 수집하고 특정 시점을 기준으로 자동으로 클리핑(3분 미만)하는 기능입니다. (v1.1.6에서 ROI 엔진 최적화 적용)

실행 방법

ytc-dataset youtube_url.txt

youtube_url.txt 형식

URL, MM:SS, TaskName 형식으로 작성합니다.

https://www.youtube.com/watch?v=aqz-KE-bpKQ, 00:10, sample_task

상세 옵션

옵션	설명	기본값
`file`	URL 리스트 파일 경로	(필수)
`-o`, `--output`	저장 루트 경로	`.`

특징

자동 트리밍: 지정된 MM:SS 시점 기준 $\pm$ 1.5분(총 3분)을 자동으로 자릅니다.
멀티 클립 추출 (v1.2.5): 영상이 10분 초과인 경우, 한 영상에서 타겟이 여러 번 발견되면 겹치지 않는 3분 단위 클립들을 최대 3개까지 추출합니다. (10분 이하 영상은 1개만 추출)
중복 방지: 인덱스 기반으로 이미 다운로드/클리핑된 영상은 건너뜁니다.
저장 구조: ./video/ (원본), ./video_clips/ (클립) 폴더가 생성됩니다.

출력 폴더 구조

저장경로/
├── 얼굴/              # 얼굴 감지된 영상
├── 번호판/            # 번호판 감지된 영상
├── 번호판_미감지/     # 번호판 미감지 (수동 확인용)
├── 타투/              # 타투 감지된 영상
├── 텍스트/            # 텍스트 감지된 영상
├── .archive.txt       # 기본 다운로드 기록
└── youtube_url_*.txt  # 카테고리별 성공 로그 (v1.1.5+ 중복 체크에 활용)

파일 구조

260202_test/
├── main.py        # CLI 진입점
├── config.py      # 설정 (검색어, UA 등)
├── analyzer.py    # 영상 분석 (OpenCV, EasyOCR)
├── downloader.py  # 다운로드 로직
└── README.md      # 사용설명서

분석 기능

감지 항목	사용 기술	설명
얼굴	OpenCV Haar Cascade	정면 얼굴 감지
텍스트	EasyOCR	한국어/영어 문자 인식
번호판	YOLOv8 전용 모델 + OCR	v1.1.9: 번호판 전용 학습 모델 + 한국 번호판 패턴 매칭
타투	YOLOv8 전용 모델	v1.3.3: 타투 전용 학습 모델 (deep-tattoo-yolov8)

주요 최적화 (v1.1.5~1.2.5)

멀티 클립 추출 (v1.2.5): 10분 초과 영상 내 다수 지점 감지 시 겹치지 않는 3분 클립 최대 3개 저장 (파일명: _1, _2, _3 접미사)
최대 길이 확장 (v1.2.5): 수집 가능한 영상 길이를 기본 3분 → 90분으로 확장하여 더 많은 소스 확보
자막 영역 필터링 (v1.2.0): 화면 하단 60%~95% 영역만 자막으로 인식, 상단 로고/워터마크 제외
번호판 전용 모델 (v1.1.9): YOLO-World → 번호판 전용 학습 모델로 교체 (감지율 향상, 모델 크기 27MB→6MB)
오탐지 방지: YOLO 감지 + OCR 패턴 매칭 둘 다 만족해야 번호판 판정, ROI 크기 필터링 추가
ROI 기반 감지: 전체 화면이 아닌 YOLO가 지정한 영역만 OCR하여 속도와 정확도 향상
GPU 가속 지원: CUDA 사용 가능 시 YOLO 및 OCR 자동 가속
로그 기반 중복 방지: youtube_url_*.txt 기록을 참조하여 중복 분석 방지

v1.3.3 업데이트

타투 전용 YOLO 모델: OpenCV HSV 분석 → YOLOv8 전용 모델(yolov8s_tattoo_manual_v3)로 교체하여 정확도 대폭 향상
--cookies-from-browser 옵션: Chrome/Firefox/Safari 등 브라우저 쿠키로 rate limit 및 "Sign in to confirm you're not a bot" 오류 우회 지원
모든 yt-dlp 호출(검색, 다운로드, 길이 조회)에 쿠키 옵션 적용

주의사항

영상은 다운로드 후 분석하여 해당 카테고리가 감지된 경우에만 저장됩니다
번호판 카테고리는 미감지 영상도 별도 폴더에 보관됩니다 (수동 확인용)
이미 다운로드한 영상은 자동으로 스킵됩니다 (.archive.txt 기록)
비공개/삭제/저작권 영상은 자동 스킵됩니다

고속 모드 vs 일반 모드

항목	일반 모드	고속 모드
다운로드	순차	병렬
딜레이	0.5~1.5초	없음
재시도	3회	1회
타임아웃	30초	10초

고속 모드는 빠르지만 YouTube 차단 위험이 높아질 수 있습니다.

Project details

These details have not been verified by PyPI

Project links

Release history Release notifications | RSS feed

1.4.1

Feb 10, 2026

1.4.0

Feb 10, 2026

1.3.5

Feb 9, 2026

This version

1.3.4

Feb 9, 2026

1.3.3

Feb 9, 2026

1.3.2

Feb 6, 2026

1.3.1

Feb 6, 2026

1.3.0

Feb 6, 2026

1.2.9

Feb 6, 2026

1.2.8

Feb 6, 2026

1.2.7

Feb 6, 2026

1.2.6

Feb 4, 2026

1.2.5

Feb 4, 2026

1.2.4

Feb 4, 2026

1.2.3

Feb 4, 2026

1.2.0

Feb 4, 2026

1.1.9

Feb 4, 2026

1.1.8

Feb 3, 2026

1.1.7

Feb 3, 2026

1.1.6

Feb 3, 2026

1.1.2

Feb 3, 2026

1.1.1

Feb 3, 2026

1.0.9

Feb 3, 2026

1.0.8

Feb 3, 2026

1.0.7

Feb 3, 2026

1.0.6

Feb 3, 2026

1.0.5

Feb 3, 2026

1.0.4

Feb 3, 2026

1.0.3

Feb 3, 2026

1.0.2

Feb 3, 2026

1.0.1

Feb 3, 2026

Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

ytcollector-1.3.4.tar.gz (27.8 MB view details)

Uploaded Feb 9, 2026 Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

The dropdown lists show the available interpreters, ABIs, and platforms. Enable javascript to be able to filter the list of wheel files.

ytcollector-1.3.4-py3-none-any.whl (27.8 MB view details)

Uploaded Feb 9, 2026 Python 3

File details

Details for the file ytcollector-1.3.4.tar.gz.

File metadata

Download URL: ytcollector-1.3.4.tar.gz
Upload date: Feb 9, 2026
Size: 27.8 MB
Tags: Source
Uploaded using Trusted Publishing? No
Uploaded via: twine/6.2.0 CPython/3.14.0

File hashes

Hashes for ytcollector-1.3.4.tar.gz
Algorithm	Hash digest
SHA256	`daf9cfea6076c3747f874367ac694578e7b98dfba6f97b99cd13eea02c96bdeb`
MD5	`cf46cf185a21714873f11810599fa0a5`
BLAKE2b-256	`950236b81e12d50349e8d71e5b74c176e42dadc0a67e8ee1a709db8441fad490`

See more details on using hashes here.

File details

Details for the file ytcollector-1.3.4-py3-none-any.whl.

File metadata

Download URL: ytcollector-1.3.4-py3-none-any.whl
Upload date: Feb 9, 2026
Size: 27.8 MB
Tags: Python 3
Uploaded using Trusted Publishing? No
Uploaded via: twine/6.2.0 CPython/3.14.0

File hashes

Hashes for ytcollector-1.3.4-py3-none-any.whl
Algorithm	Hash digest
SHA256	`bff1fb321ec7c6080f4752388cc8e3a94f6668b91cb8f2d442f4a0975ba01027`
MD5	`c7233ec61f9d9375822c46f4e1957a70`
BLAKE2b-256	`99a63124bd287307d6130515066d43b3240cd4d40356dc37114f0a76696dcbaa`

See more details on using hashes here.

ytcollector 1.3.4

Navigation

Verified details

Maintainers

Unverified details

Project links

Meta

Classifiers

Project description

YouTube 콘텐츠 수집기

설치

필수 패키지

분석 기능용 패키지 (권장 - v1.2.5+)

사용법

기본 실행

옵션

카테고리 종류

예시

단일 카테고리

여러 카테고리

고속 모드

저장 경로 지정

프록시 사용

쿠키 인증 (rate limit 우회)

SBS Dataset 구축 (URL 리스트 기반)

실행 방법

youtube_url.txt 형식

상세 옵션

특징

출력 폴더 구조

파일 구조

분석 기능

주요 최적화 (v1.1.5~1.2.5)

v1.3.3 업데이트

주의사항

고속 모드 vs 일반 모드

Project details

Verified details

Maintainers

Unverified details

Project links

Meta

Classifiers

Release history Release notifications | RSS feed

Download files

Source Distribution

Built Distribution

File details

File metadata

File hashes

File details

File metadata

File hashes