神剑山庄资源网 Design By www.hcban.com
#!/usr/bin/env python3 # -*- coding: utf-8 -*- import glob from os import path import os import pytesseract from PIL import Image from queue import Queue import threading import datetime import cv2 def convertimg(picfile, outdir): '''调整图片大小,对于过大的图片进行压缩 picfile: 图片路径 outdir: 图片输出路径 ''' img = Image.open(picfile) width, height = img.size while (width * height > 4000000): # 该数值压缩后的图片大约 两百多k width = width // 2 height = height // 2 new_img = img.resize((width, height), Image.BILINEAR) new_img.save(path.join(outdir, os.path.basename(picfile))) def baiduOCR(ts_queue): while not ts_queue.empty(): picfile = ts_queue.get() filename = path.basename(picfile) outfile = 'D:\Study\pythonProject\scrapy\IpProxy\port_zidian.txt' img = cv2.imread(picfile, cv2.IMREAD_COLOR) print("正在识别图片:\t" + filename) message = pytesseract.image_to_string(img,lang = 'eng') message = message.replace('', '') message = message.replace('\n', '') # message = client.basicAccurate(img) # 通用文字高精度识别,每天 800 次免费 #print("识别成功!")) try: filename1 = filename.split('.')[0] filename1 = ''.join(filename1) with open(outfile, 'a+') as fo: fo.writelines('\'' + filename1 + '\'' + ':' + message + ',') fo.writelines('\n') # fo.writelines("+" * 60 + '\n') # fo.writelines("识别图片:\t" + filename + "\n" * 2) # fo.writelines("文本内容:\n") # # 输出文本内容 # for text in message.get('words_result'): # fo.writelines(text.get('words') + '\n') # fo.writelines('\n' * 2) os.remove(filename) print("识别成功!") except: print('识别失败') print("文本导出成功!") print() def duqu_tupian(dir): ts_queue = Queue(10000) outdir = dir # if path.exists(outfile): # os.remove(outfile) if not path.exists(outdir): os.mkdir(outdir) print("压缩过大的图片...") # 首先对过大的图片进行压缩,以提高识别速度,将压缩的图片保存与临时文件夹中 try: for picfile in glob.glob(r"D:\Study\pythonProject\scrapy\IpProxy\tmp\*"): convertimg(picfile, outdir) print("图片识别...") for picfile in glob.glob("tmp1/*"): ts_queue.put(picfile) #baiduOCR(picfile, outfile) #os.remove(picfile) print('图片文本提取结束!文本输出结果位于文件中。' ) #os.removedirs(outdir) return ts_queue except: print('失败') if __name__ == "__main__": start = datetime.datetime.now().replace(microsecond=0) t = 'tmp1' s = duqu_tupian(t) threads = [] try: for i in range(100): t = threading.Thread(target=baiduOCR, name='th-' + str(i), kwargs={'ts_queue': s}) threads.append(t) for t in threads: t.start() for t in threads: t.join() end = datetime.datetime.now().replace(microsecond=0) print('删除耗时:' + str(end - start)) except: print('识别失败')
实测速度慢,但用了多线程明显提高了速度,但准确度稍低,同样高清图片,90百分识别率。还时不时出现乱码文字,乱空格,这里展现不了,自己实践吧,重点免费的,随便识别,通向100张图片,用时快6分钟了,速度慢了一倍,但是是免费的,挺不错的了。
以上就是python利用pytesseract 实现本地识别图片文字的详细内容,更多关于python 识别图片文字的资料请关注其它相关文章!
神剑山庄资源网 Design By www.hcban.com
神剑山庄资源网
免责声明:本站文章均来自网站采集或用户投稿,网站不提供任何软件下载或自行开发的软件!
如有用户或公司发现本站内容信息存在侵权行为,请邮件告知! 858582#qq.com
神剑山庄资源网 Design By www.hcban.com
暂无python利用pytesseract 实现本地识别图片文字的评论...
《魔兽世界》大逃杀!60人新游玩模式《强袭风暴》3月21日上线
暴雪近日发布了《魔兽世界》10.2.6 更新内容,新游玩模式《强袭风暴》即将于3月21 日在亚服上线,届时玩家将前往阿拉希高地展开一场 60 人大逃杀对战。
艾泽拉斯的冒险者已经征服了艾泽拉斯的大地及遥远的彼岸。他们在对抗世界上最致命的敌人时展现出过人的手腕,并且成功阻止终结宇宙等级的威胁。当他们在为即将于《魔兽世界》资料片《地心之战》中来袭的萨拉塔斯势力做战斗准备时,他们还需要在熟悉的阿拉希高地面对一个全新的敌人──那就是彼此。在《巨龙崛起》10.2.6 更新的《强袭风暴》中,玩家将会进入一个全新的海盗主题大逃杀式限时活动,其中包含极高的风险和史诗级的奖励。
《强袭风暴》不是普通的战场,作为一个独立于主游戏之外的活动,玩家可以用大逃杀的风格来体验《魔兽世界》,不分职业、不分装备(除了你在赛局中捡到的),光是技巧和战略的强弱之分就能决定出谁才是能坚持到最后的赢家。本次活动将会开放单人和双人模式,玩家在加入海盗主题的预赛大厅区域前,可以从强袭风暴角色画面新增好友。游玩游戏将可以累计名望轨迹,《巨龙崛起》和《魔兽世界:巫妖王之怒 经典版》的玩家都可以获得奖励。
更新日志
2024年11月17日
2024年11月17日
- 【雨果唱片】中国管弦乐《鹿回头》WAV
- APM亚流新世代《一起冒险》[FLAC/分轨][106.77MB]
- 崔健《飞狗》律冻文化[WAV+CUE][1.1G]
- 罗志祥《舞状元 (Explicit)》[320K/MP3][66.77MB]
- 尤雅.1997-幽雅精粹2CD【南方】【WAV+CUE】
- 张惠妹.2007-STAR(引进版)【EMI百代】【WAV+CUE】
- 群星.2008-LOVE情歌集VOL.8【正东】【WAV+CUE】
- 罗志祥《舞状元 (Explicit)》[FLAC/分轨][360.76MB]
- Tank《我不伟大,至少我能改变我。》[320K/MP3][160.41MB]
- Tank《我不伟大,至少我能改变我。》[FLAC/分轨][236.89MB]
- CD圣经推荐-夏韶声《谙2》SACD-ISO
- 钟镇涛-《百分百钟镇涛》首批限量版SACD-ISO
- 群星《继续微笑致敬许冠杰》[低速原抓WAV+CUE]
- 潘秀琼.2003-国语难忘金曲珍藏集【皇星全音】【WAV+CUE】
- 林东松.1997-2039玫瑰事件【宝丽金】【WAV+CUE】