易翻译覆盖了文字、图片、音频、视频与字幕等多种格式:常见文档(DOC/DOCX、PDF、PPT/PPTX、XLS/XLSX、TXT、RTF、HTML 等)、图片(JPG/PNG/HEIC/TIFF/BMP)、扫描件与 OCR、音频(MP3/WAV/M4A/AAC/FLAC/OGG/AMR 等)、视频(MP4/MKV/AVI/MOV/WMV/FLV 等)以及字幕文件(SRT、VTT、ASS 等)。工具还支持实时语音互译、双语对话、批量处理、原格式导出或双语对照导出,并能对长文档、扫描件和嵌入式字体做一定程度的保留和识别(有大小与质量限制)。下面我慢慢把细节、使用技巧和限制说明清楚,像跟你当面聊一样。

先弄清“能翻什么”这个问题的边界
说实话,问“能翻哪些格式”有两层意思:一层是技术上能识别和翻译的文件类型;另一层是翻译后文件能以什么形式导出或呈现。两者都很重要——前者决定能不能读懂内容,后者决定你拿到的翻译结果能不能直接用。在讲具体扩展名前,我先把工作流用比喻说清楚:想象文件是一个信封,内容可能是字(文本)、照片(图片)、录音(音频)或电影(视频)。易翻译既能把这些信封拆开读内容(OCR、ASR、文本解析),也能把读到的内容翻译成另一种语言,并把新内容写回去(导出为同种、相近或可编辑的格式)。
一眼看表:常见格式和支持情况
| 格式类别 | 常见扩展名 | 是否支持读取/翻译 | 是否支持导出为同类可编辑格式 | 备注 |
| 办公文档 | DOC/DOCX, PPT/PPTX, XLS/XLSX, TXT, RTF | 支持(结构化文本解析) | 通常支持(DOCX/PPTX/XLSX 可导出) | 表格公式、复杂排版可能需要人工校对 |
| PDF(可检索/扫描) | 支持(可检索PDF直接读取,扫描PDF需OCR) | 支持导出为PDF或DOCX等,但格式保留度视复杂度 | 嵌入字体、复杂版式、表单字段可能影响结果 | |
| 网页/HTML | HTML, HTM | 支持(会解析标签与文本) | 可导出为HTML或纯文本 | CSS样式不翻译,需注意编码(UTF-8/GBK) |
| 图片 / 扫描 | JPG/JPEG, PNG, BMP, TIFF, HEIC | 支持(OCR 识别) | 可导出为带翻译文本的图片或文本文件 | 分辨率与清晰度直接影响识别率 |
| 音频 | MP3, WAV, M4A, AAC, FLAC, OGG, AMR | 支持(ASR 识别后翻译) | 输出为文本或翻译后的字幕、翻译音频(TTS) | 噪音、口音、重叠讲话会影响识别准确率 |
| 视频 | MP4, MKV, AVI, MOV, WMV, FLV | 支持(提取音轨→ASR→翻译;可做画面OCR) | 可导出为带翻译字幕或嵌入翻译后的视频文件 | 编码与分辨率影响处理速度与精度 |
| 字幕 | SRT, VTT, ASS | 支持(时间戳与文本直接处理) | 支持(保留时间轴,输出同类字幕) | 可批量翻译并保持时间轴同步 |
逐类详细讲解(用费曼法解释)
1. 纯文本与办公文档(最简单的一类)
纯文本(TXT)就像白纸写字,最容易翻;Word、Excel、PowerPoint 则像带格子的白纸或有图表的报表。易翻译直接读取这些文件里的文本内容,翻译后通常能导出为 DOCX、XLSX、PPTX 或纯文本。要注意两点:一是表格里的公式或图表说明性文本需要手动检查;二是很多旧版 DOC(非 DOCX)或带宏的文件可能先需转换。
2. PDF:分为“可检索”与“扫描”两种
可检索的 PDF(文本层存在)就像已经打印但能被电脑选中文本的书页,易翻译直接抽文本;扫描 PDF 则像拍照的书页,需要先做 OCR(光学字符识别)。OCR 的准确度依赖字体清晰度、扫描分辨率和语言种类。复杂排版、两栏排版或有旋转文本的 PDF,可能出现段落错乱或表格识别错误,所以导出成可编辑的 DOCX 后通常还要人工校对。
3. 图片和拍照的文本(手机拍照取词)
图片翻译靠 OCR,把图片上的字转换成可翻译的文本。常见场景是菜单、路牌、合同照片等。建议拍照时保持光线均匀、避免反光、分辨率高于 1000×600,这样识别更稳。对于手写体,识别准确率会明显下降(除非是非常整齐的手写)。
4. 音频与实时语音(ASR → 翻译)
把语音翻译想成两步走:先把声音“听成文字”(ASR),再把文字翻成目标语言。支持文件上传(如 MP3、WAV)和实时通话/麦克风输入。环境噪声、多人对话重叠、方言和口音都会影响第一步的识别;识别错误会传导到翻译,所以最好在安静环境下录音或使用录音设备,提高采样率(建议 16kHz 以上)。
5. 视频与多轨媒体
视频翻译通常先把音轨抽出来做 ASR,然后将时间戳与文本生成字幕(SRT/VTT)。如果视频中含有屏幕文字(比如教学视频的演示文稿),还可以对画面做 OCR,从而把屏幕文字也纳入翻译。这意味着你能得到两类输出:1) 翻译后的字幕文件;2) 带嵌入式字幕的成品视频(视平台功能而定)。
6. 字幕文件(SRT/VTT/ASS)
字幕文件本身就是带时间轴的文本,翻译时要保留时间戳,易翻译支持同步翻译并输出同格式文件(例如翻译 SRT 并保留原有时间码)。对于 ASS 等带样式的字幕,样式信息通常保持,文本替换后要注意字符长度可能导致显示拥挤。
7. 网页与HTML
HTML 文件需要解析标签与文本,易翻译会忽略标签本身,只翻译可见文本,但不会修改 CSS。需要注意字符编码(UTF-8 最常见,GBK 也会遇到),如果编码不对,中文会乱码,翻译器先要识别到正确编码才能翻译。
功能与导出选项:你能得到什么样的结果?
- 原格式导出:对 Office 文档和某些 PDF,常可导出为可编辑的 DOCX/PPTX/XLSX,保留大部分文本与简单排版。
- 双语对照:生成左右并列或上下并列的原文-译文文档,便于校对与审阅。
- 字幕与时间轴保留:SRT/VTT/ASS 等时间码保持不变,文本替换为目标语言。
- TTS 语音合成:将翻译结果输出为语音文件,常见格式为 MP3/WAV,适合语音导览或听力材料。
- 逐句/批量翻译:支持批量上传多个文档或批量处理字幕段落。
限制与常见坑(重要)
别忽视这些,省得你拿到结果后怀疑人生:
- 文件大小与页数限制:平台通常对单文件大小或每日处理量有上限,大文件需拆分或使用付费/企业版。
- OCR/ASR 的误识别:图片模糊、手写、低采样率音频、口音重的语音都会导致文字识别错误,影响翻译质量。
- 复杂排版与特殊字体:嵌入字体、复杂表格或数学公式可能无法完美转换。
- 隐私与合规:敏感内容(个人数据、商业机密、受保护资料)在上传前要确认服务商的隐私政策与数据保留条款。
- 术语一致性:机译可能会对专有名词或术语产生不一致翻译,使用词汇表/术语表能提高一致性。
实战小技巧(怎么做才能更快更准)
- 先清洗文本:删除无关页眉页脚和水印,表格中尽量把非文本图形单独保存。
- 图片拍摄技巧:尽量平稳、避免反光、光线充足,分辨率高(推荐至少 2MP),对齐文本方向。
- 录音设置:用外置麦克风、靠近说话人,避免多人同时讲话,采样率 16kHz 或更高。
- 使用术语表:上传或指定术语表,确保专有名词或品牌名一致。
- 分段校对:对长文档先做抽检,遇到表格或图表内容优先人工校对。
举几个使用场景与操作步骤(一步一步来)
场景一:翻译带有表格的合同 PDF
步骤很直观:
- 上传 PDF(如果是扫描件,选择 OCR 模式);
- 选择源语言和目标语言,设定导出为 DOCX 或双语对照;
- 下载后用 Word 检查表格、签章位置和段落;
- 必要时把表格复制到 Excel 校验数值和格式。
场景二:给外语会议录音做字幕并生成中英文双语视频
- 上传会议录音或视频(支持 MP4/MP3 等);
- 执行 ASR 生成时间戳文本;
- 自动翻译并导出 SRT(或 VTT);
- 如果需要嵌字幕,选择“嵌入字幕”或用视频编辑软件把翻译后的 SRT 合并进视频。
场景三:旅游时快速拍照翻译菜单或路牌
打开手机摄像头进入拍照取词模式,框选需要翻译的字词,即时显示目标语言;遇到整页菜单可选择“全文翻译”或“逐段复制”功能。多数情况下就够用了——但看到手写或艺术字体时,别抱太高期望。
技术细节(对技术用户有用)
如果你关心编码、采样和文件头那些细节:文本最好 UTF-8 编码;音频采样率 16kHz 及以上、单声道优于立体声用于识别时更稳定;视频建议 H.264 编码的 MP4,处理速度更快。对于 PDF,带文本层的 PDF(可选中文本)比纯图片 PDF 更容易保留原格式。
常见问题(FAQ)
Q:可以翻译手写笔记或白板吗?
A:可以尝试,但准确率取决于字迹清晰度和拍摄质量。对于草书或潦草笔记,识别率会下降,人工整理往往不可避免。
Q:翻译结果能直接用作正式发布吗?
A:机译速度快但并不总是完美,尤其是法律、医学、财务等行业文档,建议人工后校或使用专业译员审校。
Q:批量翻译大量文件有限制吗?
A:有的,公共版一般有文件大小和数量限制,企业版或 API 通常提供更高配额和定制化服务。
一句话建议(别当结尾,只是个提醒)
把文件准备好、提高源文件质量、利用术语表和后校对流程,往往比盲目追求“全自动”要靠谱得多。嗯,我就这样边写边想的把这些点铺开了,可能还有些你会在实际操作中碰到的小问题,到时候再细聊。