• 岚山区拨付595 万元补助农村危房改造 2019-10-11
  • 烈日下挥汗如雨 看武警丽水支队“魔鬼周” 2019-10-11
  • 党的十九大最重大的理论成就 2019-09-19
  • 外国领导人祝贺我新一届领导人 2019-09-19
  • 西安启动唐长安城明德门遗址保护工程 2019-09-16
  • 博物馆需要高水平策展人 2019-09-11
  • 凯迪拉克:在高速公路上释放双手很安全 2019-09-11
  • 苗山脱贫影像志——父母在 不远行 2019-09-04
  • 96次航拍峨眉 换个角度看巴蜀名山 中国国家地理网 2019-08-31
  • 张一山恋情遭曝光,女友竟是她… 2019-08-21
  • 人民日报评论员:在党的引领下汇聚圆梦力量 2019-08-05
  • 长治职业技术学院“学习新思想千万师生同上一堂课活动”首场授课开讲 2019-08-05
  • 清华美院“毕业拍”作品被一抢而光 2019-07-31
  • “互联网+”开启乌鲁木齐智能环保时代 2019-07-05
  • 重大疾病贫困患者报销补偿比超90% 2019-06-25
  • 财童神算:LaTeX 技巧 958:给过大的 arXiv 投稿文件“瘦身”

    最老版特码诗 www.kdltu.tw 本文介绍,向 arXiv 提交文章,因为文件过大被卡住时的办法。第一种办法:优化“照相”性 EPS 文件的结构,并以 Level 2 EPS 保存。第二种办法:使用 PDFLaTeX, 直接插入 JPEG 等格式点阵图。最后介绍矢量图和点阵图的一些背景。用到的软件包: Ghostscript, ImageMagick, LaTeX 和 PDFLaTeX.

    过大的稿件

    我们向 arXiv 提交论文预印本时,有时候在上传了所有文件后会出现一行提示:您的一个文件或多个文件大小的总和过大。这时,虽然可以继续正常地提交并预览生成的 PDF 文件,但提交完成后的稿件会被挂起,直到修正了文件过大问题,或者与管理员联系申请手工处理后,才能见诸网站的每日更新。遇到这种问题,合适的处理办法是自己动手,缩减文件占据的空间。

    正如 arXiv 相关帮助文件 所说,绝大多数文件过大的问题,往往是少数巨大的图形文件导致。这可以理解成“二八定律”的一种体现:在超大的投稿文件包中,约 20% 的图形占去了近 80% 的空间。这意味着我们往往只需要找出这些超大图形,并想办法缩小它们即可。arXiv 自身的说明文档提供了一些参考,这里则是讲讲我们自己的经验。

    我们最需要注意的一个问题就是:某些“照相”而非矢量性质的图片,以过高的分辨率,甚至是原始分辨率,保存成了 EPS矢量格式,特别是 Level 1 EPS. 过大文件十有八九是这类情况。以下我们介绍两种方法,分别是压缩 EPS 文件内嵌的巨型点阵图后以 Level 2 EPS 重新封装,还有直接在 LaTeX 文档中插入 JPEG 和 PNG 格式点阵图。

    方法一:优化巨大的 EPS 文件

    压缩未经优化的 EPS 文件内嵌图像

    一旦发现了原始文件中有巨大的点阵图,特别是存为巨大、未经优化的 Level 1 EPS 文件者,首先我们要做的就是提取出这幅图像,将它用 JPEG 等有损格式压缩。这里,我们提供一个用“瑞士军刀” ghostscript 这一工具来实现的方法:

    gs -dBATCH -dNOPAUSE -q           \ # 减少 gs 信息输出
       -sOutputFile=output.jpg         \ # 导出文件的路径
       -sDEVICE=jpeg -dJPEGQ=95 -r120x120    \ # JPEG 配置选项
       -dEPSCrop                \ # 用 EPS BoundingBox 截幅
       input.eps                   # 输入文件名

    重要的部分是 -sDEVICE=jpeg -dJPEGQ=95 -r120x120 这一行,我们解释一下:

    • -sDEVICE=jpeg: 告诉 Ghostscript 选中 JPEG 导出功能。

    • -dJPEGQ=95: 选择 JPEG Quality (画质)参数,在 0 到 100 之间(以 95 为例)?;试礁?,压缩程度越小,损失越小,但文件越大。选择过小将严重损害图像的质量。

    • -r120x120: 选择将矢量图点阵化时的分辨率为 120 DPI. 分辨率越高,相应的文件也越大。分辨率以适应屏幕显示和普通打印机简易打印为好,一般不需要超过 300, 经验表明 100 左右够用。纵横方向上 DPI 最好一样,否则图像会变形。

    请注意不要漏掉了 -dEPSCrop 选项,这样输出的结果才能根据 EPS 文件头里的 BoundingBox 元数据确定画幅。否则,输出的图像画幅将正比于默认的纸张大?。ㄍǔJ?A4 或 Letter),在页面四周留下无用的白边。

    导出后,可以查看一下生成的图像画幅、文件大小、画质是否满意,否则可以微调上述几个参数。如果图像有白边,说明输入图像可能有 bug. 最常见的 bug 是某些程序生成 EPS 时没有正确地声明文件类型。这是,请用文本编辑器打开这个文件,看看文件头几行是否有类似

    %!PS-Adobe-3.0 EPSF-3.0
    %%BoundingBox: 42 170 467 510
    %%LanguageLevel: 1

    的部分(具体位置可以有些差别)。如果定义文件类型的第一行 shebang line 缺少 EPSF-x.y 的结尾(具体版本号 x.y 可能各异),Ghostscript 将不能认为这是 EPS 文件,从而忽略 BoundingBox. 这时候可以在文本编辑器里参考前面的 PS 版本号将其补全,再重新操作。

    在 LaTeX 下使用压缩后的图像

    现在我们有了压缩后的图像在手,如何使用呢?如果你之前使用的图形文件都是 EPS 格式,并且不想做什么改动了,一个自然的想法是将这幅有损压缩过的图像封装在一个新的 EPS 文件里。

    做这件事的时候要注意,此时如果封装的目标文件是 Level 1 EPS, 那么几乎可以肯定起不到任何压缩大小的作用!我们必须将这张 JPEG 图像输入到支持压缩格式点阵图的 Level 2/3 EPS 文件中。这一步可以借助另一把瑞士军刀 ImageMagick 完成。

    例如,下面的命令可以将 JPEG 文件输出为 Level 2 EPS: (注意:新版本命令改为了:magick )

    convert input.jpg eps2:output.eps

    注意到,我们指定输出文件名时,在前面加上了指定的文件格式 eps2, 和文件名用一个冒号 (:) 隔开。如果不指明 EPS 版本等级是 eps2(即 Level 2 EPS),默认输出的是我们不想要的 Level 1 版本。

    当然,我们也可以生成 Level 3 EPS 文件,只需要把格式从 eps2 换成 eps3 即可。如果担心兼容性,Level 2 是更好的选择。

    方法二:使用 PDFLaTeX 直接插入 JPEG 图片

    另一种办法是直接在投稿文件的 LaTeX 源码中使用刚才生成的 JPEG 图像。为了做到这一点,需要告诉 arXiv 后台的服务器开启 PDFLaTeX 支持。PDFLaTeX 支持的图像类型包括 JPEG, PNG 和 PDF. 为此,我们需要检查一下,文章中用到的所有图像是否都已经是这三种格式之一。既然我们已经将点阵图转化成了 JPEG 格式,剩下的就是考虑矢量图了。而矢量图更适合保存为 PDF 这样的矢量格式。对于 EPS 格式的矢量图,我们还可以用 Ghostscript 附带的 ps2pdf 工具转换一下:

    ps2pdf -dEPSCrop input.eps output.pdf

    进行这一步时仍然要注意查看所生成的 PDF 文件纸张大小是否遵从 EPS BoundingBox, 页面四周是否出现过多白边。如果有,则需要像之前所说那样,改动输入的 “EPS” 文件。

    ps2pdf 可以接受 Ghostscript 的各种选项,因此如果有需要的话可以通过这些选项进行字体嵌入、RGB 到 CMYK 颜色空间转换等高级操作,这里就不一一介绍了。

    另外值得说明的是,PNG 格式对某些类型的图形可能更适合。PNG 本身是一种点阵格式,但其算法适合保存以明锐边沿、几何形状为主的图像。例如,用灰度不同的格子方阵展示某个相关矩阵的构型,可以考虑 PNG 点阵图。

    准备好了 PDFLaTeX 用的图像文件,就可以在正文中插入了。这只需要和往常一样,使用 LaTeX graphicx 包的 \includegraphics 宏指令即可:

    \begin{figure}
        \caption{...}
        \label{...}
        \includegraphics[...]{filename.jpg/png/pdf}
    \end{figure}

    最后,为了让 arXiv 后台的 LaTeX 处理程序默认调用 PDFLaTeX, 需要在主文件的前 5 行内加上一句指令:

    \pdfoutput=1

    矢量图和点阵图:背景介绍

    论文中出现的图形,大致可以分为两种用途:一种是“可视化” (visualization), 用于将抽象的数据和理论测算、预言等,用几何的散点、线条、区块和文字注记等“要素” (elements) 加以呈现,以解释某个观点;另一种是“照相” (photograph), 用于写实地反映某些对象(如天体)以供读者观察,获取直观印象。两者用途不同决定了特点不同:前者适合描述为留白的背景之上放置的各类“要素”——每个要素不再可分割,而非排列成 M × N 格点阵的一组像素 (pixels); 后者则适合描述为像素的集合,像素之间除了“相邻”不再有别的逻辑关系?;痪浠八?,前者适合保存为矢量图 (vector graphics), 后者适合保存为点阵图 (raster graphics).

    这幅可视化图形是若干几何要素(线条、区块和文字等)的组合,它适合用矢量格式保存,如 EPS, PDF 或者 SVG.

    这张 M31 星系的照片是像素组成的阵列。保存这类图像最好使用点阵格式文件,如 JPEG. (原图作者 Adam Evans, 有所裁切、旋转)

    明白了这个,也就明白了为什么我们通常用 EPS 或 PDF 这样的矢量格式文件保存可视化图表。我们的图表本身“分辨率”是无限的,它们是纯几何形状。保存它的文件应该包含的是构造这些形状的指令(因此文件本身往往不大),而阅读器、打印机之类,做的事情就是按照这些指令尽量无损地在屏幕或者纸张上“渲染” (render) 出可供我们目视的点阵图。通常情况下,论文中这类图形居多,所以 EPS 等格式在科研一族中如此流行。

    这种流行的一个副产物是,我们偶尔需要插入点阵图,比如某个天体的照相时,也会出于惯性保存为 EPS 等格式。这种惯性甚至都不来自我们自身——标准的 latex 程序很难接受其他格式的文件。问题在于,用矢量格式文件保存点阵图是极端低效的。此种低效的一个来源在于,点阵图中往往天然存在较高的冗余度 (redundancy). 当我们把“原始”的点阵图直接输出成 EPS(特别是 Level 1 EPS)等矢量格式的文件时,我们实际上是在保存一组“无比复杂”、几乎逐点进行的图形构造指令。这种指令本身不能提高图形固有的信息量,其复杂性对我们大脑阅读图像也毫无用处,徒增存储空间。

    特别是,我们的正式投稿文件可能还多多少少需要接近“原始”的点阵图,以便出版过程中各项处理的使用。而投到 arXiv 上的预印本如果只是供读者较方便地“看看”,那么未压缩的原始无损点阵图就没什么存在的意义了,这时将其有损压缩很是划得来。

    最后,如果你的文件过大的原因不是这里讲的这些,而是是因为用点阵格式保存了本应该用矢量格式保存的图表,那么请为它们立刻重新创制矢量图,而不是微调已有的点阵图。这里说的点阵图调整,仅限于图像是“照相”类的情况。

    选自:https://cma.lamost.org/2014/downsizing-oversized-arxiv-submissions 

    分享到:
    未经允许不得转载:LaTeX 技巧 958:给过大的 arXiv 投稿文件“瘦身”
    已有 条意见

      最新文章

      加载中...
        本站提供专业LaTeX排版、咨询、定制服务,请点击下图咨询详情


        全国首个精品的LaTeX视频教程,大牛带着你入门,让LaTeX学习不再纠结,请点击下图咨询详情

        热门评论

          联系我们

          交流QQ群:91940767
          本站QQ号:343083553
          邮箱联系[email protected]
          淘宝店铺https://shop240512713.taobao.com/ 提供排版,模板定制,培训,图片处理,视频教程等LaTeX服务。

          关注我们微信公众号

          如果您投稿或者希望加入我们团队,请发送您的简历到[email protected]。
        • 岚山区拨付595 万元补助农村危房改造 2019-10-11
        • 烈日下挥汗如雨 看武警丽水支队“魔鬼周” 2019-10-11
        • 党的十九大最重大的理论成就 2019-09-19
        • 外国领导人祝贺我新一届领导人 2019-09-19
        • 西安启动唐长安城明德门遗址保护工程 2019-09-16
        • 博物馆需要高水平策展人 2019-09-11
        • 凯迪拉克:在高速公路上释放双手很安全 2019-09-11
        • 苗山脱贫影像志——父母在 不远行 2019-09-04
        • 96次航拍峨眉 换个角度看巴蜀名山 中国国家地理网 2019-08-31
        • 张一山恋情遭曝光,女友竟是她… 2019-08-21
        • 人民日报评论员:在党的引领下汇聚圆梦力量 2019-08-05
        • 长治职业技术学院“学习新思想千万师生同上一堂课活动”首场授课开讲 2019-08-05
        • 清华美院“毕业拍”作品被一抢而光 2019-07-31
        • “互联网+”开启乌鲁木齐智能环保时代 2019-07-05
        • 重大疾病贫困患者报销补偿比超90% 2019-06-25
        • 稳赚包平特1肖高手公式 重庆时时彩龙虎合怎么打 港彩三肖6六码 藏分出款有用吗 北京pk技巧规律和口诀 扑克牌发两张憋十技巧 betoo7足球即时比分 360足球直播 曾道內幕玄机图三肖 二人麻将在线玩