在Python下使用Txt2Html实现网页过滤代理的教程

发表于 5年以前  | 总阅读数:492 次

在撰写本 developerWorks 系列文章的过程中,我曾遇到过以最佳格式进行撰写的问题。文字处理程序格式都是专用的,在格式之间转换总不能尽如人意,也很麻烦(而且每种格式都会各自将文档绑定到不同的专用工具,这种情况又与开放源码的精神相违背)。HTML 还算中立 -- 也许您现在阅读的文章正是这种格式 -- 但它也添加了标记,而这些标记很容易引起误输入(或者使人束缚于 HTML 增强型编辑器)。DocBook 是一种有趣的 XML 格式,它可以转换成许多目标格式,并且它拥有技术文章(或书籍)的正确语义;但就像 HTML 一样,在撰写过程中会担心许多标记。LaTeX 特别适合复杂的印刷格式;但它也有许多标记,而这些文章并不需要复杂的印刷格式。

为了在写作时能真正省心 -- 特别是要具有平台和工具的中立性 -- 无格式 ASCII 正是最好的选择。但是,因特网(特别是 Usenet)建议在完全无格式文本的基础上,开发一种"智能 ASCII"文档的非正式标准(请参阅 参考资料 )。"智能 ASCII"只添加了一点额外的语义内容和上下文,而且它们在文本显示中看起来是那么"自然"。电子邮件、新闻组邮件、FAQ、项目自述文件 (README) 和其它电子文档通常包括一些印刷/语义元素,如强调字前后的星号、标题下的下划线、描述文本关系的竖直和水平空格、有选择性的全大写和其它一些信息。Project Gutenberg(请参阅 参考资料 )是一种惊人的成果,它将许多想法加入其自身格式构思中,并认为"智能 ASCII"是长时间保存和分发好书的最佳选择。即使这些文章不会像文学名著那样经久不衰,仍决定将它们写成"智能 ASCII"格式,并用方便的 Python 脚本将它们自动转换成其它格式。
介绍 Txt2Html

Txt2Html 最初是一个简单的文件转换器,从其名称上就可以看出。但因特网建议在工具上添加几个明显的增强功能。因为有许多读者想以"HTML 化"格式查看的文档都在 http: 或 ftp: 链接的后面,所以工具应该真正直接处理这样的远程文档(而不需要下载/转换/查看循环周期)。因为转换的目标最终是 HTML,通常我们要做的就是在 Web 浏览器中查看转换后的目标文档。

将这些放到一起后,Txt2Html 就成了"基于 Web 的过滤代理"。这个词很奇特,也许恰好能"完全表达其含义"。它们体现了以下想法:程序代表您阅读 Web 页面(或其它资源),以某种方式处理内容,然后以某种比原始页面 更好 的形式(至少能满足某些特殊目的)向您显示该页面。这种工具的一个很好例子就是 Babelfish 翻译服务(请参阅 参考资料 )。在通过 Babelfish 运行了 URL 之后,您看到的 Web 页面与原始页面非常相似,但它显示了您能够读懂的文字,而不是您不理解的语言。在某种程度上,所有显示搜索结果页面摘要的搜索引擎所做的都是相同的事情。但那些搜索引擎(按设计)在目标页面的格式以及外观方面有更多的自由度,同时会去掉许多内容。当然,Txt2Html 并不如 Babelfish 那样功能强大;但概念上,它们很大程度上完成相同的事情。请参阅 参考资料以获取更多的例子,其中一些还很幽默。

Txt2Html 最大的优点是使用许多编程技巧,而这些技巧对于不同面向 Web 使用 Python 是共通的。本文将介绍那些技巧,并会说明编码技巧和一些 Python 模块的作用域。请注意:Txt2Html 中的实际模块叫做 dmTxt2Html,以避免与其他人编写的模块名称发生冲突。

使用 cgi 模块

Python 标准发行版中的 cgi 模块对于任何用 Python 开发"公共网关接口"应用程序的人来说都是意外惊喜。可以不使用它来创建 CGI,但您不会这样做。

最通常的情况下,您会通过 HTML 表单与 CGI 应用程序进行交互。要填写调用 CGI 的表单以执行使用规范的操作。例如,Txt2Html 文档使用这个例子来调用 HTML 表单(Txt2Html 自身生成的表单比较复杂,并且可能会改变,但示例将会很好地工作,甚至是在您自己的 Web 页面中):
调用 'Txt2Html' 的 HTML 表单

<form method="get" action="http://gnosis.cx/cgi/txt2html.cgi">  
 URL: <input type="text" name="source" size=40>  
 <input type="submit" name="go" value="Display!">  
</form>

可以在 HTML 表单中包括许多输入字段,而字段可以是许多不同类型中的一种(文本、复选框、单选列表、单选按钮等)。任何讲述 HTML 的好书可以帮助初学者创建定制 HTML 表单。此处最需要牢记的是每个字段都有名称属性,而以后会在 CGI 脚本中使用该名称来引用该字段。另一个需要了解的细节是表单可以使用以下两种方法中的一种:"get" 和 "post"。它们的基本差异是 "get" 在 URL 中包括了查询信息,并且这个方法使用户易于保存特定查询以便日后重复使用。另一方面,如果您不希望用户保存查询,请使用 "post" 方法。

以上表单调用的 Python 脚本将导入 cgi 以使整理其调用表单变得更容易。这个模块所做的一件事就是隐藏 CGI 脚本中 "get" 和 "post" 方法之间差异的任何细节。在进行调用之前,这并不是 CGI 创建程序需要操心的细节。该 CGI 模块的主要作用是处理类似于字典样式的调用 HTML 表单中的所有字段。您所得到的并不是 真正 的 Python 字典,但它们的使用方式极其相似:
使用 Python [cgi] 模块


    import
         cgi, sys
      cfg_dict = {
        'target': 
        '<STDOUT>'}
      sys.stderr = sys.stdout
      form = cgi.FieldStorage()

        if
         form.has_key(
        'source'):
       cfg_dict[
        'source'] = form[
        'source'].value

在以上几行中,要注意几处细节。我们所使用的一个技巧是设置 sys.stderr = sys.stdout。如果我们的脚本遇到了一个未捕获的错误,通过这个操作,追溯就显示回到客户机浏览器。这可以节省许多调试 CGI 应用程序的时间。但您也许不想让用户看到这些(或者如果它们可能向您报告问题详细信息,您也许会向用户显示这些内容)。接着,我们将 HTML 表单值读取到类似于字典的 form 实例中。表单有一个 .has_key() 方法,这与真正的 Python 字典非常相似。但是,与 Python 字典不同,要真正获取键中的值,我们必须查看键的 .value 属性。

至此,HTML 表单中的所有东西都成了纯 Python 变量,而且我们可以在其它任何 Python 程序中处理它们。

使用 urllib 模块

就像大多数 Python 模块一样,urllib 以直观且简单的方法处理许多复杂事物。urllib 中的 urlopen() 函数可以处理任何远程资源 -- 无论是 http:、ftp: 还是 gopher: --就将它当作是本地文件。如果使用 urlopen() 抓取了一个远程(伪)文件对象,可以将它当作本地(只读)文件的文件对象来进行处理:
使用 Python [urllib] 模块


    from
         urllib 
        import
         urlopen

        import
         string
      source = cfg_dict[
        'source']

        if
         source == 
        '<STDIN>':
       fhin = sys.stdin

        else
        :

        try
        :
       fhin = urlopen(source)

        except
        :
       ErrReport(source+
        ' could not be opened!', cfg_dict)

        return

         doc = 
        ''

        for
         line 
        in
         fhin.readlines(): 
        # Need to normalize line endings!
       doc = doc+string.rstrip(line)+
        '\n'

我曾遇到过一个小问题,由于生成资源的平台和您的平台使用不同的行结束约定,生成的文本中可能会发生某些奇怪的事(这似乎是 urllib 中的错误)。这个问题的解决方法是在以上代码中执行小小的 .readlines() 循环。不管该资源原来是什么样子,这个操作会给您一个字符串,它都有所使用平台的正确行结束约定(估计可能合理)。

使用 re 模块

由于本文篇幅限制,这里只讨论一部分规则表达式。参考资料中列出了许多关于该主题的参考书籍。 re 模块在 Txt2Html 中的使用很广泛,用于标识源文本中的各种文本模式。我们查看一个比较复杂的例子:
使用 Python [re] 模块


    import
         re

        def
          URLify
        (txt):
       txt = re.sub(
        '((?:http|ftp|gopher|file)://(?:[^ \n\r<\)]+))(\s)',

        '<a href="\\1">\\1</a>\\2', txt)

        return
         txt

URLify() 是一个小巧函数,它的功能正如其名称所示。如果在"智能 ASCII"文件中遇到了类似于 URL 的字符串,它将转换成 HTML 输出中同一个 URL 真正的热链接。让我们看看 re.sub() 的作用。首先,从最主要的角度来看,函数的目的是"查找与第一个模式中的值匹配的字符串,然后通过将第三个变量作为要操作的字符串,以第二个模式替换匹配结果"。非常好,从这些角度来看,它与 string.replace() 没有什么区别。

第一个模式有几个元素。首先,请注意括号:最高层次由两对括号组成:(\S) 前复杂的字符串。括号对与可能组成部分替换模式的"子表达式"匹配。第二个子表达式 (\s) 只表示"查找与任何空格字符匹配的字符串,让我们回过来看什么与之匹配"。因此,让我们研究一下第一个子表达式。

Python 规则表达式有它自己的一些技巧。其中一个技巧是子表达式开始处的 ?: 运算符。这表示"查找子模式的匹配字符串,但不包括反向引用中的匹配结果"。那么,让我们检查一下这个子表达式:

((?:http|ftp|gopher|file)://(?:[^ \n\r<\\)]+))。

首先,请注意这个子表达式本身由两个子表达式组成,两者之间的字符并不属于任何一方。但是,每个子表达式都由 ?: 开头,它表示这两者匹配,但不是为了满足引用目的。第一个"非引用"子表达式只表示"查找类似于 http 或ftp 或 其它值的字符串"。接着,我们看到字符串 :// ,它表示查找与它完全相似的字符串(简单吗?)。最后,我们看到第二个子表达式,它除了有由方括号组成的"不引用"运算符外,还有一个加号。

在规则表达式中,方括号只表示"查找与方括号中任何字符的匹配字符"。但是,如果第一个字符是插入记号 (^),含义则相反,它表示"查找任何与后面的字符 不匹配的字符"。因此,我们正在查找 不 是空格、CR、LF、"<" 或 ")" 的字符(还请注意,可以通过在字符前面加 "\",避开对于规则表达式有特殊意义的字符)。结尾处的加号表示"查找最后字符串的一个或多个匹配"(星号表示"零个或多个",问号表示"零个或一个")。

这个规则表达式有许多内容有待理解,但如果多看几遍,您就会明白这就是 URL 的格式。

接着就是替换部分。这就更简单了。看上去类似 \\1 和 \\2 (或者 \\3 、 \\4 等,如果需要的话)的部分就是刚谈到的"反向引用"。\\1(或 \\2)表示模式与匹配表达式的第一个(或第二个)子表达式相匹配。替换部分的其余组成部分没有什么特别含义:只是一些容易识别为 HTML 代码的字符。有一件事比较麻烦,那就是匹配 \\2 -- 它看上去就是一个空格字符。也许有人会问:"有什么麻烦的?为什么不直接插入一个空格字符?"问得好,实际上我们不 需要 执行对 HTML 的操作。但从美学角度来看,最好让 HTML 输出尽可能保留转换成 HTML 标记之前的源文本文件外观。尤其是,让我们将换行符保留成换行符,空格就是空格(Tab 键就是 Tab 键)。

 相关推荐

刘强东夫妇:“移民美国”传言被驳斥

京东创始人刘强东和其妻子章泽天最近成为了互联网舆论关注的焦点。有关他们“移民美国”和在美国购买豪宅的传言在互联网上广泛传播。然而,京东官方通过微博发言人发布的消息澄清了这些传言,称这些言论纯属虚假信息和蓄意捏造。

发布于:1年以前  |  808次阅读  |  详细内容 »

博主曝三大运营商,将集体采购百万台华为Mate60系列

日前,据博主“@超能数码君老周”爆料,国内三大运营商中国移动、中国电信和中国联通预计将集体采购百万台规模的华为Mate60系列手机。

发布于:1年以前  |  770次阅读  |  详细内容 »

ASML CEO警告:出口管制不是可行做法,不要“逼迫中国大陆创新”

据报道,荷兰半导体设备公司ASML正看到美国对华遏制政策的负面影响。阿斯麦(ASML)CEO彼得·温宁克在一档电视节目中分享了他对中国大陆问题以及该公司面临的出口管制和保护主义的看法。彼得曾在多个场合表达了他对出口管制以及中荷经济关系的担忧。

发布于:1年以前  |  756次阅读  |  详细内容 »

抖音中长视频App青桃更名抖音精选,字节再发力对抗B站

今年早些时候,抖音悄然上线了一款名为“青桃”的 App,Slogan 为“看见你的热爱”,根据应用介绍可知,“青桃”是一个属于年轻人的兴趣知识视频平台,由抖音官方出品的中长视频关联版本,整体风格有些类似B站。

发布于:1年以前  |  648次阅读  |  详细内容 »

威马CDO:中国每百户家庭仅17户有车

日前,威马汽车首席数据官梅松林转发了一份“世界各国地区拥车率排行榜”,同时,他发文表示:中国汽车普及率低于非洲国家尼日利亚,每百户家庭仅17户有车。意大利世界排名第一,每十户中九户有车。

发布于:1年以前  |  589次阅读  |  详细内容 »

研究发现维生素 C 等抗氧化剂会刺激癌症生长和转移

近日,一项新的研究发现,维生素 C 和 E 等抗氧化剂会激活一种机制,刺激癌症肿瘤中新血管的生长,帮助它们生长和扩散。

发布于:1年以前  |  449次阅读  |  详细内容 »

苹果据称正引入3D打印技术,用以生产智能手表的钢质底盘

据媒体援引消息人士报道,苹果公司正在测试使用3D打印技术来生产其智能手表的钢质底盘。消息传出后,3D系统一度大涨超10%,不过截至周三收盘,该股涨幅回落至2%以内。

发布于:1年以前  |  446次阅读  |  详细内容 »

千万级抖音网红秀才账号被封禁

9月2日,坐拥千万粉丝的网红主播“秀才”账号被封禁,在社交媒体平台上引发热议。平台相关负责人表示,“秀才”账号违反平台相关规定,已封禁。据知情人士透露,秀才近期被举报存在违法行为,这可能是他被封禁的部分原因。据悉,“秀才”年龄39岁,是安徽省亳州市蒙城县人,抖音网红,粉丝数量超1200万。他曾被称为“中老年...

发布于:1年以前  |  445次阅读  |  详细内容 »

亚马逊股东起诉公司和贝索斯,称其在购买卫星发射服务时忽视了 SpaceX

9月3日消息,亚马逊的一些股东,包括持有该公司股票的一家养老基金,日前对亚马逊、其创始人贝索斯和其董事会提起诉讼,指控他们在为 Project Kuiper 卫星星座项目购买发射服务时“违反了信义义务”。

发布于:1年以前  |  444次阅读  |  详细内容 »

苹果上线AppsbyApple网站,以推广自家应用程序

据消息,为推广自家应用,苹果现推出了一个名为“Apps by Apple”的网站,展示了苹果为旗下产品(如 iPhone、iPad、Apple Watch、Mac 和 Apple TV)开发的各种应用程序。

发布于:1年以前  |  442次阅读  |  详细内容 »

特斯拉美国降价引发投资者不满:“这是短期麻醉剂”

特斯拉本周在美国大幅下调Model S和X售价,引发了该公司一些最坚定支持者的不满。知名特斯拉多头、未来基金(Future Fund)管理合伙人加里·布莱克发帖称,降价是一种“短期麻醉剂”,会让潜在客户等待进一步降价。

发布于:1年以前  |  441次阅读  |  详细内容 »

光刻机巨头阿斯麦:拿到许可,继续对华出口

据外媒9月2日报道,荷兰半导体设备制造商阿斯麦称,尽管荷兰政府颁布的半导体设备出口管制新规9月正式生效,但该公司已获得在2023年底以前向中国运送受限制芯片制造机器的许可。

发布于:1年以前  |  437次阅读  |  详细内容 »

马斯克与库克首次隔空合作:为苹果提供卫星服务

近日,根据美国证券交易委员会的文件显示,苹果卫星服务提供商 Globalstar 近期向马斯克旗下的 SpaceX 支付 6400 万美元(约 4.65 亿元人民币)。用于在 2023-2025 年期间,发射卫星,进一步扩展苹果 iPhone 系列的 SOS 卫星服务。

发布于:1年以前  |  430次阅读  |  详细内容 »

𝕏(推特)调整隐私政策,可拿用户发布的信息训练 AI 模型

据报道,马斯克旗下社交平台𝕏(推特)日前调整了隐私政策,允许 𝕏 使用用户发布的信息来训练其人工智能(AI)模型。新的隐私政策将于 9 月 29 日生效。新政策规定,𝕏可能会使用所收集到的平台信息和公开可用的信息,来帮助训练 𝕏 的机器学习或人工智能模型。

发布于:1年以前  |  428次阅读  |  详细内容 »

荣耀CEO谈华为手机回归:替老同事们高兴,对行业也是好事

9月2日,荣耀CEO赵明在采访中谈及华为手机回归时表示,替老同事们高兴,觉得手机行业,由于华为的回归,让竞争充满了更多的可能性和更多的魅力,对行业来说也是件好事。

发布于:1年以前  |  423次阅读  |  详细内容 »

AI操控无人机能力超越人类冠军

《自然》30日发表的一篇论文报道了一个名为Swift的人工智能(AI)系统,该系统驾驶无人机的能力可在真实世界中一对一冠军赛里战胜人类对手。

发布于:1年以前  |  423次阅读  |  详细内容 »

AI生成的蘑菇科普书存在可致命错误

近日,非营利组织纽约真菌学会(NYMS)发出警告,表示亚马逊为代表的电商平台上,充斥着各种AI生成的蘑菇觅食科普书籍,其中存在诸多错误。

发布于:1年以前  |  420次阅读  |  详细内容 »

社交媒体平台𝕏计划收集用户生物识别数据与工作教育经历

社交媒体平台𝕏(原推特)新隐私政策提到:“在您同意的情况下,我们可能出于安全、安保和身份识别目的收集和使用您的生物识别信息。”

发布于:1年以前  |  411次阅读  |  详细内容 »

国产扫地机器人热销欧洲,国产割草机器人抢占欧洲草坪

2023年德国柏林消费电子展上,各大企业都带来了最新的理念和产品,而高端化、本土化的中国产品正在不断吸引欧洲等国际市场的目光。

发布于:1年以前  |  406次阅读  |  详细内容 »

罗永浩吐槽iPhone15和14不会有区别,除了序列号变了

罗永浩日前在直播中吐槽苹果即将推出的 iPhone 新品,具体内容为:“以我对我‘子公司’的了解,我认为 iPhone 15 跟 iPhone 14 不会有什么区别的,除了序(列)号变了,这个‘不要脸’的东西,这个‘臭厨子’。

发布于:1年以前  |  398次阅读  |  详细内容 »
 相关文章
Android插件化方案 5年以前  |  237273次阅读
vscode超好用的代码书签插件Bookmarks 2年以前  |  8108次阅读
 目录