网页内容分析和上下文检测的方法

这个项目是波特兰州立大学高级顶点项目的一部分。它是七名学生在六个月内完成的工作。在整个项目过程中,我们与 Mozilla 顾问 Dietrich Ayala 合作,以确保项目符合最初的要求。团队由以下学生组成:

项目概述和目标

这个项目是为众多 Mozilla 项目中的一个功能进行概念验证,旨在将阅读模式扩展到文章以外的内容。我们着手解决如何“将互联网重新交到用户手中”的问题,因为网页通常充斥着不必要的内容,这会降低用户体验。

在网络基础设施薄弱、智能手机性能低、网络连接速度慢的发展中国家,这可能会给浏览带来高昂的计算成本,并影响电池续航时间。在我们的研究中,我们将问题分为四个主要方面:用户的互联网连接质量、用户的目标设备、对用户重要的内容,以及残疾人是否可以访问数据。

例如,下图显示了在测试的网页中,使用阅读模式和不使用阅读模式之间的差异**接近 6MB**。

Data Usage

通过了解网页的哪些部分是内容,哪些部分不是内容,我们可以限制数据使用,只下载相关内容。此外,如果我们可以从网站中获取必要的内容,那么用户设备可以优化这些数据的显示。

这种针对上下文呈现的数据转换可用于提高可访问性,或启用替代浏览器模型。我们概述了几种可能的有效内容分析方法。最终,我们发现,目前可用的工具只能解决我们识别出的问题的子集。但是,通过利用这些工具中的几个工具和我们在研究论文中探讨的概念,我们相信可以实现这样的功能。

这对日常网页开发者意味着什么?想象一下,在不久的将来,浏览器会内置更智能的工具,用于内容分析、检测和优化。想象一下,开发工具将使构建网站可访问性和平台特定功能变得比现在容易得多,成本也更低。

继续阅读,了解更多关于我们的发现和我们为测试想法而设计的研究。

安装和使用

我们论文中概述的过程被称为“最小上下文化”,简称上下文化。该过程分为三个主要阶段:内容分析、内容过滤和内容转换。每个阶段都包含几个步骤。

Phoenix-node 是一个用 Node.js 编写的命令行应用程序,我们开发它来分析 HTML 文档结构。它依赖于 Node.js 4.0+、npm 包管理器和 jsdom npm 包及其依赖项。

  1. 按照您的环境说明安装 Node.js 4.0+: https://node.org.cn/
  2. https://github.com/cap7pdx/phoenix-node克隆 Phoenix-node 仓库
  3. 使用‘npm install jsdom’ jsdom安装到源代码目录中。将创建一个 node_modules 文件夹。
  4. 使用‘node alt.js’运行 phoenix-node 解析http://google.com。这将打印 DOM 结构到终端。

Phoenix Output

 

研究发现

我们的研究确定了上下文化过程中的三个主要阶段:内容分析、内容过滤和内容转换。我们的研究结果侧重于内容分析。我们的研究没有涵盖内容过滤和内容转换。

 

Contextualization

对于内容分析,我们建议采取两个不同的步骤:第一步应通过利用文档结构的聚类分析来识别网站所属的“结构组”。在第二步中,可以使用几种方法来解析网站,以确定哪些内容对用户理解其含义至关重要。例如,如果将网站归类为文本为主且几乎没有其他内容的类别,那么基本阅读模式功能就足够了,例如浅层文本方法。否则,必须使用更高级的方法,例如语义片段检测(将在我们的论文中进一步讨论)。

通过我们的研究,我们能够了解现代阅读模式技术的局限性和类似研究的现状。我们团队建议的内容分析和上下文检测方法是利用聚类分析将类似的网页分组,以便了解聚类中的原型结构,并将具有相似结构的网站归类在一起。

阅读完整论文

网页内容分析和上下文检测的方法

关于 Jonathan Hasbun

更多 Jonathan Hasbun 的文章……


3 条评论

  1. André Jaenisch

    您好,Jonathan,

    感谢您撰写这篇文章的努力。
    我很抱歉地说,我认为这篇文章有点简短,读起来像是公关稿。

    我可以轻松地将整篇文章总结成以下内容:

    这个项目是波特兰州立大学高级顶点项目的一部分。它是七名学生在六个月内完成的工作。
    上下文化过程分为三个阶段:内容分析、内容过滤和内容转换,但我们将在我们的论文中只涵盖第一个阶段。
    网页内容分析和上下文检测的方法

    看,我感到失望,因为我期待阅读更深入的解释(我习惯在 Mozilla Hacks 博客上找到这种深度……)。
    当我提到公关稿时,我指的是内容重复和某些短语,例如“想象一下……”、“继续阅读以了解更多信息”和“我们着手解决这个问题”。但这可能只是当今学者的表达方式(我曾经也是其中一员 ;-))。

    也许下一篇文章会读起来更好。

    2016 年 3 月 30 日 下午 1:20

  2. ZEE Center

    是否可以以更简单的方式进行网页分析?这背后有一段很复杂的长故事,为什么项目不把它做得简单易行呢?

    2016 年 4 月 2 日 上午 9:18

  3. Evan

    我同意,目前以这种方式进行网页分析太难了。

    2016 年 4 月 12 日 下午 4:22

本文的评论已关闭。