为什么Android的Evernote总是印象笔记剪藏失败网页失败

Q:印象笔记剪藏的只保持网页正文的功能是怎么实现的?
14:34:27 +08:00 · 3272 次点击
有人分析过吗?做得很强,基本没有错过。
第 1 条附言 &·&
10:34:56 +08:00
回答维基:
* boilerpipe(2012~now):
* readability(2010~now):
* cx-extractor():
这是本文回复提到的主要几个。如有需要我再完善。
21 回复 &| &直到
13:22:06 +08:00
& & 14:38:31 +08:00
相比之下,为知的网页剪藏就做的不好
& & & 14:39:09 +08:00
讲一个基本的算法思路:遍历所有的 DOM 节点(忽略部分,比如 p 和 span ,主要关注 div 和 td ),找出其中正文信息量最大的一个。
& & 14:55:05 +08:00
& & 14:56:29 +08:00
可以看下这个
& & 15:08:07 +08:00
楼主可以看下这个
& & 15:09:09 +08:00
《数学之美》
& & 15:18:48 +08:00
我用打分的方式实现了一个 python 的版本
目前看来提取正文的准确率还不错
& & 17:02:25 +08:00
1. 广告很多时候信息量也很大,使用 adblock 来排除吗?
2. 像这篇帖子,它可以准确抽出帖子主体,但评论实际占了大头,这种情况怎么判断“正文信息量”?
& & & 17:05:21 +08:00
@ 具体是如何做到的我也不清楚细节。但是正文的出现位置是有规律可循的,比如从顺序来说,出现在 h1 之后信息量最大的一个 div 是正文的可能性较高。
& & 17:06:33 +08:00
@ 很有用,有 python 的版本吗
@ 是你写的?
@ 很有趣,晚上我看看,刚好我也在做 PDF 抽取
@ 有看过,没说到这个吧
& & 17:13:53 +08:00 via Android
我也在想这个问题,好像有种算法是计算文本密度,不过我觉得计算链接数量,统计正文对应的标签应该也有效果
& & 17:37:57 +08:00
python 有个 dragnet
& & 17:50:03 +08:00
提到了一个 boilerpipe 这个库,有好几种算法可以选择。
提取这篇文章的
& & 17:54:16 +08:00
应该是根据文本量来计算的,比如现在这个页面,我点了一下剪藏,结果选中了右下角的 100offer 的广告,目测当前页面上就是这个广告元素的文本内容最丰富
& & 17:55:09 +08:00
@ 我的 adblock 默认把广告过滤了,应该有这个不同
& & 17:56:06 +08:00
@ python 的也有
& & 19:19:37 +08:00
网页正文抽取算法
& & 21:28:40 +08:00
试了一下印象笔记的剪藏功能,网页正文居然是右边的广告。。。
& & 16:29:58 +08:00
& & 21:08:31 +08:00
我的倒是正确提取了主题,该更新了?
& &148 天前
@ 大部分的时候印象笔记都是正常的,实在不正常的时候就只能尝试选择或者复制粘贴了
& · & 2970 人在线 & 最高记录 3541 & · &
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.1 · 29ms · UTC 08:45 · PVG 16:45 · LAX 01:45 · JFK 04:45? Do have faith in what you're doing.为什么安卓版的印象笔记总是剪藏网页失败? - 知乎有问题,上知乎。知乎作为中文互联网最大的知识分享平台,以「知识连接一切」为愿景,致力于构建一个人人都可以便捷接入的知识分享网络,让人们便捷地与世界分享知识、经验和见解,发现更大的世界。55被浏览<strong class="NumberBoard-itemValue" title="1分享邀请回答21 条评论分享收藏感谢收起Best Note Taking App | Organize Your Notes with Evernote
Capture, organize, and share notes from anywhere. Your best ideas are always with you and always in sync.
Sign Up for Free
Remember Everything
Organize your work and declutter your life. Collect everything that matters in one place and find it when you need it, fast.
Work Smarter
Enhance your notes with links, checklists, tables, attachments, and audio recordings. Even handwritten notes are searchable.
Bring It All Together
Organized teams get more done. From initial brainstorm to finished project, make Evernote your team hub and find productivity bliss.
Millions of people rely on Evernote to stay organized and get more done. Find out why.
TIPS & RESOURCES
What if there was a way for teams to share, learn, & work together more efficiently? Now there is.
USING EVERNOTE
What&#39;s in a note? Anything you want. Here&#39;s a few dozen ideas to make your notes even more useful.
TIPS & RESOURCES
See how Spaces in Evernote Business tackles data growth and helps teams work better together.一键剪藏网页 & Evernote帮助中心
%{query}中的%{count}个搜索结果
正在显示 %{total} 中的%{current} 个关于%{query}的搜索结果
非常感谢!
感谢你的反馈。
你要查看的页面不存在
可能你输错了地址,或者这个页面已经被移除
查看所有%{count}话题
播放视频 %{current} 中的 %{total}
视频 %{total}中的%{current}
Current Wait: 5 minutes
9AM - 5PM (CST)
网站目前正在维护中,给您造成不便,敬请谅解。
网站目前正在维护中,给您造成不便,敬请谅解。
7 AM - 6 PM CST
{[{article.title}]}
一键剪藏网页
1. 开启剪藏
点击工具栏中的大象头按钮,打开Web Clipper。在IE浏览器中,请先找到工具菜单(齿轮按钮),然后点击管理加载项(‘&&')工具栏和扩展。请确认“剪藏至Evernote 5”已启用。如果未启用,请启用并重启浏览器。
2. 选择剪藏类型
根据你的内容和排版偏好,选择保存类型。剪藏还特别针对一些网站做了优化,比如LinkedIn,你可以选择只保存对你重要的部分。
注:支持不同浏览器的网页剪藏类型
选择下面任一种保存类型:
支持Google Chrome、Safari、IE 7+、Microsoft Edge和Opera浏览器
这一选项将自动检测博客、新闻或网页的正文。修改剪藏网页的区域,请点击屏幕上的+或-按钮,也可以通过键盘上的上下方向键更改。
支持Google Chrome、Safari、IE 7+、Microsoft Edge和Opera浏览器
“隐藏广告”功能,会自动清除网页广告和导航,给你一个最简洁清新的页面,去除一切干扰,带来最舒适的阅读体验。
支持Google Chrome、Safari、IE 7+、Microsoft Edge和Opera浏览器
这个选项会把整个网页保存下来,包括导航栏、页眉页脚和图片。如果你想完整保留网页原貌,这就是最好的选择。
支持Google Chrome、Safari、IE 7+、Microsoft Edge和Opera浏览器
只想收藏网址,不想保存网页内容?保存“网址”功能,为你快速保存网址、一幅精选图片和一段文字摘要,方便你随时返回网页查看。
支持GoogleChrome,Safari,IE 7+和Opera浏览器。 目前暂不支持Microsoft Edge浏览器。
对浏览器当前窗口截图。你还可以对截图进行裁剪,并在上面添加文字、图形和图章等精美标注。
支持GoogleChrome,Safari,IE 7+和Opera浏览器。 目前暂不支持Microsoft Edge浏览器。
使用浏览器打开PDF文档时,还可以将保存完整的PDF文件并作为新建笔记的副本保存到你的Evernote帐户中。
支持Google Chrome、Safari、IE 7+、Microsoft Edge和Opera浏览器
在网页中选中部分内容,可以是文字或图片,再开启剪藏并点击此选项,就可以只保存这部分到笔记。
剪藏热门网站
支持Google Chrome、Safari、IE 7+、Microsoft Edge和Opera浏览器
Web Clipper专门针对一些网站做了优化,让你存储更容易。你可以一键将LinkedIn页面以简洁清新的排版保存成笔记,留待日后浏览或标注修改。
剪藏热门网站
支持Google Chrome、Safari、IE 7+、Microsoft Edge和Opera浏览器
Web Clipper专门针对一些网站做了优化,让你存储更容易。你可以一键将LinkedIn页面以简洁清新的排版保存成笔记,留待日后浏览或标注修改。
3.快速整理
只要点击保存按钮,Web Clipper就会智能保存网页内容和网址到你的默认笔记本中。
如果你不希望将内容保存到默认笔记本中,你可以选择指定笔记本:
标题:对根据网页标题自动生成的网页剪藏重命名。
笔记本:选择一个你想要保存网页剪藏的笔记本。Evernote的智能归档功能将尝试根据你过去整理笔记的方式预选出最有可能保存的笔记本。
标签:为网页剪藏指定一个或多个标签。如需移除标签,点击此名称旁的X。
注释:添加评论或注释,方便你记住剪藏内容。
通过剪藏保存的网页内容,包括图像中的文字都可以完全搜索到。输入任意关键词,就可以找到你保存的网页。
LANGUAGES_SUPPORT LANGUAGES_INCLUDE=tr,da,nl,fi,it,pt
这篇文章有帮助吗?
仍未找到你需要的内容?当前位置: >
> 如何保存网页至印象笔记中 印象笔记保存网页教程
如何保存网页至印象笔记中 印象笔记保存网页教程
  印象笔记的功能非常丰富,如果你想要将网页上的信息快速保存下来,就可以用印象笔记推出的“印象笔记·剪藏”(简称“剪藏”)浏览器插件,它能够帮助你快速而轻松地将网页上的所有内容保存到印象笔记中。下面小编就为大家介绍一下。
软件推荐:&&&&&&  IE 10浏览器使用剪藏  1、安装了印象笔记之后,印象笔记会自动在IE浏览器中添加相应的印象笔记剪藏工具插件(加载项)。  如果你使用的是IE 10浏览器,那么在安装后可能会找不到剪藏工具的按钮,这时候你可以直接在浏览器工具栏空白处点击鼠标右键,然后在弹出的菜单中选择“命令栏”寻找。  2、有了剪藏插件之后,你在IE浏览器中看到需要保存的网页时就可以直接点击工具栏上的“印象笔记 剪藏”按钮。  3、或者也可以直接在网页上点击鼠标右键,在弹出的菜单中选择“保存到印象笔记 4”。  4、软件会自动识别网页中的主体内容区域,你可以根据需要来调整并将内容采集到不同的笔记本。  Chrome浏览器使用剪藏  1、在印象笔记网站中点击“印象笔记·剪藏”图标,然后点击“获取印象笔记·剪藏Chrome版”按钮。  2、Chrome浏览器会自动打开Chrome网上应用商店并跳转到印象笔记·剪藏的安装页面。  3、然后点击“添加至Chrome”按钮并进行安装。  4、安装完成后可看到印象笔记的图标出现在Chrome浏览器的工具栏上,同时页面自动跳转到剪藏的说明网页。  用网页剪辑插件保存完整的网页到印象笔记帐户里,文字、图片和链接都可以保存下来,有需要的朋友可以去试试。
最新推荐文章
5.85GB/简体中文
  《文明5》应用全新游戏引擎,导入六角格机制,采用了崭新的战斗系统、深度的外交...

我要回帖

更多关于 印象笔记剪藏失败 的文章

 

随机推荐