[[ ]] 404 KIDS SEE GHOSTS
13.3K subscribers
369 photos
97 videos
2 files
908 links
科技丨社科哲丨泛文化与艺术

AI, Robotics, Tools for Thoughts, Startups, Rockets, and Humans.

Blog: https://kidsseeghosts.art/
Group: @ghosttown666
Contact: @madebyblackstack
Download Telegram
学术研究利器丨文献、图谱与 AI

这个专题其实从频道初就有想法,一直没确定适合的 COMBO 内容。关于学术研究的利器,主要是对前沿文献的处理,文献趋势追踪(包括 RSS 技术)、文献图谱过滤以及 AI 处理都是最适合的。其它工具的、单独文献库的则不算。

这个频道每一个单独主题都会持续更新,Telegram 作为我的「动态知识库」,后续会建立索引。我也非常感谢很多小伙伴提供很多有用有意思的工具,这里属于每一个人。我频道主题分享很少使用 similar site,google related 这样处理,其中用到的工具多是比较系统的联系在一起,涌现并形成一种 COMBO 能力。
---

The Observatory of International Research:今天的发现,根据研究趋势和期刊排名来陈列当前前沿文献研究内容,几乎涵盖所有学科,追踪领域前沿内容。

Ask a question, get conclusions from research papers:AI 处理,提出问题并从文献研究中得出结论。昨天在「封装系 AI」中。

Summit Keyword Graph:论文关键词可视化图谱,点击节点随即推出相关论文信息及溯源 paper source,对于论文追踪,主题写作很有用。

Connected Papers:同上,非常强的相关论文推荐、展示与可视化。
---
Research Rabbit:又一个文献 dig 利器。可视化、个性化推荐、关键词图谱,Similar Work 等功能确实不错,UI 差点意思。

Literature Review:根据某个主题关键词输入,直接生成文献综述和引用文献列表。

Elicit:同上,根据主题推荐文献,并形成摘要一览,也有过滤等。(加持 chatgpt4

Paperdigest:人工智能总结文献,给定文献链接 DOI 直接生成总结摘要,适用文献浏览泛读。这个也算文献利器相关。
---
arXiv Xplorer:加持 openai 的 arXiv 关键词搜索。

PubMed 图谱

Athena
Athena 是专门为 AI 研究员推荐 AI 文献的网站,可以 Bookmark 相关论文以及订阅你搜索的主题。

Semantic Scholar?
这是 AI 驱动的免费文献搜索研究工具,搜索文献时的分类/联系/索引非常强大。

reference
RSS 源的全平台烧制
可视化图谱
科塔学术导航
封装系 AI

#AI #academic
补充关于 AI 的研究利器和文献库

Athena
Athena 是专门为 AI 研究员推荐文献的网站,可以 Bookmark 相关论文以及订阅你搜索的主题。类似我们之前分享过的 arXiv Xplorer 开源文献库的语义搜索引擎,以及 BriefGPT丨AI 论文总结摘要速递(它现在支持 RSS 了)。

Semantic Scholar?
这是 AI 驱动的免费文献搜索研究工具,搜索文献时的分类/联系/索引非常强大。

Reference
学术研究利器丨文献、图谱与 AI(已补充)
arXiv Xplorer
arXiv AI RSS
BriefGPT丨AI 论文总结摘要速递

#AI #academic
学术百科及其它百科内容
Welcome to Scholarpedia

Scholarpedia 是经同行评议并开放获取的学术维基,由世界各地的学术专家编写维护共同策展,以主题深入和发散,学科领域涉及数学和科学领域(物理/生物/行为/社会科学),很好的知识库。Scholarpedia 以术语切入可以结合前面我们分享的各种 AI 辅助进行主题研究。

前面我们还分享了人类知识领域的未解之谜的百科内容,也涉及关于数学、哲学、物理、语言等没有答案的问题。以及科幻小说的百科网站

Reference
学术研究利器丨文献、图谱与 AI
Prompt 辅助关键词入门学习与主题研究
GPT 辅助关键词主题学习与研究
Books Ngram Viewer丨谷歌推出的文本分析工具
Wolfram|Alpha

#academic
经典有趣的论文推荐
Ask HN: What are the best papers you read in your life?

这个帖子不错,分享了很多有趣经典的论文,包括自然科学和社会科学在内的各种研究。现在网络文章大多信息密度太低,噪点多,而真正凝练有价值的内容还是在书籍和文献中,我后面也会多挖掘分享各领域论文相关期刊和内容。

前面我分享了不少杂志文章订阅源,还有些论坛帖子推荐,可以结合看。下面就分享帖子里提到的一些有趣论文:

A Mathematical Theory of Communication
香农的「通信的数学理论」

Proof of an External World
如何确认自己是不是「缸中之脑」

Best linguistics paper ever: “The perception of rhythm in language”
语言学与韵律

The Universe of Minds
心灵设计:哲学和人工智能的结合

POSSIBLE GIRLS
模态实在论与平行宇宙

“I’m Not Mopping the Floors, I’m Putting a Man on the Moon”: How NASA Leaders Enhanced the Meaningfulness of Work by Changing the Meaning of Work
关于领导力的论文

Reference
有趣的论坛讨论
AI 前沿文献研究列表的追踪网站
我的阅读系统

#academic
Sci-Hub 创始人荣获「EFF」颁发的奖项
Sci-Hub’s Alexandra Elbakyan Receives EFF Award for Providing Access to Scientific Knowledge

最近影子图书馆 Sci-Hub 的创始人 Alexandra Elbakyan 荣获「电子前沿基金会 EFF」颁发的奖项,以表彰其在科学知识开发获取方面所做的努力。

电子前沿基金会(The Electronic Frontier Foundation)EFF 奖项主要颁发给那些争取在线自由和创新斗争中发挥领导作用的人,之前获奖者包括互联网之父 Vint Cerf/ Linux 创造者 Linus Torvalds /斯诺登的前辈超级泄密者 Chelsea Manning.

Alexandra Elbakyan 也曾多次被美国指控侵犯版权并强制关掉网站,而她仍在不断更换域名来继续运营,挑战科学进步的真正威胁-学术出版商垄断,以实现知识的平等/自由/开放获取。

Reference
人类 10% 的文本遗产被永久保存
annas-archive 世界最大开源及开放数据图书馆

#academic
AI(GPT4V) 和人文科学的未来
Translating Latin demonology manuals with GPT-4 and Claude.
11 creative ways to use GPT-4's vision features in ChatGPT.

这两篇文章可以结合看。第一篇作者使用 GPT4 和 Claude2 翻译一本 1200 页的魔鬼学(Demonology)书籍,主要通过 OCR 文本放入模型中翻译并提取,最终结论是 Claude 在处理和提取更长上下文文本时优于 GPT4(100k tokens),LLM 将成为辅助原始材料翻译和分析时必不可少的工具,但无法替代研究员。

AI 人文科学的研究实例(Digital Humanities)我前面有分享文章,提到 AI 在模拟人社会行为时可以提供大量有效参考样本。这里 AI 主要辅助史学研究和学术遗产处理,AI 可以根据不完美原材料提供猜测,如早期印刷时「光学字符识别 OCR」出现的乱码文本;大型语言模型拥有大量历史数据背景;再结合目前的 GPT Vision 版本可以更全面总结和分析材料。
AI could replace humans in social science research

第二篇文章介绍了 GPT4V 主要用途,作为多模态版本(Vision/ Voice), GPT4V 可以在编程中根据截图和绘图重建仪表板、解释图片模因、教育辅导/作业分析、设计建议等,最后也提到了在历史手稿中的破解和翻译(OCR 识别),人文学科的游戏规则改变。

德国社会学家尼古拉斯·卢曼,一生共创作 90000 多条 Zettelkasten 卡片笔记,50 多本书、数百篇论文、150 多份未出版手稿。现在关于卢曼学术遗产翻译和编辑的项目仍在继续,其中一个项目已持续到 2030 年(Niklas Luhmann – Theorie als Passion. Wissenschaftliche Erschließung und Edition des Nachlasses)。而卢曼的卡片盒笔记都是手写纸质卡(Antinet Zettelkasten),滑片箱作为沟通伙伴,以母语德语手写为主,因此其学术遗产翻译量和难度巨大,而现在 GPT4V 或将能助攻和加速该项目。

Reference
关于卢曼介绍 Zettelkasten 原始论文

#AI #academic
如何成为学术明星丨公共知识分子的社会学研究
Publisher pulls books about philosophers Žižek and Venn over citation issues

最近芝加哥大学出版社下架禁售了约克大学社会学家 Eliran Bar-El 的书籍《成为齐泽克:一位公共知识分子的数字化形塑历程》(How Slavoj Became Žižek: The Digital Making of a Public Intellectual)。这是一本关于「公共知识分子」的社会学研究作品,探讨了世界最具影响力的公共知识分子齐泽克及其「齐泽克现象」的背后溯源和发展,由于引用问题下架,安娜档案可下载

这本书从齐泽克在斯洛文尼亚公民社会作为思想家/政治人物的早年开始,介绍他沉浸学术、参与辩论和公职竞选。随后在上世纪 90 年代,齐泽克作为英语世界的学术明星崛起,以其独特的表述风格和修辞武器库「Hegelacanese」(受黑格尔和拉康的修辞影响)发展并完善。911 事件后,齐泽克开始活跃在全球银幕,评论全球性事件,反恐战争/金融危机/阿拉伯之春等。作者展示了齐泽克利用数字时代的媒介力量驾驭不同的观众,发展出一种游离在专家与普通人语言之间的混合语言,以全球性创伤事件为主题,利用不断变化的思想格局(intellectual landscape)以及作者所称我们的知识社会(knowledge societies),形塑自身。这本书也探讨了些学术八卦,学术圈的明争暗斗/拉帮结派/走穴捞钱。

如何打造学术明星?齐泽克、鲍曼与吉登斯的社会学启示,这篇文章就结合 Eliran 内容介绍了齐泽克和吉登斯等人成为学术明星的一些条件:

齐泽克成名术
1 介入公共新闻事件,活跃在批评网络中。齐泽克近年也评论了不少新冠疫情/塔利班政权/乌克兰战争等事件。
2 在出版业占在强势地位,齐泽克担任过 Verso,MIT,Duke 等多个出版社的丛书主编。
3 独有语言风格/修辞/笑话,发展自己的风格。
4 依托出版商和线上媒体资源拓宽影响力。

吉登斯成名术
1 尽早瞄准大师经典,展现重述、翻译与复活的能力,以其他人容易接受的方式定义经典。
2 将学术兴趣与当代最紧迫的主题联系起来。
3 培养自己的评论家和粉丝,慷慨地参与他们的讨论。
4 运用迭代的方式,将自己已有产出再更新和结合新兴的知识。
5 拥有自己的出版社或者找到自己的出版传播渠道。
6 编辑专业期刊。
7 占个有声望机构的教职。

Reference
为什么齐泽克在法国不受欢迎、但在英国风光无限?公知的社会学研究
剑桥博士论文被撤稿

#academic #books
arXiv 文献阅读的隐藏方式

最近看到 arXiv 文献网站两个很有意思的隐藏阅读方式(src),在 arXiv 摘要页更改替换 URL 中 arxiv 不同域名字母,可直接跳转到处理该文献不同形式网站,以 HTML 版本阅读,用 AI 直接处理。

如图示文献摘要页 URL:
https://arxiv.org/abs/1502.03808

替换「x」为「5」跳转到 HTML 版本阅读
https://ar5iv.org/abs/1502.03808

替换「v」为「w」跳转到 TXYZ AI 处理
https://arxiw.org/abs/1502.03808

添加「chat」跳转到 ChatDOC 帮读论文
https://chatarxiv.org/abs/1502.03808

---
HTML 网页好处是可以直接使用网页翻译工具和各种插件 AI 处理,也方便手机阅读。arXiv Vanity 这个网站也可以直接摘要 URL 转 HTML 页面。

Reference
arXiv Xplorer
arXiv AI RSS
BriefGPT丨AI 论文总结摘要速递
学术研究利器丨文献、图谱与 AI

#ai #academic
沉浸翻译插件已支持 arXiv 论文直接处理

前面我们分享了「arXiv 文献阅读的隐藏方式」,今天发现「沉浸翻译插件」已经给 arXiv 平台所有论文在摘要页添加了双语版本快捷入口(src),直接进入双语翻译的 HTML 页面,效果奇好。

据说后面「沉浸翻译」还会通过 AI+OCR 方案优化 PDF 文件解析和翻译,阅读的未来!

Reference
arXiv 文献阅读的隐藏方式

#academic #reading
[[ ]] 404 KIDS SEE GHOSTS
Photo
GPT4V OCR 测试识别卢曼手写卡片

最近关注到各种大模型的 OCR 能力,就用 GPT4V 深入处理了下卢曼的手写卡片笔记内容,发现 GPT4V 识图这方面仍然独一档。 Bard 这些模型对于普通的英文识别还行,像德语文本以及这些手写,OCR 基本残废,更不用说卢曼这种意识流笔记 。

我使用卢曼第二卡片盒系统的相关编号卡片 Niklas Luhmann-Archiv,以及图中的 9/8b2,基本是弱智回答,不知所云,识别能力完全为 0。然后我重新会话进行了如图的四张内容输入训练(9/8,9/8a,9/8b,9/8b1),以及德语原文对照。再给出图上 9/8b2 这张笔记来进行识别,效果如图,它给的准确度自评结果是可接近 50%,因为主要概念错误。但实际来看,这种识别确认输出已经非常惊人,而且概念幻觉完全是可训练的,目前 GPT4V 优势也在于会进行上下文 CoT,不同程度地补充这些概念,只是数据量的问题。

训练后输出对照:

9/8b2 "Multiple storage" als Notwendigkeit der Speicherung von komplexen (komplex auszu-wertenden) Informationen.
9/8b2 "多重存储 "是存储复杂(评估复杂)信息的必要条件。

9/8b2 "multiple storage" als Voraussetzung für die Scheidung von Komplexen (Komplexe von-) Variablen von Variablen.
9/8b2 "多重存储 "是变量与变量复合体(复合体的)分离的先决条件。

卢曼的学术遗产翻译和编辑项目现在还在进行,一直到 2030 年。按这种趋势,到 2024 年下半年开始,大模型成熟爆发,这项工作会和大多历史人文研究实例一样,可能提前下班。

最近「第二大脑」书籍作者 Tiago Forte 就使用 GPT4V 处理他的手写笔记,他也对照了 Apple IOS/ Readwise 的 OCR 功能,效果差劲,GPT4V 则效果完美,GPT4 会在代码框中转录文本,它还会思考并根据上下文单词推断,这也是它优于其它 OCR 应用的地方。另外,X 友 @遁一子 也测评了 GPT4V 的能力,结合 Google OCR 效果也非常好。读纸质书可以直接做笔记,扔 ChatGPT。

在上述经验中,大模型 OCR 本来的能力是有限的,优势在于能够上下文推理,这意味着你使用「tell me every detail you see with your vision」比你直接要求进行 OCR 识别会好很多。

Reference
AI(GPT4V)和人文科学的未来

#ai #academic
INTERNET ARCHIVE丨互联网档案学术版
https://scholar.archive.org/

这个有点爆炸,INTERNET ARCHIVE 推出了个 Scholar 学术版本,收录包括互联网档案馆中超 3500 万篇研究论文和各种学术文档/古早的数字副本/最新的会议记录和抓取的网络预印本内容。

目前还在 Beta 阶段,已经非常舒服,可以考虑常驻搜索引擎。

相关链接
1 人类知识之光丨安娜的档案/读秀数据库/ LLM data
2 学术研究利器丨文献、图谱与 AI
3 学科/领域研究前沿信息/数据丨Current Awareness Lists
4 搜索引擎终极索引
5 学术百科及其它百科内容
6 有趣的维基百科网站丨理论和文化

#academic #search