导航:
论坛 -> DELPHI技术
斑竹:liumazi,sephil
作者:
2020/5/12 8:14:40
标题:
加入我的收藏
楼主:
经常看见有 Python 写的爬虫。 想用 DELPHI 来实现会如何。 原来用 DELPHI 来实现,也很简单。花了一个小时左右。300行左右代码。 爬取彼岸网壁纸。 没有什么高深的技术。主要是正则表达式的运用。 由于对此不熟悉,所以正则表达式和 Pos 函数交替使用了。 支持从上次保存的地方,开始下载,不用重头下载。 这是为了防止你的 IP 有可能被停的情况,和程序关闭后下次在运行。 感兴趣的朋友可以参考。 地址: https://github.com/dbyoung720/PBox/tree/master/Module/Spider
----------------------------------------------
武汉天气不好
作者:
2020/5/12 8:58:33
1楼:
py都是成品模块 R5259601 P146101
----------------------------------------------
[alias] co = clone --recurse-submodules up = submodule update --init --recursiveupd = pullinfo = statusrest = reset --hard懒鬼提速https://www.cctry.com/ >http://qalculate.github.io/downloads.htmlhttps://www.cctry.com/
作者:
2020/5/12 11:09:28
2楼:
主要是正则表达式的运用。 这个是实话
----------------------------------------------
链接:https://pan.baidu.com/s/12jzmECYKhGCsHBxz8tmB6w 提取码:pelr --来自百度网盘超级会员V9的分享
作者:
bjlg (蓝天)
★☆☆☆☆
-
盒子活跃会员
2020/5/12 17:41:11
3楼:
不同网站不同 如果有xpath更好了
----------------------------------------------
http://delphi.icm.edu.pl/ftp/http://delphi-z.ru
作者:
2020/5/13 10:48:54
4楼:
https://github.com/search?l=Python&q=xpath&type=Repositories py的xpath 429 repository results https://github.com/search?l=pascal&q=xpath&type=Repositories pascal 的 10 repository results
----------------------------------------------
[alias] co = clone --recurse-submodules up = submodule update --init --recursiveupd = pullinfo = statusrest = reset --hard懒鬼提速https://www.cctry.com/ >http://qalculate.github.io/downloads.htmlhttps://www.cctry.com/
作者:
2020/5/13 23:55:22
5楼:
主要需要稳定,多线程,任务池,等等~! python是很多成熟的模块直接使用,但是安装应用太麻烦! 其实还是希望delphi能有大牛写一套这样的模块来应用--
----------------------------------------------
-
作者:
2020/5/14 7:42:56
6楼:
@bjlg: xPath、libxml2 都是 C 语言写的,用 BC 编译一下,就可以用在 DELPHI 中了。 @blugflag: 你就是大牛。
----------------------------------------------
武汉天气不好
作者:
2020/5/15 13:50:52
7楼:
@dbyoung 事实是 不管是基于现成的库也好 原生的库也好 并没有一个可靠的Xpath库 xPath、libxml2 都是 C 语言写的,用 BC 编译一下,就可以用在 DELPHI 中了 这个 我这种不会CC++的人 就是想拿现成的用啊。。。
----------------------------------------------
-
作者:
2020/5/15 18:10:43
8楼:
libxml2的 pascal 翻译,见附件
----------------------------------------------
一路风雨走过,因为有你们
作者:
2020/5/16 9:24:30
9楼:
github上,有个能用的开源html-xpath,纯pascal源码项目:https://github.com/ange007/HTMLp
----------------------------------------------
相信自己,若自己都不相信,那还有谁可信。
作者:
2020/5/16 9:26:36
10楼:
github上搜索 httpscan 4.02 有一个完整的控件源码,楼主还不如直接把控件升级下,能支持 xe执行。
----------------------------------------------
相信自己,若自己都不相信,那还有谁可信。
作者:
2020/5/16 13:48:13
11楼:
你永远叫不醒一个装睡的人,也永远感动不了一个不爱你的人
----------------------------------------------
武汉天气不好
作者:
2020/5/16 15:21:07
12楼:
to 乐天无极 搜不到啊,根本没有pascal的代码 to dbyoung 你在11楼的话真经典,学习了,谢谢!
----------------------------------------------
只有偏执狂才能生存!
作者:
2020/5/16 16:21:45
13楼:
11楼前半句是对的,后半句就不一定,感动一个人不是十分的难,但感动归感动,不爱还是不爱。 成年人,如果他想骂你,无论你说得多么的有道理他多半依然会骂你;如果他有出卖你的念头,无论你对他有多么好,时机一到他依然多半会出卖你。 成年人就有这一规律,小孩没有;道不同不相为谋就是这意思。
----------------------------------------------
软件是什么,相信很多人都说不清。
作者:
lsuper (lsuper)
★☆☆☆☆
-
盒子活跃会员
2020/5/16 16:32:51
14楼:
一直用武大侠的 HtmlParser.pas,不过确实还是有非标的 html 文件,需要解析前特殊替换
----------------------------------------------
-
作者:
2020/5/17 20:53:30
16楼:
https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/ 把这个看完怕是。。pascal都不用写 。。。
----------------------------------------------
[alias] co = clone --recurse-submodules up = submodule update --init --recursiveupd = pullinfo = statusrest = reset --hard懒鬼提速https://www.cctry.com/ >http://qalculate.github.io/downloads.htmlhttps://www.cctry.com/
作者:
2023/2/11 9:28:03
17楼:
https://github.com/dbyoung720/PBox/tree/master/Module/Spider 被屏蔽了, DMCA Takedown 了
----------------------------------------------
UniKeeper V10.40 -- 您最贴心的个人数据管理助手
作者:
2023/2/11 10:20:17
18楼:
被 EMB 搞了(用了 Raize 控件、和修改了 Delphi 源码)。 和 GITHUB 沟通了3天,没整回来。
----------------------------------------------
武汉天气不好
作者:
2023/2/13 9:31:28
19楼:
1.PY的库多。 2.PY很多入门课程就是爬虫。 3.爬虫只是PY数据的收集的开始,后面还涉及到数据清洗等等的,而PY这些后续的库都有。 4.PY简单上手快——这个有不炒作成分。 其实核心关键点是库多,轮子多。
----------------------------------------------
链接:https://pan.baidu.com/s/12jzmECYKhGCsHBxz8tmB6w 提取码:pelr --来自百度网盘超级会员V9的分享
作者:
2023/2/13 16:19:56
20楼:
顶楼主的分享精神。 PY 确实库多,但要用起来也挺麻烦的。 如果有 PASCAL 的代码,对于熟悉 Delphi 的人来说,用起来更简单。
----------------------------------------------
-
作者:
2023/2/13 16:21:00
21楼:
楼主的 git 地址无法访问: Repository unavailable due to DMCA takedown. This repository is currently disabled due to a DMCA takedown notice. We have disabled public access to the repository. The notice has been publicly posted. If you are the repository owner, and you believe that your repository was disabled as a result of mistake or misidentification, you have the right to file a counter notice and have the repository reinstated. Our help articles provide more details on our DMCA takedown policy and how to file a counter notice. If you have any questions about the process or the risks in filing a counter notice, we suggest that you consult with a lawyer.
----------------------------------------------
-
作者:
2023/2/13 16:40:25
22楼:
…… 被禁用帐号,帖子内容自动屏蔽! ……
----------------------------------------------
呆湾傻冒
作者:
2023/2/13 17:14:07
22楼:
18 楼,修改 Delphi 的源码,你用另外的补丁方式。 那个 alcone 控件就是这个方式,也没事。至于 raize 控件你完全可以不用嘛。我现在是尽量少用第三方控件,除非是开源的。
----------------------------------------------
-
作者:
2023/6/16 13:05:55
23楼:
httpscan 4.02 支持D7的源码。
----------------------------------------------
相信自己,若自己都不相信,那还有谁可信。
作者:
2023/6/16 15:11:07
24楼:
访问https://github.com/dbyoung720/PBox/tree/master/Module/Spider内容变通方法: https://github.com/vanlin/PBox/blob/3383c8e8b00462723d2dc93ca9919f8498da458d/src/db.uCommon.pas 哈哈哈...
----------------------------------------------
相信自己,若自己都不相信,那还有谁可信。